資料載入處理中...
跳到主要內容
臺灣博碩士論文加值系統
:::
網站導覽
|
首頁
|
關於本站
|
聯絡我們
|
國圖首頁
|
常見問題
|
操作說明
English
|
FB 專頁
|
Mobile
免費會員
登入
|
註冊
切換版面粉紅色
切換版面綠色
切換版面橘色
切換版面淡藍色
切換版面黃色
切換版面藍色
功能切換導覽列
(216.73.216.176) 您好!臺灣時間:2025/09/08 04:22
字體大小:
字級大小SCRIPT,如您的瀏覽器不支援,IE6請利用鍵盤按住ALT鍵 + V → X → (G)最大(L)較大(M)中(S)較小(A)小,來選擇適合您的文字大小,如為IE7或Firefoxy瀏覽器則可利用鍵盤 Ctrl + (+)放大 (-)縮小來改變字型大小。
字體大小變更功能,需開啟瀏覽器的JAVASCRIPT功能
:::
詳目顯示
recordfocus
第 1 筆 / 共 1 筆
/1
頁
論文基本資料
摘要
外文摘要
目次
參考文獻
紙本論文
論文連結
QR Code
本論文永久網址
:
複製永久網址
Twitter
研究生:
王力弘
研究生(外文):
Wang, Li Hung
論文名稱:
社群媒體新詞偵測系統 以PTT八卦版為例
論文名稱(外文):
Chinese new words detection from social media
指導教授:
陳恭
指導教授(外文):
Chen, Kung
學位類別:
碩士
校院名稱:
國立政治大學
系所名稱:
資訊科學系碩士在職專班
學門:
工程學門
學類:
電資工程學類
論文種類:
學術論文
畢業學年度:
103
語文別:
中文
論文頁數:
59
中文關鍵詞:
中文斷詞
、
新詞偵測
、
社群媒體分析
外文關鍵詞:
Chinese Words Segmentation
、
New Words Detection
、
Social Media Data Analysis
相關次數:
被引用:
14
點閱:1170
評分:
下載:0
書目收藏:2
近年來網路社群非常活躍,非常多的網民都以社群媒體來分享與討論時事。 不傴於此,網路上的群聚力量已經漸漸從虛擬走向現實,社群媒體的傳播力已 經可以與大眾傳媒比擬。像台大 PTT 的八卦版就是一個這樣具指標性的社群媒 體,許多新聞或是事件都從此版開始討論,然後擴散至主流媒體。透過觀察, 網路鄉民常常會以略帶灰諧的方式,發明新的詞彙去討論時事與人物,例如: 割闌尾、祭止兀、婉君、貫老闆...等。這些新詞的出現,很可能代表一個新的熱門話題的正在醞釀中。但若以傳統的關鍵詞搜索,未必能找到這些含有此類新詞的討論文章。因此,本研究提出一個基於「滑動視窗(Sliding window)」的技巧來輔助中文斷詞,以利找出這些新詞,並進而透過這些新詞對來探詢社群媒體中的新興話題。我們以此技巧修改知名的Jieba 斷詞工具,加上新詞偵測的機制,並以 PTT的八卦版為監測對象,經過長期的的監測後,結果顯示我們的系統可以正確的找出絕大多數的新詞。此外,經過與主流媒體交叉比對,本系統發現的新詞與新話題的確有極高的相關性。
Internet new residents like to share society current event on the social media website and the influence is propagate to the reality now. For example: On Gossip(八卦版) discussion board of 台大 PTT BBS that had many post are turn into the TV News every day. After some survey we found people like to crate new words to explain society topics, This paper attempt to build up a system to detect the new words from social media. But detect the Chinese new words from unknown words is a thorny problem, on this paper we invent a way – 『Sliding Window』 to elevate the new words detection from Jieba in Chinese words Segmentation, After testing we got 96.94% correct rate and cross valid the detection result by ours system with News and Google Trending we proved the new words detection is a reasonable way to discover new topic.
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 1
1.3 研究貢獻 2
1.4 論文章節架構 2
第二章 研究探討 4
2.1 歧異性與未知詞 4
2.1.1 未知詞的擷取 5
2.1.2 未知詞的偵測 6
2.1.3 分詞錯誤的修正 7
2.1.4 N-gram 分詞 7
2.2 文章特徵詞擷取 8
第三章 社群新詞偵測系統架構與實作 10
3.1 系統設計架構 10
3.1.1 資料蒐集程式 11
3.1.2 後端資料庫 13
3.2 分析帄台查詢及排程運算 16
3.3 社群媒體新詞分析系統頁面 18
第四章 斷詞工具及現存問題 22
4.1 Jieba 的斷詞模式 22
4.2 Jieba 斷詞的問題 29
4.3 維特比算法新詞偵測模式與其缺點 31
4.4 錯誤詞的修正及新詞偵測 32
4.5 Sliding Windows 修正法 34
4.5.1 Sliding Windows 的運作過程 36
4.5.2 新詞的反饋模式 39
第五章 新詞偵測驗證及系統成果 41
5.1 Jieba 強化版的新詞偵測評估 42
5.1.1 SW 新詞偵測成果及效能比較 42
5.2 社群媒體新詞偵測系統成果展示 43
第六章 結論及未來研究 50
參考文獻 52
[1] 陳鍾誠、許聞廉,(1998),結合統計與規則的多層次中文斷詞系統。
[2] 陳聰宜,(2012),新聞事件偵測與追蹤結合時間區間之分群分類演算法評比。
[3] ACID, http://zh.wikipedia.org/wiki/ACID
[4] Chen. &; Bai. , (1998).Unknown word Detection for Chinese by Corpus-based
Learning Method.
[5] Chen. &; Ma. , (2002). Unknown Word Extraction for Chinese Document.
[6] DAG,http://www.csie.ntnu.edu.tw/~u91029/DirectedAcyclicGraph.html#1
[7] http://zh.wikipedia.org/wiki/隐马尔可夫模型
[8] http://zh.wikipedia.org/wiki/维特比算法
[9] Jieba 斷詞工具, https://github.com/fxsjy/jieba
[10]L. Jin , (2013)Number in Chinese: A Corpus-Based Computational
Investigation.
[11] Mongodb,http://docs.mongodb.org/manual/core/crud-introduction/
[12] NoSQL, http://zh.wikipedia.org/wiki/NoSQL
[13] QX Lin, (2010),結合長詞優先與序列標記之中文斷詞研究。
[14] Yi-Lun Wu, (2011),多語語碼轉換之未知詞擷取。
[15] Zhihui. Wu, Hongwei. Liu, Li. Chen, (2014),高效朴素贝叶斯 Web 新闻文本
分类模型的简易实现,The Simply Implement of Effective Statistical and
Application 统计学与应用, 3, 30-35。
[16] Z. Wu, (2014)The Simply Implement of Effective Naive Bayes Web News Text
Classification Model.
國圖紙本論文
連結至畢業學校之論文網頁
點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
推文
當script無法執行時可按︰
推文
網路書籤
當script無法執行時可按︰
網路書籤
推薦
當script無法執行時可按︰
推薦
評分
當script無法執行時可按︰
評分
引用網址
當script無法執行時可按︰
引用網址
轉寄
當script無法執行時可按︰
轉寄
top
相關論文
相關期刊
熱門點閱論文
無相關論文
無相關期刊
1.
Facebook 與 PTT的輿論結構研究
2.
就是關不掉—鄉民沉浸在PTT裡的使用經驗
3.
基於貼文分享之臉書粉絲頁關聯性分析
4.
臉書粉絲頁超連結分析系統
5.
運用文本探勘技術探討工作相關議題-以PTT為例
6.
社群媒體中鄉民對於政治議題之迴聲室效應:以PTT八卦板為例
7.
MDS文字雲:以Ptt八卦版為例
8.
虛擬社群網路口碑影響政治參與行為之研究 –以PTT平台為例
9.
透過貼文分享以蒐集相關臉書粉絲頁之機制:以太陽花運動為例
10.
網路成員之生活形態分析 - 以PTT平台為例
11.
PTT社群網站網民意見之探勘 -以太陽花學運為例
12.
跨平台社群媒體圖文檢索系統之設計與實作
13.
安卓智慧型手機上低耗電之行為感測記錄器
14.
現代校園新詞的研究──以臺北市木柵地區東山高中為例
15.
虛擬社群價值、人際吸引力、虛擬社群意識與黏著度關係之探討:以LINE和PTT為例
簡易查詢
|
進階查詢
|
熱門排行
|
我的研究室