(3.239.192.241) 您好!臺灣時間:2021/03/02 13:42
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:劉炅函
研究生(外文):Gui-Han Liu
論文名稱:中文情感分析應用於PTT之研究
論文名稱(外文):Improved Chinese Sentiment Analysis Techniques for PTT Data
指導教授:陳景祥陳景祥引用關係
指導教授(外文):Ching-Hsiang Chen
口試委員:李百靈何宗武
口試委員(外文):Pai-Ling LiTsung-Wu Ho
口試日期:2017-01-14
學位類別:碩士
校院名稱:淡江大學
系所名稱:統計學系碩士班
學門:數學及統計學門
學類:統計學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:44
中文關鍵詞:文字探勘情緒分析詞彙極性點互信息
外文關鍵詞:Text miningSentiment analysisSemantic orientationPMI
相關次數:
  • 被引用被引用:4
  • 點閱點閱:976
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
許多人會在網路上撰寫文章、彼此透過文字來交流,尤其年輕世代的人更是如此,人們在彼此交流時會有情緒的產生,同時,人們在撰寫文章時或多或少會將自己的情緒融入到文章內,比如對於某事件、某議題大眾網友的看法、情緒等。台灣大學批踢踢實業坊為現今具有代表性的討論區網站之一,其眾多的人口流量、大量的子討論區、特殊的系統架構、網友互動的方式等,產生了許多熱門文章與新穎的網路用語,經常被媒體拿來當作新聞題材。網路文章有部份詞彙具有其對應的情緒,可能為正面、也可能為負面,一般來說稱之為詞彙極性。在文字探勘領域,對於詞彙極性之標注採用人工的方式最為準確,但也最花費成本。本研究採用調整PMI的方法,期望達到自動化標注詞彙極性的部份;本研究對文章情緒分析的部份採用非監督式方法,因此不需要已標記過之訓練文章,只需要具有正負面極性之詞彙、否定詞、副詞等,與句子詞性組合做搭配來建構出文章情緒模型,藉此達到分類文章情緒之目的。
Many modern people communicate with each other with writing articles,especially the younger generation. During communication, people show their emotions whenthey writing articles. These articles include comments on social events, issues, etc. PTT is one of today’s representative forum websites at Taiwan. Features of PTT include large population traffic, many different categories of sub-forum, a special system architecture, and the way users interact etc. Therefore, PTT also generates many popular articles and internet catchphrases, which are usually adopted and strengthened by news media.

Vocabularies in internet articles have their corresponding emotions, which may be categorized as positive, negative or neutral and phrased as semantic orientations. So far, manual tagging is the most accurate way to judge the semantic orientations in text mining, with the disadvantage of higher cost. In this study, we use adjusted Pointwise Mutual Information (PMI) method to achieve auto-tagging of semantic orientations. Moreover, we use unsupervised learning method for the sentiment modeling without marked training data. With just negation words, adverb, adjective, positive and negative words etc, together with the sentence speech, we hope to achieve the purpose of classification of article’s emotions in PTT.
目錄
第一章、緒論 1
第一節、研究背景 1
第二節、研究動機與目的 2
第三節、本文架構 4
第四節、研究流程 5
第二章、文獻探討 6
第一節、中文文字處理 6
2.1.1 CKIP 中文斷詞系統 6
2.1.2 斷詞工具 7
第二節、詞彙極性 10
第三節、情緒分析 13
第三章、研究方法 15
第一節、 資料結構 15
第二節、詞彙極性方法 16
第三節、情緒分析方法 19
第四章、實例分析 27
第一節、應用資料 27
第二節、研究結果分析與討論 28
4.2.1 初步結果 28
4.2.2 移除新詞方法結果討論 33
4.2.3 移除回文標記方法結果討論 37
第五章、結論與建議 40
第一節、結論 40
第二節、未來研究發展與建議 41
參考文獻 43

表目錄
表2.1 詞性標記表(Rwordseg及JiebaR) 9
表3.1 詞庫分數表 19
表3.2 回文標記表 20
表3.3 情緒分數計算-副詞1 21
表3.4 情緒分數計算-副詞2 22
表3.5 情緒分數計算-形容詞 23
表3.6 情緒分數計算-否定詞 24
表4.1 種子詞庫正負極性表 28
表4.2 情緒分析用情感詞庫 29
表4.3 驗證結果-定值切割 31
表4.4 驗證結果-比例切割 32
表4.5 驗證結果-K倍標準差 32
表4.6 驗證結果-定值切割-新詞方法比較 34
表4.7 驗證結果-比例切割-新詞方法比較 35
表4.8 驗證結果-K倍標準差-新詞方法比較 35
表4.9驗證結果-定值切割-回文標記方法比較 37
表4.10 驗證結果-比例切割-回文標記方法比較 38
表4.11 驗證結果-K倍標準差-回文標記方法比較 38

圖目錄
圖 1.1 研究流程圖 5
圖 2.1 CKIP 中文斷詞系統結果 8
圖 2.2 Rwordseg斷詞結果 8
圖 2.3 jiebaR斷詞結果 8
圖 3.1 PTT界面 15
圖 4.1 PTT八卦板與政黑板示意圖 27
圖 4.2 組距50之情緒分數直方圖 30
圖 4.3 組距25之情緒分數直方圖 30
[1] Church, Kenneth Ward, and Patrick Hanks. “Word association norms, mutual information, and lexicography.” Computational linguistics 16.1 (1990): 22-29.
[2] Levene, Howard. “Robust tests for equality of variancesl.”Contributions to probability and statistics: Essays in honor of Harold Hotelling 2 (1960): 278-292.
[3] Royston, J. P. “Algorithm AS 181: the W test for normality. ” Journal of the Royal Statistical Society. Series C (Applied Statistics) 31.2 (1982): 176-180.
[4] Sharma, Anuj, and Shubhamoy Dey. “A comparative study of feature selection and machine learning techniques for sentiment analysis. ” Proceedings of the 2012 ACM Research in Applied Computation Symposium. ACM, (2012).
[5] Turney, Peter, and Michael L. Littman. “Unsupervised learning of semantic orientation from a hundred-billion-word corpus. ” Technical Report EGB-1094 (2002).
[6] 吳泳慶,「中文垃圾郵件客製化過濾系統之研究」,淡江大學統計學系碩士班學位論文 (2007): 1-62.
[7] 陳立,「中文情感語意自動分類之研究」,臺灣師範大學資訊工程研究所學位論文 (2010): 1-39.
[8] 陳昱年,「電影評論中情緒詞彙之極性分析」,臺灣師範大學資訊工程研究所學位論文 (2013): 1-65.
[9] 顏安孜,「中文部落格文章之相關性擷取與意見傾向分析之研究」,臺灣師範大學資訊工程研究所學位論文 (2016): 1-104.
[10] 詞性標記表 https://gist.github.com/luw2007/6016931
[11] 維基百科(形容詞) https://zh.wikipedia.org/wiki/%E5%BD%A2%E5%AE%B9%E8%AF%8D#cite_ref-LDQ_1-0
[12] 維基百科(副詞) https://zh.wikipedia.org/wiki/%E5%89%AF%E8%A9%9E
[13] 新詞產生工具 https://github.com/jannson/wordmaker
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔