跳到主要內容

臺灣博碩士論文加值系統

(44.223.39.67) 您好!臺灣時間:2024/05/22 17:23
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:黃挺豪
研究生(外文):Ting-Hao Huang
論文名稱:應用於中文意見分析之詞內暨詞間語法結構自動擷取研究
論文名稱(外文):Automatic Extraction of Intra- and Inter- Word Syntactic Structures for Chinese Opinion Analysis
指導教授:陳信希陳信希引用關係
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊網路與多媒體研究所
學門:電算機學門
學類:軟體發展學類
論文種類:學術論文
論文出版年:2009
畢業學年度:97
語文別:中文
論文頁數:88
中文關鍵詞:意見分析意見擷取構詞語法結構意見句意見詞語法關係
外文關鍵詞:opinionsyntacticmophologyNLP
相關次數:
  • 被引用被引用:1
  • 點閱點閱:366
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本研究之宗旨在於「將語法資訊引入意見分析中,改善其效能」。主要分為兩部分:詞內層次與詞間層次。
詞內層次方面,本研究首先參考各家分類方式,制定出一構詞分類架構,繼而就此架構展開語料標記工作。語料標記完成後,我們除對構詞類別分佈狀態進行統計外,亦對標記者間之答案ㄧ致性與人工標記時於各構詞類別之判定效能作了分析。分析結果顯示標記者間兩兩一致性係數(Kappa)均屬於「高度一致」範圍,肯認了此問題之信度。最後我們以《教育部國語辭典》之資訊為特徵值,於標記完成之語料集上以各種不同分類方法進行實驗,其中以條件隨機域模型(CRF)之效能最佳,對五大基本構詞類別可達到平均F分數為0.6的效能。
詞間層次方面,本研究首先比較意見句與非意見句之依存關係數量,藉此證實意見句之語法結構確有其特殊性;繼而對所有意見句之語法分析樹展開「標示意見結構」之標記工作,共標記約一萬餘句意見句,每句至少由兩位工讀生標記之。其標記結果一則可轉換為依存關係,從而比較句中「表達意見」之結構的特殊性,並歸納出14種較常用於意見表達之依存關係;另一方面,標記結果亦可直接於語法分析樹上進行預測。本研究將問題簡化為序列式標記問題,以條件隨機域模型直接於語法樹上標示出意見結構位置。並得到精確度(precision)極高、回收率(recall)偏低之實驗結果。
最後本研究亦將前述之詞內與詞間語法結構資訊施用於意見分析系統中,經實驗證實,此資訊確可改善目前之意見分析效能,致使意見句判斷達到0.8之F分數、意見詞極性判斷達到0.6之F分數。
誌謝 i
摘要 iii
目錄 v
表目錄 ix
圖目錄 xi

第一章、緒論 1
1.1 研究動機 1
1.2 研究目的 2
1.3 論文架構 2

第二章、文獻探討 3
2.1 中文文本意見分析 3
2.1.1. 以經驗方法為基礎的中文文本意見分析 3
2.1.2. 語法結構資訊於中文文本意見分析之應用 3
2.2 中文語法結構研究及其自動剖析 4
2.2.1. 詞內層次 4
2.2.1.1. 中國大陸地區 4
2.2.1.1.1. 北京大學(俞士汶、朱學鋒等) 5
2.2.1.1.2. 清華大學(苑春法、黃昌寧等) 6
2.2.1.1.3. 魯東大學(亢世勇等) 7
2.2.1.2. 國際研討會 8
2.2.2. 詞間層次 9
2.2.2.1. 賓州大學樹庫(Penn Treebank)5.1版 9
2.2.2.2. 依存關係樹 9
2.2.2.3. 史丹佛語法分析套件 9

第三章、中文詞內部語法結構自動分類 11
3.1 問題敘述 11
3.2 二字詞內部語法結構分類及其理論歧異 13
3.3 詞彙語料標記 17
3.3.1. 語料標記及過濾 17
3.3.2. 標記結果分析與文獻比較 19
3.4 二字詞內部結構自動分類 26
3.4.1. 特徵值抽取 27
3.4.1.1. 《教育部重編國語辭典修訂本》簡介 28
3.4.1.2. 使用之特徵值 30
3.4.2. 分類方法 35
3.4.2.1. 支援向量機(SVM)分類法 35
3.4.2.2. 條件隨機域(CRF)分類法 35
3.4.2.3. 單純貝氏(Naive Bayes)分類法 36
3.4.2.4. 簡單機率分類法 36
3.4.2.5. 表格分類法 38
3.5 分類效能評估 39
3.5.1. 實驗設定 39
3.5.2. 實驗結果 40
3.5.3. 討論 42
3.6 小結 43

第四章、中文詞詞間結構自動擷取 45
4.1 問題敘述 45
4.2 基本定義:意見句與意見段落 46
4.2.1. 意見句與意見詞 46
4.2.2. 意見段落 47
4.3 問題初探:意見句及非意見句之依存關係樹比較 47
4.3.1. 意見句標記 47
4.3.2. 意見句及非意見句依存關係樹分佈比較 48
4.4 中文詞詞間結構語料標記 50
4.4.1. 標記目的及使用語料 50
4.4.2. 詞間結構定義與分類 52
4.4.3. 標記方法暨「潘恩標記系統」(Pan Annotation System) 54
4.5 語料分析 57
4.5.1. 原始標記結果分析 57
4.5.2. 依存關係分析 60
4.5.2.1. 依存關係轉換方法 60
4.5.2.2. 轉換結果統計及分析 62
4.6 詞間結構自動擷取 64
4.6.1. 自動擷取方法 64
4.6.2. 特徵值抽取 66
4.6.3. 結構自動擷取效能評估 67
4.6.3.1. 實驗設定 67
4.6.3.2. 序列類型判斷 67
4.6.3.3. 直接擷取腳點 70
4.6.3.4. 討論 71
4.7 小結 71
第五章、語法結構應用於意見分析研究 73
5.1 使用構詞資訊之中文詞意見自動分析 73
5.2 使用詞間結構資訊之中文句子層次意見分析 76

第六章、總結與展望 79

參考文獻 81
附錄A:常用譯名對照表 87
附錄B:未使用之賓大樹庫句子清單 88
"MINIPAR Parse Visualization Tool." From http://ai.stanford.edu/~rion/parsing/minipar_viz.html

CIRB040: "NTCIR-6 Test Collections: Documents." From http://research.nii.ac.jp/ntcir/ntcir-ws6/data-en.html

. "The Penn Treebank Project." from http://www.cis.upenn.edu/~treebank/.

. "The Stanford Parser: A statistical parser." From http://nlp.stanford.edu/software/lex-parser.shtml.

. "教育部重編國語辭典修訂本." from http://dict.revised.moe.edu.tw/.

(2007). CRF++: Yet Another CRF toolkit. From http://crfpp.sourceforge.net/

Chang, C.-C. and C.-J. Lin (2001). LIBSVM : a library for support vector machines.

Ku, L.-W., T.-H. Huang, et al. (2009). Using Morphological and Syntactic Structures for Chinese Opinion Analysis. Conference on Empirical Methods in Natural Language Processing, Singapore.

Ku, L.-W., Y.-T. Liang, et al. (2006). Opinion extraction, summarization and tracking in news and blog Corpora. Proceedings of AAAI-2006 Spring Symposium on Computational Approaches to Analyzing Weblogs, AAAI Technical Report.

Ku, L.-W., Y.-S. Lo, et al. (2007). Test Collection Selection and Gold Standard Generation for a Multiply-Annotated Opinion Corpus. Proceedings of 45th Annual Meeting of Association for Computational Linguistics, Prague, Czech Republic.

Ku, L.-W., T.-H. Wu, et al. (2005). Construction of an Evaluation Corpus for Opinion Extraction. NTCIR 2005.

Lafferty, J., A. McCallum, et al. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. ICML.

Lu, J. (2008). Chinese Synthetic Words Analysis. Department of Information Processing, Graduate School of Information Science Nara Institute of Science and Technology. master: 72.

Lu, J., M. Asahara, et al. (2008). Analyzing Chinese Synthetic Words with Tree-based Information and a Survey on Chinese Morphologically Derived Words. The Sixth SIGHAN Workshop on Chinese Language Processing.

McCallum, A. (1998). Rainbow.

Qiu, G., K. Liu, et al. (2007). Extracting opinion topics for Chinese opinions using dependence grammar. Proceedings of the 1st international workshop on Data mining and audience intelligence for advertising. San Jose, California, ACM.

Qiu, G., C. Wang, et al. (2008). Incorporate the Syntactic Knowledge in Opinion Mining in User-generated Content. NLPIX2008 (In conjunction with WWW''08).

Tseng, H. and K.-J. Chen (2002). Design of chinese morphological analyzer. the First SIGHAN Workshop on Chinese Language Processing.

Tseng, H., D. Jurafsky, et al. (2005). Morphological features help POS tagging of unknown words across language varieties. the Fourth SIGHAN Workshop on Chinese Language Processing.

亢世勇 (2001). "《現代漢語新詞語信息(電子)詞典》的開發與應用." 辭書研究 2001(2): 55-63.

亢世勇 (2001). "《現代漢語語法信息詞典》的特點與不足." 辭書研究 2001(6): 79-116.

亢世勇 (2002). "《現代漢語新詞語資訊電子詞典》的研究與實現." International Journal of Computational Linguistics & Chinese Language Processing 7(2): 89-100.

亢世勇 (2003). "《新詞語大詞典》的編纂." 辭書研究 2003(3): 12-20.

亢世勇, 徐豔華, et al. (2005). 基於語料庫的現代漢語新詞語構詞法統計研究. International Conference on Chinese Computing, Singapore.

亢世勇, 許小星, et al. (2005). "現代漢語語義構詞規則初探." 漢語語言與計算學報 15(2): 103-112.

王惠 and 朱學鋒 (1994). 《現代漢語語法電子詞典》的收詞原則. 中國計算機報: 79-83.

石秀雙 (2007). "現代漢語雙音復合詞結構關系考察——以z字母下雙音復合詞為例進行分析." 晉中學院學報 2007(6): 1-8.

朱學鋒, 俞士汶, et al. (1995). "現代漢語語法信息辭典的開發與應用." 中文與東方語言信息處理學會通訊 1995(2): 81-86.

朱學鋒, 俞士汶, et al. (1999). "漢語語素庫的構造及其同語法信息詞典的集成." 術語標準化與信息技術 1999(2): 36-40.

李普霞 and 劉雲 (2004). "新版《現代漢語語法信息詞典詳解》的貢獻." 辭書研究 2004(3): 64-70

俞士汶, 朱學鋒, et al. (2001). "《現代漢語語法信息詞典》的新進展." 中文信息學報 15(1): 59-65.

俞士汶, 朱學鋒, et al. (1999). "現代漢語語素庫的開發及應用." 世界漢語教學 1999(2): 38-45.

苑春法 and 黃昌寧 (1998). "基於語素數據庫的漢語語素及構詞研究." 語言文字應用 1998(3): 83-88.

傅建紅 (2009). "論《現代漢語詞典》F類雙音複合詞的結構關係." 現代語文 2009(3): 49-50.

傅愛平 (2003). "漢語信息處理中單字的構詞方式與合成詞的識別和理解." 語言文字應用 2003(4): 25-33.

程祥徽 and 田小琳 (1995). 現代漢語, 三聯書店 香港.

劉雲, 俞士汶, et al. (2000). 現代漢語合成詞結構數據庫. 第二屆中文電化教學國際研討會, 廣西師範大學出版社.

穆克婭 (2008). "新雙音節複合動詞語素構詞規律研究." 現代語文 2008(12): 42-44.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top