(3.236.214.19) 您好!臺灣時間:2021/05/10 03:48
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:張岱偉
研究生(外文):Tai-Wei Chang
論文名稱:中文話語標記解譯及句子話語關係辨識之研究
論文名稱(外文):Interpretation of Chinese Discourse Markers in Discourse Relation Recognition
指導教授:陳信希陳信希引用關係
指導教授(外文):Hsin-Hsi Chen
口試委員:張俊盛林川傑古倫維
口試日期:2013-07-15
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2013
畢業學年度:101
語文別:中文
論文頁數:68
中文關鍵詞:話語標記話語關係標記歧義度半監督式學習模型標記結合性
外文關鍵詞:discourse markersdiscourse relation labelingsemi-supervised learninginterpretation of ambiguous markersmarker combination
相關次數:
  • 被引用被引用:1
  • 點閱點閱:266
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
話語關係辨識的目標是在預測任兩個篇章單位之中,最適合的句子話語關係。這對於通篇文章在語義上的判斷有很大的影響,在自然語言處理研究中是個非常重要的議題。相較於英文,由於中文語言本身的特殊性,話語標記相對具有較大的歧義性,而導致在判斷話語關係時效能上的差異。為了有效提升篇章關係辨識的效能,適當的定義話語標記的意義非常重要。
有鑑於中文尚未出現像英文PDTB、RST-DT等大規模經過完善標注的話語語料庫。本研究從ClueWeb09語料庫擷取出7,601組句子,請標注者標上最適宜的話語關係,接著利用此小規模資料集建立一半監督式學習模型。藉由參數評估的輔助,不但能有效提升話語關係辨識效能,同時更能統計出每個話語標記在PDTB所定義的四大話語關係中的機率分布資訊。
實驗結果顯示表現最佳的一組實驗的平均F-分數可達到73.22%,相較於實驗中所採用的基礎模型的69.76%效能,達到顯著性差異的效能提升。接著將此半監督式分類器擴展到更大規模未經標注的資料集,共302,293組句子,目的是統計出覆蓋度更高的話語標記機率分布資訊。統計結果在經過兩種相似度計算方法驗證下,顯示不錯的表現。最後運用統計結果和一簡單的分類法,定義出話語標記的前/後結合性關係,以期能更有效降低歧義性問題。


Not all Chinese discourse makers have unique interpretation. That becomes a challenging issue when they are used for discourse relation recognition. In this thesis, we propose a semi-supervised method to learn the interpretations of Chinese discourse markers and apply the results to discourse relation labeling. Total 7,601 sentences composed of two clauses connected with single discourse markers are sampled from ClueWeb09 and annotated with discourse relations manually. We train an SVM discourse relation classifier with the dataset and boost the classifier with parameter estimation. Our experimental result shows that the proposed approach can achieve 73.22% of F-score. The discourse relation recognition system is employed to annotate 302,293 unlabeled sentences. The ambiguous degrees of discourse markers and backward/forward combination problems are analyzed.

摘要 iii
Abstract iv
致謝 v
圖目錄 ix
表目錄 x
第一章 緒論 1
1.1 研究動機 1
1.2 研究目標 3
1.3 論文架構 4
第二章 相關研究 5
2.1 話語關係語料庫 5
2.2 英文話語關係分析 6
2.3 中文話語關係分析 11
第三章 語料庫資源 16
3.1 中文話語標記辭典 16
3.2 ClueWeb09 ─ 中文語料庫 18
3.3 資料的篩選準則 18
第四章 話語標記歧義度 21
4.1 中英文話語標記歧義度比較 21
4.2 使用辭典預測話語關係 21
4.3 中文話語標記歧義度分析 22
第五章 半監督式學習方法 26
5.1 實驗方法和目的 26
5.1.1 基礎模型 26
5.1.2 實驗目的 26
5.2 特徵抽取 27
5.2.1 語言特徵 27
5.2.2 話語標記特徵 30
5.3 半監督式學習演算法 31
5.3.1 資料初始化 31
5.3.2 參數評估(Parameter estimation) 31
第六章 實驗與討論 33
6.1 實驗設定 33
6.1.1 實驗資料 33
6.1.2 分類器設定 33
6.2 實驗模型比較 34
6.3 大規模測試 41
6.3.1 實驗資料集 41
6.3.2 機率分布預測結果 42
6.3.2.1 歧義性話語標記 42
6.3.2.2 非歧義性話語標記 45
6.3.3 機率分布相似度比較 47
6.3.3.1 餘弦相似度(Cosine Similarity) 47
6.3.3.2 Kendall等級相關係數 52
6.3.4 單一字詞話語標記結合性分析 55
第七章 結論與未來展望 59
7.1 結論 59
7.2 未來展望 59
參考文獻 60
附錄A 半監督式學習模型各話語關係預測效能曲線(初始值=查詢話語標記辭典) 63
附錄B 大規模測試資料機率分布預測結果(初始值=0.25) 65
附錄C 半監督式學習模型餘弦相似度比較(初始值=查詢話語標記辭典) 67


[1]R. Prasad, N. Dinesh, A. Lee, E. Miltsakaki, L. Robaldo, A. K. Joshi, and B. L. Webber, “The Penn Discourse TreeBank 2.0.,” in LREC, 2008.
[2]L. Carlson, D. Marcu, and M. Ellen Okurowski, “RST Discourse Treebank,” 2002.
[3]H.-H. Huang and H.-H. Chen, “Chinese Discourse Relation Recognition.,” in IJCNLP, 2011, pp. 1442–1446.
[4]H.-H. Huang and H.-H. Chen, “Contingency and comparison relation labeling and structure prediction in Chinese sentences,” in Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue, Stroudsburg, PA, USA, 2012, pp. 261–269.
[5]Y. Zhou and N. Xue, “PDTB-style discourse annotation of Chinese text,” in Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - Volume 1, Stroudsburg, PA, USA, 2012, pp. 69–77.
[6]H.-H. Huang and H.-H. Chen, “An Annotation System for Development of Chinese Discourse Corpus.,” in COLING (Demos), 2012, pp. 223–230.
[7]H. Hernault, D. Bollegala, and M. Ishizuka, “A semi-supervised approach to improve classification of infrequent discourse relations using feature vector extension,” in Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010, pp. 399–409.
[8]D. Marcu and A. Echihabi, “An unsupervised approach to recognizing discourse relations,” in Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA, 2002, pp. 368–375.
[9]E. Pitler and A. Nenkova, “Using syntax to disambiguate explicit discourse connectives in text,” in Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, Stroudsburg, PA, USA, 2009, pp. 13–16.
[10]CMU, “The ClueWeb09 Dataset,” 2009.
[11]E. Pitler, M. Raghupathy, H. Mehta, A. Nenkova, A. Lee, and A. K. Joshi, “Easily identifiable discourse relations,” Tech. Reports Cis, p. 884, 2008.
[12]Z. Lin, M.-Y. Kan, and H. T. Ng, “Recognizing implicit discourse relations in the Penn Discourse Treebank,” in Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1 - Volume 1, Stroudsburg, PA, USA, 2009, pp. 343–351.
[13]E. Pitler, A. Louis, and A. Nenkova, “Automatic sense prediction for implicit discourse relations in text,” in Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2 - Volume 2, Stroudsburg, PA, USA, 2009, pp. 683–691.
[14]N. Xue, “Annotating discourse connectives in the Chinese Treebank,” in Proceedings of the Workshop on Frontiers in Corpus Annotations II: Pie in the Sky, Stroudsburg, PA, USA, 2005, pp. 84–91.
[15]X. Cheng and X. Tian, “現代漢語,” Goodreads, 1989.
[16]S.-Y. Cheng, “Corpus-Based Coherence Relation Tagging in Chinese Discourse,” 2006.
[17]S. Lu, “現代漢語八百詞,” 2007.
[18]C.-H. Yu, Y. Tang, and H.-H. Chen, “Development of a Web-Scale Chinese Word N-gram Corpus with Parts of Speech Information.,” in LREC, 2012, pp. 320–324.
[19]梅家驹, 竺一鸣, 高蕴琦, and 殷鸿翔, 同义词词林. 上海辞书出版社, 1996.
[20]L.-W. Ku and H.-H. Chen, “Mining opinions from the Web: Beyond relevance retrieval,” J. Am. Soc. Inf. Sci. Technol., vol. 58, no. 12, pp. 1838–1850, 2007.
[21]F. Wolf and E. Gibson, “Representing discourse coherence: a corpus-based analysis,” in Proceedings of the 20th international conference on Computational Linguistics, 2004, p. 134.
[22]C.-C. Chang and C.-J. Lin, “LIBSVM: A library for support vector machines,” Acm Trans Intell Syst Technol, vol. 2, no. 3, pp. 27:1–27:27, May 2011.


QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔