(3.236.228.250) 您好!臺灣時間:2021/04/13 12:55
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:李民祥
研究生(外文):Min-Hsiang Li
論文名稱:探勘維基百科可比語料庫並用於改善特定領域之機器翻譯
論文名稱(外文):Mining Domain Comparable Corpora from Wikipedia to Improve Machine Translation in Special Domains
指導教授:吳世弘吳世弘引用關係
指導教授(外文):Shih-Hung Wu
學位類別:碩士
校院名稱:朝陽科技大學
系所名稱:資訊工程系碩士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2012
畢業學年度:100
語文別:中文
論文頁數:129
中文關鍵詞:可比語料庫句子對列維基百科平行語料庫機器翻譯
外文關鍵詞:sentence alignmentmachine translation.comparable corporaWikipediaparallel corpora
相關次數:
  • 被引用被引用:0
  • 點閱點閱:419
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:31
  • 收藏至我的研究室書目清單書目收藏:0
近年來,學者持續發展有益於自然語言處理的資源,例如開發雙語或多語辭典,使得某種語言的文件﹑句子或是詞彙能夠被轉換為其他語言,如此便可有效幫助跨語言處理的任務。為了持續讓這些資源保持在可以被信任,即是高質量的狀態,必須仰賴人力不斷維護更新以及添加新資源,但這項工作既費時又消耗成本。因此,學者致力於開發「自動建構平行語料庫」這項技術,企圖建構大量的平行語料庫用以輔助多種自然語言處理,例如:跨語言資訊檢索﹑機器翻譯﹑文本分類等。然而,現實生活中絕大部分的語料可被視為「可比語料庫」,例如:新聞﹑教科書﹑含有主題的雜誌書籍,甚至是網頁等。由於這類型的語料並不拘泥於內容,而是在特定主題下探討發表相關的內容,因此即便兩則文章談論的是同一主題,內容也可能有所不同。正因為如此,可比語料庫才能夠包含更廣大﹑富涵更龐大於平行語料庫的資訊供人適當地擷取利用。雖然可比語料庫擁有比起平行語料庫更豐富的資源,但比起平行語料庫,由於文本內含有可對列之語料乃是未知數,因此從可比語料庫中擷取出平行語料形成了一項待改進的任務。
本系統於擷取平行語料可分為兩個部分:第一部分,為避免可比語料庫中含有高比例的非平行語料,我們基於Ma學者經由TF-IDF改寫而成的STF-IDTF,計算以句子為層級的頻率,並藉由門檻值裁定句子是否有機率成為平行語料,我們稱此方法為候選對列句子。於此,我們實驗了門檻值0.1至1.0,選擇最適當的區間作為往後實驗挑選句子的基準;第二部分,將被挑選為候選對列句子的部分以Champollion進行句子對列,同時分為1-0﹑0-1﹑1-1﹑1-2﹑2-1﹑2-2﹑1-3﹑3-1﹑1-4﹑4-1等十種類別以動態規劃演算法計算其句子相似度分數,並挑選最佳對列路徑。
本篇論文以改善特定領域之機器翻譯為目的,利用文句對列技術從維基百科擷取特定領域之中英文平行語料,並以GIZA++取得詞彙對列後使用NiuTrans訓練機器翻譯。接著利用NTCIR-9的專利機器翻譯(Patent machine translation)任務的資料集,以BLEU和NIST比較其機器翻譯含有維基百科訓練語料與否﹑Google translation以及Base line系統,作為評估維基百科用於特定領域之機器翻譯可行性。
實驗結果表明,本篇論文從維基百科擷取的平行語料,其質量足夠以少量資源達到輔助特定領域之機器翻譯,且其效能優於主流的線上翻譯系統。而且,維基百科提供超過300種類別的主題條目,例如:數學﹑地理﹑戲劇﹑…等,透過線上使用者不斷更新校正,能夠持續擴大其資訊含量供本系統不斷更新平行語料庫,將之使用於跨語言處理任務。
Comparable corpora are very useful for various natural language processing (NLP) applications such as machine translation (MT) and cross-lingual information retrieval (CLIR). Comparable corpora in various domains can be collected from news, textbooks or web sites. To our knowledge, Wikipedia is the largest multilingual free website on the Internet. For this reason, we tried to extract sentence pairs from Wikipedia to build comparable corpora for different domains.
This paper reports that such comparable corpus can be used to improve machine translation in specific domains. In our approach, we used a sentence alignment system Champollion to extract sentence pairs from Wikipedia between Chinese and English. To test the quality of extracted data, we used the data on machine translation task for observing the data, which can help machine translation or cannot.
We tested the machine translation in several specific domains. As the experimental results showing, the parallel data which extracted from Wikipedia can help the quality of machine translation system to be better with a less additional data.
目錄
博、碩士論文授權書 I
碩士論文口試委員會中文審定書 II
碩士論文口試委員會英文審定書 III
誌謝 IV
摘要 V
Abstract VII
目錄 VIII
表目錄 X
圖目錄 XIV
第一章 緒論 1
1.1 研究動機與目的 1
1.2 研究方法 3
1.3 論文編排 5
第二章 文獻探討 6
2.1 文字對列技術 6
2.2 維基百科全書(Wikipedia) 9
2.3 平行語料庫與可比語料庫 13
2.4 機器翻譯 20
2.5 評估機器翻譯系統 23
第三章 從維基百科中抽取平行語料資訊 26
3.1 系統架構 26
3.2 文件對列 27
3.3 前處理 29
3.3.1 斷句 29
3.3.2 斷詞 33
3.4 挑選候選對列句子 36
3.5 中英文句子對列 44
第四章 實驗結果與分析 48
4.1 挑選候選對列句子之最佳門檻值區間 48
4.2 從中文和英文維基百科進行句子對列 51
4.3 測試維基平行語料庫之質量 55
4.4 使用維基平行語料庫於特定領域之機器翻譯 61
4.5 錯誤分析 83
第五章 結論與未來研究方向 87
參考文獻 90
附錄A 各領域翻譯結果比較 94

表目錄
表 1. 維基百科條目對照範例 (資料來源:維基百科全書) 12
表 2. 斷句前的英文句子(資料來源:英文維基百科全書) 31
表 3. 斷句後的英文句子(資料來源:英文維基百科全書) 32
表 4. 範例英文句子斷詞結果 33
表 5. 範例英文詞彙進行詞幹還原後 33
表 6. 範例中文句子錯誤斷詞結果 34
表 7. ICTCLAS系統評估結果(資料來源:http://tinyurl.com/7gusdyr) 35
表 8. 對範例中文句子使用ICTCLAS斷詞結果 35
表 9. 範例中英文詞彙對照 36
表 10. 將維基百科配對條目挑選候選對列句子結果 43
表 11. 使用Champollion對列結果 47
表 12. 統計雙語新聞語料庫(資料來源:自由時報) 49
表 13. 統計文件配對數量 52
表 14. 統計文件配對之句子數量 52
表 15. 使用Champollion對列結果 53
表 16. 統計維基平行語料庫 54
表 17. 完全正確對列範例 54
表 18. 不完全正確對列範例 54
表 19. 統計語言模型訓練語料(資料來源:中文新聞語料庫) 57
表 20. 統計雙語新聞語料庫 58
表 21. 統計縮減後的維基平行語料庫 58
表 22.統計使用Google translation翻譯的維基中文語料與原始英文語料 58
表 23. 使用BLEU和NIST取得的4-gram分數 60
表 24. 調整權重值後使用BLEU和NIST取得的4-gram分數 61
表 25. 用於訓練SVM分類器之維基百科語料 64
表 26. 中英文維基百科於九種特定領域所共有的條目數量 65
表 27. 資料集內被抽選出作為九種領域測試語料的句子數量 66
表 28. 各領域測試集與資料集的比例統計 67
表 29. 中英文維基百科於九種領域底下之對列句子數量 68
表 30. 各領域條目資訊與對列句子合併後結果 69
表 31. NTCIR專利文件用於此次實驗之訓練語料 71
表 32. 對四種系統使用BLEU以及NIST取得之評估分數-1 72
表 33. 對四種系統使用BLEU以及NIST取得之評估分數-2 72
表 34. 對四種系統使用BLEU以及NIST取得之評估分數-3 73
表 35. 各領域額外訓練語料與主要訓練語料比例 73
表 36. 添加額外訓練語料後對於各領域之機器翻譯的改進幅度(BLEU) 74
表 37. 添加額外訓練語料後對於各領域之機器翻譯的改進幅度(NIST) 75
表 38. 預期改進幅度(BLEU) 76
表 39. 預期改進幅度(NIST) 77
表 40. 針對不同領域所得之機器翻譯系統與涵蓋所有領域之單一機器翻譯系統之BLEU和NIST分數-1 78
表 41. 針對不同領域所得之機器翻譯系統與涵蓋所有領域之單一機器翻譯系統之BLEU和NIST分數-2 78
表 42. 針對不同領域所得之機器翻譯系統與涵蓋所有領域之單一機器翻譯系統之BLEU和NIST分數-3 79
表 43. 涵蓋所有領域額外訓練語料之單一機器翻譯系統對於未添加額外訓練語料之改進幅度(BLEU) 80
表 44. 涵蓋所有領域額外訓練語料之單一機器翻譯系統對於未添加額外訓練語料之改進幅度(NIST) 81
表 45. 預期改進幅度(BLEU) 82
表 46. 預期改進幅度(NIST) 83
表 47. 兩個系統於100個翻譯句子中表現較佳的數量 84
表 48. 添加50,936句額外訓練語料後改善原本無法取得翻譯詞的例子 85
表A 1. 農學; 添加額外訓練語料; BLEU分數較佳 94
表A 2. 農學; 未添加額外訓練語料; BLEU分數較差 95
表A 3. 農學; 添加額外訓練語料; BLEU分數較差 96
表A 4. 農學; 未添加額外訓練語料; BLEU分數較佳 97
表A 5. 天文學; 添加額外訓練語料; BLEU分數較佳 98
表A 6. 天文學; 未添加額外訓練語料; BLEU分數較差 99
表A 7. 天文學; 添加額外訓練語料; BLEU分數較差 100
表A 8. 天文學; 未添加額外訓練語料; BLEU分數較佳 101
表A 9. 生物學; 添加額外訓練語料; BLEU分數較佳 102
表A 10. 生物學; 未添加額外訓練語料; BLEU分數較差 103
表A 11. 生物學; 添加額外訓練語料; BLEU分數較差 104
表A 12. 生物學; 未添加額外訓練語料; BLEU分數較佳 105
表A 13. 化學; 添加額外訓練語料; BLEU分數較佳 106
表A 14. 化學; 未添加額外訓練語料; BLEU分數較差 107
表A 15. 化學; 添加額外訓練語料; BLEU分數較差 108
表A 16. 化學; 未添加額外訓練語料; BLEU分數較佳 109
表A 17. 電腦科學; 添加額外訓練語料; BLEU分數較佳 110
表A 18. 電腦科學; 未添加額外訓練語料; BLEU分數較差 111
表A 19. 電腦科學; 添加額外訓練語料; BLEU分數較差 112
表A 20. 電腦科學; 未添加額外訓練語料; BLEU分數較佳 113
表A 21. 數學; 添加額外訓練語料; BLEU分數較佳 114
表A 22. 數學; 未添加額外訓練語料; BLEU分數較差 115
表A 23. 數學; 添加額外訓練語料; BLEU分數較差 116
表A 24. 數學; 未添加額外訓練語料; BLEU分數較佳 117
表A 25. 力學; 添加額外訓練語料; BLEU分數較佳 118
表A 26. 力學; 未添加額外訓練語料; BLEU分數較差 119
表A 27. 力學; 添加額外訓練語料; BLEU分數較差 120
表A 28. 力學; 未添加額外訓練語料; BLEU分數較佳 121
表A 29. 醫學; 添加額外訓練語料; BLEU分數較佳 122
表A 30. 醫學; 未添加額外訓練語料; BLEU分數較差 123
表A 31. 醫學; 添加額外訓練語料; BLEU分數較差 124
表A 32. 醫學; 未添加額外訓練語料; BLEU分數較佳 125
表A 33. 物理學; 添加額外訓練語料; BLEU分數較佳 126
表A 34. 物理學; 未添加額外訓練語料; BLEU分數較差 127
表A 35. 物理學; 添加額外訓練語料; BLEU分數較差 128
表A 36. 物理學; 未添加額外訓練語料; BLEU分數較佳 129

圖目錄
圖 1. 系統架構 4
圖 2. 文字對列範例 6
圖 3. 維基百科全書條目總數前十名(圖片來源:維基百科全書) 11
圖 4. 詞彙對列機率區塊範例 19
圖 5. BTG規則範例 23
圖 6. 系統從維基百科抽取平行語料流程 27
圖 7. 跨語言鏈結範例(圖片來源:維基百科) 28
圖 8. 全部區域皆可以發現對列句子(圖片來源:中文維基百科) 38
圖 9. 全部區域皆可以發現對列句子(圖片來源:英文維基百科) 38
圖 10. 部分區域可以發現對列句子(圖片來源:中文維基百科) 39
圖 11. 部分區域可以發現對列句子(圖片來源:英文維基百科) 39
圖 12. 無法發現對列句子(圖片來源:中文維基百科) 40
圖 13. 無法發現對列句子(圖片來源:英文維基百科) 40
圖 14. 本系統運作於平行語料庫以及可比語料庫之Precision和Recall 50
圖 15. 統計英文可被對列和不可被對列之句子數量於不同門檻值表現 51
圖 16. 統計中文可被對列和不可被對列之句子數量於不同門檻值表現 51
圖 17. 抽取各領域測試語料流程 62
圖 18. 訓練語料詞彙對列流程 70
[1] S.F. Adafre, and M.d. Rijke, Finding similar sentences across multiple languages in Wikipedia, Proceedings of the EACL Workshop on New Text, 2006.
[2] D. Andrade, T. Matsuzaki, and J.i. Tsujii, Learning the Optimal use of Dependency-parsing Information for Finding Translations with Comparable Corpora, 4thWorkshop on Building and Using Comparable Corpora, USA, 2011.
[3] P.F. Brown, V.J.D. Pietra, S.A.D. Pietra, and R.L. Mercer, The mathematics of statistical machine translation: parameter estimation. Computational Linguistics 19 (1993).
[4] P. Cheung, and P. Fung, Sentence alignment in parallel, comparable, and quasi-comparable corpora, LREC2004 Workshop, 2004.
[5] J. Civera, and A. Juan, Unigram-IBM model 1 mixtures for bilingual text classification, Proceeding of LREC’08, 2008.
[6] M. Collins, and Y. Singer, Unsupervised models for named entity classification, Proceedings of the Joint SIG- DAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999.
[7] S. Cucerzan, Large-scale named entity disambiguation based on Wikipedia data, Proceeding of the 2007 Joint Conference on Empirical Methods in Nature Language Processing and Computational Nature Language Learning, 2007.
[8] V. Dániel, P. Halácsy, A. Kornai, V. Nagy, L. Németh, and V. Trón, Parallel corpora for medium density languages Proceedings of RANLP’2005 Bulgaria, 2005, pp. 590-596.
[9] G. Doddington, Automatic evaluation of machine translation quality using n-gram co-occurence statistics, Proceeding of the Second International Conference of Human Language Technology Research, 2002.
[10] W.A. Gale, and K.W. Church, A program for aligning sentences in bilingual corpora, Proceedings of the 29th annual meeting on Association for Computational Linguistics, California, 1991, pp. 177-184.
[11] J. Giles, Internet encyclopaedias go head to head, Nature, 2005.
[12] J. Goodman, A Bit of Progress in Language Modeling, Technical report, Microsoft Research, 2001.
[13] M. Hepp, K. Siorpaes, and D. Bachlechner, Harvesting Wiki Consensus: Using Wikipedia Entries as Vocabulary for Knowledge Management, IEEE Internet Computing, 2007, pp. 54-65.
[14] S. Hewavitharana, and S. Vogel, Extracting Parallel Phrases from Comparable Data, Proceedings of the 4th Workshop on Building and Using Comparable Corpora, 2011, pp. 61-68.
[15] C.-C. Hsu, Y.-T. Li, Y.-W. Chen, and S.-H. Wu, Query Expansion via Link Analysis of Wikipedia for CLIR, Proceedings of NTCIR-7, 2008.
[16] T. Joachims, Text categorization with support vector machines, 1998.
[17] S. Katz, Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer. IEEE Transactions on ACOUSTICS, SPEECH, and SIGNAL PROCESSING (1987).
[18] J. Kazama, and K. Torisawa, Exploiting Wikipedia as external knowledge for named entity recognition, Proceeding of the 2007 Joint Conference on Empirical Methods in Nature Language Processing and Computational Nature Language Learning, 2007.
[19] P. Koehn, A parallel corpus for statistical machine translation, Proceedings of MT-Summit, 2005.
[20] P. Koehn, H. Hoang, A. Birch, C.-B. Chris, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, and E. Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), 2007.
[21] D.D. Lewis, Naive (Bayes) at forty: The independence assumption in information retrieval, Tenth European Conference on Machine Learning, 1998.
[22] M.-C. Lin, M.-X. Li, C.-C. Hsu, and S.-H. Wu, Query Expansion from Wikipedia and Topic Web Crawler on CLIR, Proceedings of NTCIR-8 Workshop, 2010.
[23] X. Ma, Champollion: A Robust Parallel Text Sentence Aligner, Proceedings of LREC, 2006.
[24] X. Ma, and C. Cieri, Corpus support for machine translation at LDC, Proceedings of LREC-2006, 2006.
[25] X. Ma, and M. Liberman, BITS: A method for bilingual text search over the web, Proceedings of the Machine Translation Summit VII, 1999.
[26] K. Maeda, X. Ma, and S. Strassel, Creating Sentence-Aligned Parallel Text Corpora from a Large Archive of Potential Parallel Text using BITS and Champollion, the Sixth Language Resources and Evaluation Conference, 2008, pp. 26-30.
[27] F.J. Och, An Efficient Method for Determining Bilingual Word Classes, Proceedings of European Chapter of the Association for Computational Linguistics, 1999.
[28] F.J. Oct, and H. Ney, A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics 29 (2003) 19-51.
[29] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, BLEU: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002.
[30] D. Pinto, J. Civera, A. Juan, P. Rosso, and A. Barr′on-Cede˜no, A statistical approach to crosslingual natural language tasks. Algorithms Cognition, Informatics and Logic 64 (2009) 51-60.
[31] C.J.v. Rijsbergen, S.E. Robertson, and M.F. Porter, New models in probabilistic information retrieval, British Library Research and Development Report, London, 1980.
[32] J.R. Smith, C. Quirk, and K. Toutanova, Extracting parallel sentences from comparable corpora using document level alignment, HLT ''10 Human Language Technologies, 2010.
[33] R. Steinberger, B. Pouliquen, A. Widiger, C. Ignat, T. Erjavec, D. Tufiş, and D. Varga, The JRC-Acquis: A Multilingual Aligned Parallel Corpus with 20+ Languages In proceeding of the 5th International Conference on Language Resource and Evaluation 2006.
[34] S. Strassel, M. Przybocki, K. Peterson, Z. Song, and K. Maeda, Linguistic Resources and Evaluation Techniques for Evaluation of Cross-Document Automatic Content Extraction, Proceedings of the 6th International Conference on Language Resources and Evaluation, 2008.
[35] C.-Y. Su, S.-H. Wu, and T.-C. Lin, Using Wikipedia to translate OOV term on MLIR, Proceedings of NTCIR-6 Workshop, 2007.
[36] J. Tiedemann, and L. Nygaard, The opus corpus - parallel & free, Proceeding of LREC’04, 2004, pp. 1183-1186.
[37] M.F. Tyers, and J.A. Pieanaar, Extracting bilingual word pairs from Wikipedia, Proceedings of the SALTMIL Workshop at Language Resources and Evaluation Conference, 2008.
[38] M. Utiyama, and H. Isahara, A Japanese-English patent parallel corpus, Proceedings of MT Summit XI, 2007.
[39] T. Utsuro, H. Ikeda, M. Yamane, Y. Matsumoto, and M. Nagao, Bilingual text matching using bilingual dictionary and statistics
COLING’94, 1994, pp. 1076–1082.
[40] Voorhees, The TREC-8 question answering track report, Proceeding of the 8th Text Retrieval Conference, 1999, pp. 77-82.
[41] G. William, and K. Church, A Program for Aligning Sentences in Bilingual Corpora. Computational Linguistics 19 (1993) 75-102.
[42] F. Wong, M. Dong, and D. Hu, Machine transation based on translation corresponding tree structure, Tsinghua science & technology, 2006.
[43] P. Wong, and C. Chan, Chinese word segmentation based on maximum matching and word binding force, COLING’96, Copenhagen, 1996.
[44] D. Wu, A polynomial-time algorithm for statistical machine translation, Proc. of Annual meeting of the Association for Computational Linguistics (ACL), California, USA, 1996, pp. 152-158.
[45] T. Xiao, H. Zhang, Q. Li, Q. Lu, J. Zhu, F. Ren, and H. Wang, The NiuTrans Machine Translation System for CWMT2011, Proc. of the 6th China workshop on Machine Translation (CWMT), China, 2011, pp. 59-66.
[46] Y. Yang, and J.O. Pedersen, A comparative study on feature selection in text categorization, Internation conference on Machine learning, 1997.
[47] H.-P. Zhang, H.-K. Yu, D.-Y. Xiong, and Q. Liu, HHMM-based Chinese lexical analyzer ICTCLAS, Proceeding of SIGHAN Workshop, 2003.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔