研究生(外文):Wen Chen Cheng
論文名稱(外文):Statistical Japanese-English Machine Translation System Using Term Extraction
外文關鍵詞:Natural Language ProcessingStatistical Machine Translationterm extractionword alignment
訓練語料庫是NTCIR-7 Patent Translation的英日雙語語料庫,我們選取10萬句日文英文配對句子,擷取的詞彙長度介於2 至 6,訓練出6種不同的模型。測試資料採用NTCIR7 Patent Translation Formal Run的資料,英文與日文各1380句。
In this paper, we proposed to use the term extraction tool to extract the multi-word patterns before the word alignment processing in the statistical machine translation system. The identified pattern was used as a single word for alignment and translation. We designed an English-Japanese machine translation system, which used this term extraction technology, word alignment, part of speech tagging, translation probability, and different translation models to evaluate the performances.
The bilingual corpus of the NTCIR-7 Patent Translation Task is used for our experiments. In training stage, 100,000 aligned sentences are selected from the parallel corpus. The common patterns with length from two to six are extracted to process as the words. We select another 1,380 sentences for testing and evaluation.
The performances of the NIST and BLEU evaluations have shown that the N-Gram Precisions of BLEU and NIST using term extraction technology are better than the method without term extraction.
誌謝 I
摘要 II
Abstract III
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 研究流程 3
第二章 相關研究 5
2.1 基於規則的方法 5
2.1.1 直接式翻譯 5
2.1.2 轉換式翻譯 6
2.1.3 中介式翻譯 6
2.2 基於語料庫的方法 7
2.2.1 基於統計式翻譯 7
2.2.2 基於實例的機器翻譯 9
2.3 基於片語(短語)統計式翻譯 10
2.4 雙語平行語料庫 10
2.4.1 GIZA++計算詞彙對齊 11
2.5 詞彙擷取 12
2.6 機器翻譯的評估方法 13
2.6.1 BLEU的評估方法 13
2.6.2 NIST的評估方法 14
第三章 利用詞彙擷取的統計式翻譯 16
3.1 系統架構與流程 16
3.2 語料庫的前處理流程 18
3.2.1 英文文件的前處理 18
3.2.2 日文文件的前處理 19
3.3 詞彙擷取 19
3.4 訓練各統計資料 20
3.4.1 詞彙對齊 20
3.4.2 詞頻統計 21
3.4.3 詞性標記 22
3.5 翻譯程序 24
第四章 系統實驗 27
4.1 實驗資料 27
4.1.1 訓練資料與測試資料 27
4.2 實驗列表 27
4.2.1 英翻日 28
4.2.2 日翻英 33
4.3 討論 38
第五章 結論以及未來研究 42
5.1 結論 42
5.2 未來研究 42
參考文獻 44
附錄一 47
附錄二 49
