跳到主要內容

臺灣博碩士論文加值系統

(35.175.191.36) 您好!臺灣時間:2021/08/01 00:48
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:許皓評
研究生(外文):Hsu, Hau-Ping
論文名稱:華英平行句 的 詞組對齊 初探
論文名稱(外文):An Initial Study on Phrase Alignment of Parallel Sentences of Mandarin and English
指導教授:江永進江永進引用關係
指導教授(外文):Chiang, Yuang-Chin
學位類別:碩士
校院名稱:國立清華大學
系所名稱:統計學研究所
學門:數學及統計學門
學類:統計學類
論文種類:學術論文
論文出版年:2012
畢業學年度:100
語文別:中文
論文頁數:44
中文關鍵詞:讓格書寫簡短詞組平行語料庫最長共同子序列平行句對齊詞組LCS分數
外文關鍵詞:LangGehsimple short phraseparallel corpuslongest common subsequenceparallel sentence alignmentLCS score
相關次數:
  • 被引用被引用:0
  • 點閱點閱:155
  • 評分評分:
  • 下載下載:10
  • 收藏至我的研究室書目清單書目收藏:0
針對 平行語料庫 中的 台語、華語 讓格平行句, 林淑卿(2009)、 楊哲瑋(2010) 使用 最長共同子系列 (LCS, longest common subsequence) 方法 來幫助 平行句對齊。 「讓格書寫」是 書寫方式上的 新提議, 是以 簡單詞組 為單位的 書寫方式。 本文 繼續 平行句的 對齊研究, 對象換成 英文、 華文。 借用chunking 技術幫助, 我們 首先將 英文句 轉換做 簡短詞組 序列, 然後 華英 簡短詞組句 的 對齊 就可使用 同樣的LCS方法。 平行句的 LCS對齊 需要一個 gain函數, 現在 基礎單位 是 簡短詞組, 因此, 我們 再使用 類似的LCS方法, 計算 華英 簡短詞組對 的 LCS分數, 然後用來 執行 平行句對齊。 我們 也使用本方法 來幫助標記 一個 新聞語料庫 的 華英對齊。
In previous studies Lin (2009) and Yang (2010) used the method of longest common subsequence (LCS) to help aligning parallel sentences in a parallel corpus between Taiwanese and Mandarin. Contrast to the traditional writing of no space inside a sentence, the parallel corpus consists of sentences written in so-called “LangGeh”(讓格) orthography, or, using simple short phrases(SSP) as a unit and having spaces in-between. This paper continues the alignment study on parallel sentences between Mandarin and English. With the help of chunking, we first segment an English sentence into sequence of simple short phrases, and align the Mandarin-English parallel sentences in SSP using the same LCS method. In sentence alignment using LCS, a gain function between the SSP’s is required. We again use LCS to compute a score for each pair of simple short phrases. The method is used to help aligning a news parallel corpus in Mandarin and English.
目錄
第一章 概論 1
第二章 讓格平行語料庫 3
2.1平行語料庫概述 3
2.2翻譯、讓格與對齊 5
第三章 台華平行句 詞組對齊 方法回顧 7
3.1 LCS及LCSA (最長 共同子序列 及其 對齊法) 7
3.2簡單替代 LCS對齊法 11
3.3候選香腸LCS對齊法 13
3.4結果比較 17
第四章 英文句 合 簡短詞組 18
4.1英語句的 簡短詞組 記號 18
4.2使用CHUNKING 幫助合成 簡短詞組 19
4.3 CHUNKING結果 與 人工修正 23
4.4實驗語料 23
第五章 用 詞組LCS分數 來做 平行句LCS對齊 24
5.1計算 簡短詞組 的LCS分數 24
5.2華英句 的 簡單詞組 LCS對齊 27
5.3實驗語料 及 標準答案 30
5.4實驗結果 30
5.5錯誤分析 31
第六章 結論 32
參考文獻 33
附錄 34
附錄一、中文查英文(PYTHON CODE) 34
附錄二、英文查中文(PYTHON CODE) 38

參考文獻
[1] Peter F. Brown , John Cocke , Stephen A. Della Pietra , Vincent J. Della Pietra , Fredrick Jelinek , John D. Lafferty , Robert L. Mercer , and Paul S. Rossin.(1990) "A Statistical Approach To Machine Translation" , Computational Linguistics Volume 16 (Number 2 , June 1990)
[2] Peter F. Brown , Stephen A. Della Pietra , Vincent J. Della Pietra , Robert L. Mercer. (1993) , "The Mathematics of Statistical Machine Translation : Parameter Estimation" , Association for Computaional Linguistics (1993)
[3] Steven Bird, Ewan Klein, Edward Loper. (2009) , "Natural Language Processing With Python - Analyze Text with the Natural Language Toolkit" , Publisher: O'Reilly Media (2009)
[4] 林淑卿(2009)。「從台華平行語料庫擷取對應詞組典」新竹市:國立清華大學統計學研究所碩士論文 (2009)
[5] 楊哲瑋(2010)。「台華平行讓格語料的自動對齊」新竹市:國立清華大學統計學研究所碩士論文 (2010)
[6] Python 3.2.3(2012) http://www.python.org/

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top