(3.92.96.236) 您好!臺灣時間:2021/05/07 00:49
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:張碧娟
研究生(外文):Pi-Chuan Chang
論文名稱:基於語料庫及辭典精緻化之中文語言模型強化之研究
論文名稱(外文):Chinese Language Modeling Enhancement by Corpora and Lexicon Refinement
指導教授:李琳山李琳山引用關係
指導教授(外文):Lin-shan Lee
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2004
畢業學年度:92
語文別:中文
論文頁數:89
中文關鍵詞:語言模型語音辨識辭典語料庫
外文關鍵詞:CorpusSpeech RecognitionLanguage ModelingLexicon
相關次數:
  • 被引用被引用:4
  • 點閱點閱:183
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
在語音辨識的研究中,使用一個對目標語料的語句有良好估測能力的語言模型,
可以有效地提高語音辨識效能。因此各語音辨識系統相關的研究中,
語言模型的部分向來是辨識系統中最核心的部分之一。
在各式各樣的語言模型中,N連統計式語言模型是使用在語音辨識系統中,最為有效且成左漱@種模型。
然而N連語言模型受到其訓練或調適所使用之文字語料的影響甚鉅,
因此語料庫精緻化就成為語音辨識之語言模型研究中很重要的課題之一。
此外,語音辨識的語言模型中,另一個重要的議題就是辭典的取得,這個問題在中文語言處理中更顯得重要,
由於中文的詞與詞之間沒有明確的分隔,因此中文抽詞、斷詞問題向來也是研究的重點之一。
故本論文中主要內容將分成語料庫精緻化、辭典精緻化、以及如何將這些技術整合使用在實際的問題上,
以強化語言模型並得到更好的辨識效能。

語料庫精緻化,對於N連語言模型使用在辨識系統中的效能有極大的影響。
本論文中首先討論兩種重大的目標語料與訓練語料的不匹配性問題,
接著討論如何取得適當的訓練語料庫,本文中先提出兩種來源的語料庫 --- 既有語料庫及衍生語料庫,
其中既有語料庫指的是現存容易取得的、和目標語料有較高相關性的語料庫,
而衍生語料庫指的則是以基礎轉寫結果為基礎,建構適當的查詢指令,從網際網路收集得到的語料庫。
在處理廣播新聞語料的實驗中,由於高品質的既有語料庫(大量匹配性高的文字新聞語料)很容易取得,
因此使用既有語料庫的辨識效能很明顯勝過使用衍生語料庫時的效能。
然而,針對其他不容易取得既有語料庫的應用領域,衍生語料庫是相當重要的。
另外,針對衍生語料庫中使用的查詢指令之建構,本論文提出兩種建構法 --- 分離式三連詞查詢指令建構法、
相連式高信心量度查詢指令建構法。由實驗結果所得到的結論為:
使用相連式高信箱連度查詢指令建構法時,可取得量較小但品質較好的衍生語料庫。

辭典精緻化,在中文語言模型中佔有很重要的地位。
本論文中首先討論傳統詞的定義,並討論使用在語音辨識應用中的詞的統計式定義,包括一個好的詞必須要高的內聚力,
並且其左右文相依性必須要低(亦即有良好的左右詞邊界)。
接著本文中分別就兩種不同的抽詞法 --- 派樹抽詞法、及迭代式組合式抽詞法,進行討論。
再者,由於統計式抽詞法中,其演算法中使用的參數調整是一個重要的問題,
因此在本論文中分別針對詞邊界量度的相異左/右相連詞個數門檻值、及最高特定左/右相連詞比例門檻值,
還有內聚力量度的重疊子片段樣式之關聯基準量、及相鄰詞內聚力量度進行實驗及討論。
由實驗的結果證明,在為了語音辨識的目的抽詞時,在詞邊界量度中的最高特定左/右相連詞比例門檻值事實上是應該被捨棄的。
此外,實驗結果也顯示,迭代式組合式抽詞法的效能勝過於派樹抽詞法。
推測其原因,是因為迭代式組合式抽詞法是從一初始辭典開始成長,因此不但具有統計式的長處,同時也善用了初始辭典所蘊含的詞的知識。

最後,本論文將各種語言模型強化的技術,整合使用在解決兩個實際的語音辨識問題 --- 廣播新聞語料及訪談語料。
由於這兩組目標語料的特性迥異,因此在語料庫的取得及精緻化、辭典的精緻化等問題上,會遭遇到不同的問題。
本論文藉著將語言模型強化使用在此兩種目標語料上的實驗,來討論先前提過各種方法的效能。
實驗的結果,說明了對於廣播新聞語料來說,由於其既有語料庫容易取得,因此採用既有語料庫,
加上分群分類架構並搭配上辭典精緻化,便可得到相當好的辨識率的進步率。
但在訪談語料的實驗中,可以發現其不匹配性高,且既有語料庫的取得困難,因此具有比較大的挑戰,
本論文中亦作了一些初步的嘗試,使得其辨識效能有些釭獐W進。


目錄
誌謝 v
摘要 vii
圖目錄 xv
表目錄 xvii
1 導論 1
1.1 研究動機 1
1.2 相關研究 2
1.3 研究方向及成果 5
1.4 章節安排 6
2 理論背景與實驗環境介紹 9
2.1 大字彙連續語音辨識問題 9
2.2 N連統計式語言模型 11
2.2.1 語言模型評估量度 15
2.2.2 統計式語言模型的調適 17
2.3 實驗環境 18
2.3.1 語音辨識系統 18
2.3.2 文字語料庫 18
2.3.3 語音語料 19
2.3.4 辭典 19
3 語料庫精緻化 21
3.1 目標與訓練語料的不匹配 21
3.1.1 主題不匹配 22
3.1.2 時間不匹配 23
3.2 精緻語料庫的取得 24
3.2.1 既有語料庫與衍生語料庫 25
3.2.2 分離式三連詞查詢指令建構法 26
3.2.3 相連式高信心量度查詢指令建構法 27
3.3 分群分類架構 28
3.3.1 文件分群 29
3.3.2 文件分類 29
3.3.3 分群分類法之應用 30
3.4 主題匹配性之實驗結果與比較 31
3.4.1 分群分類架構的影響 32
3.4.2 既有語料庫和衍生語料庫之比較 35
3.4.3 查詢指令建構法之比較 37
3.5 時間匹配性之實驗結果與比較 38
3.5.1 以長度一個月的滑動窗進行時間重疊性分析 39
3.5.2 如何細緻選擇時間匹配語料庫 42
3.6 本章結論 44
4 辭典精緻化 47
4.1 詞的定義與問題 47
4.2 派樹抽詞法 49
4.2.1 片段樣式內聚力量度 50
4.2.2 片段樣式之左右文相依性 52
4.2.3 派樹抽詞法需調整之參數 54
4.3 迭代式組合式抽詞法 54
4.3.1 相鄰詞內聚力量度 55
4.3.2 左右文變異統計 (Context Variaion Statistics) 56
4.3.3 迭代式組合式抽詞法整體架構 57
4.4 實驗結果與比較 58
4.4.1 一字辭典及基礎辭典實驗 58
4.4.2 片段樣式左右蚊香一性之二門檻值--tf與ts 59
4.4.3 片段樣式之相異相連詞個數門檻值tf與
重疊子片段樣式之關聯基準量(內聚力)門檻值tMI 64
4.4.4 迭代式組合式抽詞法之實驗 68
4.5 本章結論 70
5 語言模型強化之整合研究 73
5.1 廣播新聞語料 73
5.1.1 廣播新聞語料之特性 73
5.1.2 同時精緻化語料庫及辭典以強化語言模型之實驗 74
5.2 訪談語料 75
5.2.1 訪談語料之特性 75
5.2.2 本論文實驗使用之訪談語料介紹 75
5.3 針對訪談語料之語言模型 76
5.3.1 採用新聞語料訓練的語言模型及辭典進行辨識 76
5.3.2 採用平衡語言模型進行辨識 77
6 結論與展望 79
6.1 總結與討論 79
6.2 展望 81
參考文獻 83

[1] R. Rosenfeld, "Two decades of statistical language modeling: Where do we go from here?," in Proceedings of the IEEE, November 7 2000.
[2] J. R. Bellegarda, "Statistical language model adaptation: review and perspectives," Speech Communication, vol. 42, pp. 93{108, December 2 2004.
[3] R. Lau, R. Rosenfeld, and S. Roukos, "Trigger-based language models: A maximum entropy approach," in ICASSP, December 4 1993.
[4] M. Federico, "Bayesian estimation methods for n-gram language model adaptation," in Proc. ICSLP, (Philadelphia PA), pp. 240{243, 1996.
[5] K. Sasaki, H. Jiang, and K. Hirose, "Rapid adaptation of n-gram language models using inter-word correlation for speech recognition," in Proc. ICSLP, (Beijing), pp. 508{511, October 2000.
[6] T. Moriya, K. Hirose, N. Minematsu, and H. Jiang, "Enhanced MAP adaptaiton of n-gram language models using indirect correlation of distant words," in Proc. ASRU, (Italy), December 2001.
[7] F. Jelinek, "Up from trigrams! The struggle for improved language models," in Proc. EUROSPEECH, pp. 1037--1040, 1991.
[8] R. Solsona, E. Fosler-Lussier, H. Kuo, A. Potamianos, and I. Zitouni, "Adaptive language models for spoken dialogue systems," in Proc. ICASSP, 2002.
[9] M. Federico, "E±cient language model adaptation through mdi estimation," in Eurospeech, December 4 1999. Unigram constraint, MDI, Eurospeech 1999.
[10] M. Federico and N. Bertoldi, "Broadcast news LM adaptation using contemporary texts," in Proc. EUROSPEECH, 2001.
[11] K. Seymore and R. Rosenfeld, "Using story topics for language model adaptation," in Eurospeech, December 4 1997.
[12] T. Yokoyama, T. Shinozaki, K. Iwano, and S. Furui, "Unsupervised class-based language model adaptation for spontaneous speech recognition," in Proc. ICASSP, 2003.
[13] L. Chen, J.-L. Gauvain, L. Lamel, G. Adda, and M. Adda, "Using information retrieval methods for language model adaptation," in Proc. EUROSPEECH, 2001.
[14] L. Chen, J.-L. Gauvain, L. Lamel, and G. Adda, "Unsupervised language model adaptation for broadcast news," in Proc. ICASSP, 2003.
[15] K.-C. Yang, T.-H. Ho, L.-F. Chien, and L.-S. Lee, "Statistics-based segment pattern lexicon | a new direction for Chinese language modeling," in Proc. ICASSP, (Seattle, WA), pp. 169--172, May 1998.
[16] E. P. Giachin, "Phrase bigrams for continuous speech recognition," in Proceedings of the International Conference on Acoustics, Speech and Signal Processing, 1995.
[17] A. Berton, P. Fetter, and P. Regel-Brietzmann, "Compound words in large-vocabulary german speech recognition systems," in Proceedings of the International Conference on Spoken Language Processing, 1996.
[18] L.-F. Chien, "PAT-tree-based keyword extraction for Chinese information retrieval," in SIGIR ''97, pp. 50--58, ACM, 1997.
[19] P. Fung, "Extracting key terms from Chinese and Japanese texts," 1998.
[20] J. Gao, J. Goodman, M. Li, and K.-F. Lee, "Toward a uni‾ed approach to statistical language modeling for Chinese," in ACM Transactions on Asian Language Information Processing, vol. 1, no.1, pp. 3--33, 2002.
[21] I. Good, "The population frequencies of species and the estimation of population parameters," Biometrika, vol. 40, no.3/4, pp. 237--264, 1953.
[22] S. M. Katz, "Estimation of probabilities from sparse data for the language model component of a speech recognizer," IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-35, no.3, pp. 400--401, March 1987.
[23] R. Kneser and H. Ney, "Improved backing-o® for m-gram language modeling," in International Conference on Acoustic, Speech and Signal Processing, vol. 1, (Detroit, MI), pp. 181--184, May 1995.
[24] Y.-C. Pan, "One-pass and word-graph-based search algorithms for large vocabulary continuous mandarin speech recognition," Master''s thesis, National Taiwan University, 2001.
[25] "Central news agency CNA news." http://www.cna.com.tw.
[26] "Yahoo! Kimo News portal." http://tw.news.yahoo.com.
[27] "News 98 FM-98.1." http://www.news98.com.tw.
[28] L. W. Cheng and R. Bissonnett, "Chinese electronic dictionary, CED," corpus, Chinese Knowledge Information Processing Group, Sinica. http://rocling.iis.sinica.edu.tw/ROCLING/corpus98/decform.html.
[29] "Google." http://www.google.com/.
[30] "Altavista." http://www.altavista.com/.
[31] "Open‾nd." http://www.open‾nd.com/.
[32] F. Wessel, R. SchlÄuter, K. Macherey, and H. Ney, "Con‾dence measures for large vocabulary continuous speech recognition," IEEE Trans. on Speech and Audio Processing, vol. 3, pp. 288--298, March 2001.
[33] M. Steinbach, G. Karypis, and V. Kumar, "A comparison of document clustering techniques," in KDD Workshop on Text Mining, 2000.
[34] G. Karypis, "Cluto: A clustering toolkit," Tech. Rep. #02-017, University of Minnesota, Department of Computer Science, August 2002.
[35] P. Domingos and M. Pazzani, "On the optimality of the simple bayesian classifier under zero-one loss," Machine Learning, vol. 29, no. 2-3, pp. 103--130, 1997.
[36] A. K. McCallum, "Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering." http://www.cs.cmu.edu/ mccallum/bow, 1996.
[37] Y. Liu, Q. Tan, and X. Shen, Segmentation Standard for Modern Chinese Information Processing and Automatic Segmentation Methodology. Beijing:Tsinghua Press, 1993.
[38] CKIP (Chinese Knowledge Information processing Group), "A study of Chinese word boundaries and segmentation standard for information processing (in Chinese)," tech. rep., Taiwan, Taipei, Academia Sinica, 1998.
[39] F. Xia, "The segmentation guidelines for the Penn Chinese Treebank (3.0)," 2000.
[40] G. Saon and M. Padmanabhan, "Data-driven approach to designing compound words for continuous speech recognition," IEEE Trans. on Speech and Audio Processing, vol. 9, no. 4, May 2001.
[41] L.-F. Chien, "PAT-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval," in Information Processing and Management, vol. 35, no.4, pp. 501--521, 1999.
[42] S.-P. Liao, "Enhanced language modeling for Chinese speech recognition," Master''s thesis, National Taiwan University, 2003.
[43] P.-C. Chang, S.-P. Liao, and L.-S. Lee, "Improved Chinese broadcast new trascription by language modeling with temporally consisten training corpora and iterative phrase extraction," in Proc. EUROSPEECH, 2003.
[44] K. W. Church and P. Hanks, "Word association norms, mutual information, and lexicography," in Proc. Computational Linguistics, vol. 16, no.1, pp. 22--29, 1990.
[45] C. Beaujard and M. Jardino, "Language modeling based on automatic word concatenations," in Proc. EUROSPEECH, 1999.
[46] J. Zhang, J. Gao, and M. Zhou, "Extraction of Chinese compound words - an experimental study on a very large corpus," in The Second Chinese Language Processing Workshop attached to ACL2000, 2000.
[47] P.-K. Wong and C. Chan, "Chinese word segmentation based on maximum matching and word binding force," in Proc. of Computational Linguistics, pp. 200--203, 1996.
[48] P.-C. Chang and L.-S. Lee, "Improved language model adaptation using existing and derived external resources," in Proc. ASRU, 2003.


QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔