(3.236.222.124) 您好!臺灣時間:2021/05/08 06:24
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:鄭鉅翰
研究生(外文):Chu-Han Cheng
論文名稱:基於搜尋結果之循序性中文分詞
論文名稱(外文):A Search-result-based Sequential Method for Chinese Segmentation
指導教授:鄭卜壬鄭卜壬引用關係
口試委員:林正偉邱志義
口試日期:2013-07-30
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2013
畢業學年度:101
語文別:中文
論文頁數:37
中文關鍵詞:自然語言處理搜尋引擎中文分詞監督式學習
外文關鍵詞:Chinese Word SegmentationMachine LearningSearch EngineSupervise Learning
相關次數:
  • 被引用被引用:0
  • 點閱點閱:206
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
在中文的自然語言處裡上,中文分詞是非常基本且非常重要的工作。傳統的分詞方式通常傾向為結合字典式分詞與統計式分詞方法,有時還會同時結合其他多項外部資源或技術,比如:未知詞擷取、詞性分析等等,才能達到理想的分詞結果。這些研究的共同特色在於,他們必須要有人力的介入,先收集大量的參考資料,才能開始進行之後的分詞工作。而本研究的重點在於,使用自動化的方式自動搜集資源以進行中文分詞。我們提出一種監督式學習方法,這是一種利用搜尋引擎為輔助的兩階段式中文分詞演算法。此種方法可以克服傳統分詞需要時常性更新、擴充詞典或文獻等參考資料才能維持良好分詞結果的缺陷。在第一階段中我們利用搜尋引擎提供資訊,使我們的模型獲得更多的分詞資訊做學習。第二階段我們則根據模擬人類閱讀習慣的分詞方式設計一循序性分詞演算法。最後於實驗結果發現,我們確實能利用搜尋引擎解決新詞出現的問題,並且達到理想的分詞結果。

In many Chinese text processing tasks, Chinese word segmentation is a vital and required step. There are lots of method have been proposed to address this problem using dictionary-based or statistical-based algorithm in previous study. In order to achieve high performance, some of these studies used external resource or other technology like identifying unknown words, part of speech tagging etc. Some of these combined with various machine learning algorithm to help segmentation. The goal of this paper is to propose a simple and supervise learning method using search engine to help Chinese word segmentation without human intervention. In first stage we use training data to construct a classifier to predict whether the gap between every two Chinese word is a boundary, and in second stage we propose a sequential method to complete Chinese word segmentation. The experiment result shows that our system performs very well and some explanations and analysis also present in this paper.

目錄

口試委員會審定書 #
誌謝 iii
中文摘要 iv
ABSTRACT v
目錄 vi
圖目錄 ix
表目錄 xi
第 一 章 緒論 1
1.1. 研究背景與動機 1
1.2. 研究目的 2
1.3. 論文架構 3
第 二 章 文獻探討 4
2.1 辭典式分詞 5
2.1.1 MMSEG 分詞演算法 5
2.2 統計式分詞 7
2.3 支持向量機(Support Vector Machine, SVM) 8
第 三 章 研究方法 9
3.1 想法 9
3.1.1 採取監督式學習方法 9
3.1.2 選擇循序性分類 10
3.2 定義問題 10
3.3 實驗架構與方法 11
3.3.1 訓練階段架構與方法 11
3.3.2 分詞階段架構與方法 13
3.4 特徵抽取 14
3.4.1 頻率強度(Frequency-based) 15
3.4.2 邊界強度(Boundary-based) 15
3.4.3 內聚力強度(Cohesion-based) 16
3.4.4 紅詞關連性(Red term-based) 17
第 四 章 實驗結果 20
4.1 實驗資料來源與實驗設定 20
4.1.1 實驗資料來源 20
4.1.2 實驗設定 20
4.1.2.1 Baseline-SVM與LTR方法之差異 21
4.2 評量方法 22
4.3 相異分詞演算法結果與分析 23
4.3.1 傳統分詞演算法結果與分析 23
4.3.2 搜尋引擎輔助分詞演算法結果 24
4.3.3 搜尋引擎輔助分詞演算法分析 25
4.3.4 搜尋結果筆數對分詞結果影響的分析 26
4.4 錯誤分析 28
4.4.1 分詞錯誤分類 28
4.4.2 分詞錯誤分析與比較 28
第 五 章 討論 31
5.1 搜尋引擎提供的紅詞討論 31
5.2 搜尋引擎輔助的好處 31
5.3 多語言的分詞方式 32
5.4 長辭額外處理方式 32
第 六 章 結論與研究方向 35
6.1 結論 35
6.2 未來研究方向 35
REFERENCE 36


[1]X. J. Wang, W. Liu, Y. Qin, “A Search-based Chinese Word Segmentation Method”, WWW, 2007.
[2]C. H. Tsai, “MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”, 2000.
[3]Fan, C. K. and W. H. Tsai, “Automatic Word Identification in Chinese Sentences by the Relaxation Technique,” Computer Processing of Chinese and Oriental Languages, Vol. 2, No. 4, pp. 33-56, 1988.
[4]C. L. Hsieh, “A Genetic Approach to Chinese Text Segmentation”, 1998.
[5]Sproat, R. and C. Shih. “A statistical method for finding word boundaries in Chinese text” Computer Processing of Chinese & Oriental Languages, 1990..
[6]Chun-Liang Chen and Lee-Feng Chien, "PAT-Tree-based Online Corpus Classification with an Application to OCR Text Verification", IRAL, 1999.
[7]“http://blog.csdn.net/appleleaf/article/details/6268041”
[8]Joachims, T., “Text Categorization with Support Vector Machines: Learning with Many Relenvant Features”, Proceedings of th Eourpean Conference on Machine Learning, pp. 21-24 (pp. 137-142), 1998.
[9]Yang, Y. and Liu, X. “A Re-examination of Text Categorization Methods”, Proceedings of 22th ACM International Conference on Research and Development inn Information Retrieval pp.42-49, 1999.
[10]CC Chang and CJ Lin. “Libsvm: A Library for Support Vector Machines.” ACM Transactions on Intelligant Systems and Technology, 2:27:1-27:27, 2011.
[11]Sproat, R., and Shih C. Corpus-based Methods in Chinese Morphology and Phonology. COOLING, 2002.
[12]Xue, N.W. Chinese Word Segmentation as Character Tagging. Computational Linguistics and Chinese Language Processing. Vol. 8, No. 1, Feb. 2003, pp.29-48.
[13]H. J. Zeng, Q. C. He, Z. C. Chen, W. Y. Ma, J. Ma, ” Learning to Cluster Web Search Results”, SIGIR, 2004.
[14]R. Portela, N. Mamede, J. Baptista, “Multiword Identification”, INESC-ID.
[15]J. F. Gao, M. Li, A. Wu, C.N. Huang, “Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach.” Computational Linguistics. MIT Press. 2005.
[16]J. Platt, ”Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods.” Large Margin Classifiers, MIT Press, 1999.
[17]N.W. Xue, ”Chinese Word Segmentation as Character Tagging.” Computational Linguistics and Chinese Language Processing. Vol. 8, No. 1, Feb. 2003, pp.29-48.


QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔