跳到主要內容

臺灣博碩士論文加值系統

(44.210.85.190) 您好!臺灣時間:2022/11/30 02:47
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:高志嘉
研究生(外文):Zhi-Jia Gao
論文名稱:基於改良型LCS演算法之詞彙擷取
論文名稱(外文):LCS-based Method for Term Extraction
指導教授:邊國維邊國維引用關係
指導教授(外文):Guo-Wei Bian
口試委員:邊國維唐政元周立平
口試委員(外文):Guo-Wei BianTANG, CHENG-YUANLi-Ping Chou
口試日期:2017-07-10
學位類別:碩士
校院名稱:華梵大學
系所名稱:資訊管理學系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:53
中文關鍵詞:最長共同子序列自然語言處理詞彙擷取
外文關鍵詞:Longest Common SubsequenceLCSNatural Language ProcessingTerm Extraction
相關次數:
  • 被引用被引用:0
  • 點閱點閱:148
  • 評分評分:
  • 下載下載:3
  • 收藏至我的研究室書目清單書目收藏:0
在這個數據大量膨脹的時代,運用資訊使生活更便利的應用相應而生,許多科技企業也都研發自然語言處理技術,例如FACEBOOK開發文本理解引擎(DeepText) ,以及GOOGLE的自然語言理解技術(SyntaxNet)。
中文斷詞主要分為三種方法: 法則式、統計式、混和式,這些斷詞方法在處理中文語料時,主要有歧義、未知詞彙等問題。本研究提出以詞為本的(Word-based) LCS演算法,對訓練語料中的句子加以比較,抽取出可能的未知詞彙。
詞彙擷取實驗利用兩萬行句子,獲取7154個候選詞彙,扣除字典具有的詞彙後,共有2848個候選詞彙,包含大量的擴展詞及新詞。其中1214筆為錯誤詞組,正確詞彙為1634筆,本詞彙擷取方法產出22.8%的新詞。

In this era of extensive expansion of the data, the use of information technology can make life more convenient. Many technology companies has developed their natural language processing (NLP) technology, such as FACEBOOK has developed the text understanding engine (DeepText) and GOOGLE has developed the natural language understanding technology (SyntaxNet).

There are three methods used in Chinese segmentation, there are rule-based, statistic-based, and hybrid methods. The major problems for dealing with Chinese text are mainly the ambiguous words and the unknown words. In this study, we proposed an word-based LCS (longest common sequence) method to extract the new terms from the training corpus.

The experiment used 20,000 sentences, our method extracted 7154 terms, which contains a large number of extensions of words and the new words. Compared with our original dictionary, the proposed method can get additional 2848 terms, there are 1214 terms are the wrong patterns and 1634 terms are the correct words. Using the proposed method, the ratio of the new word is 22.8%.

Keywords: Longest Common Subsequence, LCS, Natural Language Processing, Term Extraction

誌謝 I
摘要 II
Abstract III
目錄 IV
圖目錄 VI
表目錄 VII
一、緒論 1
1.1研究動機 1
1.2研究目的 2
二、文獻探討 3
2.1自然語言處理 3
2.2中文斷詞 5
2.3詞彙擷取 8
2.4 LCS演算法 10
三、研究方法 14
3.1流程 14
3.2語料處理 15
3.3中文斷詞 15
3.4以詞為本的LCS演算法 16
3.5擷取規則過濾 17
3.6虛詞與英文數字過濾 20
四、實驗結果 22
4.1評估標準 22
4.2實驗1- 無中文字詞的停用詞表 22
4.3實驗2- 新增虛詞、代詞的停用詞表 25
4.4實驗3- 〝的〞字過濾分析 27
4.5結果分析 32
五、結論與未來研究 37
5.1結論 37
5.2未來研究 38
參考文獻 39
附錄-前100筆正確新詞彙 42


[1] 王琮偉,「解決最長共同子序列問題的可實作且有效率心跳式演算」,國立台灣科技大學電子工程系碩士論文,民國九十五年十一月。
[2] 王楚蓁,「現代漢語詞類劃分與教學方法」,台灣師範大學華語文研究所碩士論文,民國九十七年。
[3] 方瑾,「論現代漢語詞素、詞、詞組之界定及其教學啟示」,台灣師範大學華語文研究所碩士論文,民國 九十八年。
[4] 徐承暉,「詞性過濾對佛經詞彙擷取成效之研究」,華梵大學資訊管理學系碩士論文,民國一百零二年一月。
[5] 徐洪宗,「多義與歧義-台灣廣告語言實例分析」,國立政治大學國文教學研究所碩士論文,民國九十五年一月。
[6] 陳界均,「基於 LCS 演算法之視素分群」,國立屏東教育大學資科所碩士論文,民國一百零二年,七月。
[7] 陳稼興、謝佳倫、許芳誠,「以遺傳演算法為基礎的中文斷詞研究」,資訊管理研究,第二卷,第二期,P.27-P.44,民八十九年七月。
[8] 張博勇,「運用中文剖析與詞彙庫於本體論自動建構之研究」,國立中正大學電機工程學研究所碩士論文,民國九十八年七月。
[9] 黃淑媚,「利用概念圖與自然語言處理於歷史資料分析」,華梵大學資訊管理學研究所碩士論文,民國一百零三年七月。
[10] 曾元顯,「新一代資訊檢索技術在圖書館 OPAC 系統的應用」,大圖書館1卷3期,民國八十六年七月。
[11] 溫振丞,「詞彙擷取對統計式日英翻譯系統之影響」,華梵大學資管理學研究所碩士論文,民國九十八年一月。
[12] 楊博宇,「產品比對的研究」,國立交通大學電機資訊學院碩士論,民國九十四年。
[13] 楊錫彭,漢語語素論,南京大學出版社,南京,民國 九十二年九月。
[14] 劉季泓,「利用斷詞結果建構提供學習資訊的中文錯字偵測系統」山科技大學數位生活科技研究所碩士論文,民國一百零二年七月。
[15] 劉月華、潘文娛、故韡,實用現代漢語語法(增訂本),北京商務印書館,北京,民國九十年五月。
[16] 簡立峰,「尋易系統(Csmart)與中文智慧型資訊檢索」,資訊傳播與圖書館學,第 3 卷第 2 期,第 28-37 頁,民國八十五年十二月。
[17] AHO, Hopcroft, Ullman (1983), Data Structures and Algorithms, pp. 189-192.
[18] J. Y. Nic and M. Briscobois, “On Chinese Text Retrieval, in Proceeding of SIGIR ‘96“ , pp. 225-233, 1996.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊