跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.11) 您好!臺灣時間:2025/09/23 13:55
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:吳冠誼
研究生(外文):Wu, Guan-Yi
論文名稱:利用機器學習辨識專有名詞 – 以提升中文斷字斷詞的績效
論文名稱(外文):Proper Noun Identification Using Machine Learning – Elevate the Performance of Chinese Word Segmentation
指導教授:陳宗天陳宗天引用關係
指導教授(外文):Chen, Tsung-Teng
口試委員:陳宗天李瑞元王永心蔡瑞煌
口試委員(外文):Chen, Tsung-TengLee, Maria R.Wang, Yung-HsinTsaih, Rua-Huan
口試日期:2018-07-30
學位類別:碩士
校院名稱:國立臺北大學
系所名稱:資訊管理研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2018
畢業學年度:106
語文別:中文
論文頁數:55
中文關鍵詞:專有名詞中文斷字斷詞深度學習LSTM
外文關鍵詞:Proper NounsChinese Word SegmentationDeep LearningLSTM
相關次數:
  • 被引用被引用:1
  • 點閱點閱:642
  • 評分評分:
  • 下載下載:8
  • 收藏至我的研究室書目清單書目收藏:1
在英文的文本中,詞彙以空格或特殊符號分隔,專有名詞也以大寫字母開頭。但中文文本內的詞彙沒有像英文有明確的邊界,因此常需使用自訂辭庫來解決斷字斷詞與專有名詞辨識的問題。
由於專有名詞與新創名詞不斷出現,目前以人工自訂詞庫方式較無效率,因此擬將機器學習方法也應用於中文詞彙的識別。但常見的監督式學習方式需要使用人工事先標記的語料庫,或是有標準答案的資料集,在資料處理上花費了過多時間,因此本研究使用深度學習中的長短期記憶(Long-Short Term Memory, LSTM)做為訓練模型,並將標點符號以空格代替的文本做為訓練資料,利用深度學習的方式找出文章中的專有名詞(如:人名)。然而預測結果並沒有標準答案,因此本研究加入了門檻值,對每次預測的機率轉換矩陣進行挑選;應用貝式定理與多模型,過濾出多字詞彙;開頭字篩選,選擇較有可能作為開頭的字進行預測;將正向與反向文本訓練後之預測結果取交集,過濾無意義詞彙。
本研究運用了上述多種方式找出正確且有意義之詞彙,也針對專有名詞計算Precision、Recall值來做為驗證績效指標,並改善現有斷詞系統Jieba對於專有名詞及未知詞的斷詞效能。

In English text, words are separated by spaces or special symbols, and proper nouns begin with uppercase letters. However, the vocabulary in Chinese text does not have a clear boundary like English. Therefore, it is often necessary to use a custom lexicon to solve the problem of word segmentation and proper noun identification.
Because proper nouns and unknown words are constantly growing, the cost of custom lexicon is relatively high, so machine learning methods are also used for Chinese recognition. In this study, we use LSTM as a training model, replace the punctuation of the article with a space and use it as a training data and find proper nouns in the article through deep learning.
However, there are no standard answers to the predictions, so this study adds the threshold value, selects the probability matrix for each prediction, applies Bayes' theorem and multi-model to find long words, choose the one that is more likely to be the start words, forward and backward prediction result intersect, filtering the meaningless words.
This study also calculates the Precision and Recall values for the proper nouns as performance indicator, and improves the word segmentation performance of Jieba on proper nouns and unknown words.

中文論文提要I
英文論文提要II
目 錄III
圖 次VI
表 次VII

第一章 緒論1
第一節 研究背景與動機1
第二節 研究目的2
第三節 論文架構3
第二章 文獻探討4
第一節 文字探勘(Text Mining) 4
第二節 機器學習(Machine Leaning) 4
第三節 Keras與TensorFlow 7
第四節 深度學習(Deep Learning) 7
第五節 中文斷詞方法 11
第六節 隱含馬可夫模型(Hidden Markov Model)於斷詞之應用 15
第七節 命名實體識別(Named Entity Recognition,NER) 16
第三章 研究方法 18
第一節 研究架構 18
第二節 類神經網路模型建立 20
第三節 預測結果篩選 23
第四節 系統評估與調整 25
第五節 現有系統比較 26
第六節 使用工具 28
第四章 研究實作與結果 29
第一節 機器學習平台建置 29
第二節 資料搜集與整理 30
第三節 建模與實作結果 32
第四節 模型限制說明及比較 40
第五章 結論與未來建議 41
第一節 研究貢獻 41
第二節 系統限制 42
第三節 結論與建議 42
參考文獻 44
附錄一 詞性表 46
附錄二 程式碼流程 48
簡歷 54
著作權聲明 55


Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5(2), 157-166.
Chen, H.-H., & Lee, J.-C. (1996). Identification and classification of proper nouns in Chinese texts. Paper presented at the Proceedings of the 16th conference on Computational linguistics-Volume 1.
Chen, X., Qiu, X., Zhu, C., Liu, P., & Huang, X. (2015). Long Short-Term Memory Neural Networks for Chinese Word Segmentation. Paper presented at the EMNLP.
Chieu, H. L., & Ng, H. T. (2002). Named entity recognition: a maximum entropy approach using global information. Paper presented at the Proceedings of the 19th international conference on Computational linguistics-Volume 1.
Chiu, J. P., & Nichols, E. (2015). Named entity recognition with bidirectional LSTM-CNNs. arXiv preprint arXiv:1511.08308.
Goh, C.-L., Asahara, M., & Matsumoto, Y. (2005). Chinese Word Segmentation by Classification of Characters. International Journal of Computational Linguistics & Chinese Language Processing, Volume 10, Number 3, September 2005: Special Issue on Selected Papers from ROCLING XVI, 10(3), 381-396.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
Junyi, S. (2013, 2016). jieba. Retrieved from https://github.com/fxsjy/jieba
Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
Lin, Q.-X., Chang, C.-H., & Chen, C.-L. (2010). 結合長詞優先與序列標記之中文斷詞研究 (A Simple and Effective Closed Test for Chinese Word Segmentation Based on Sequence Labeling)[In Chinese]. International Journal of Computational Linguistics & Chinese Language Processing, Volume 15, Number 3-4, September/December 2010, 15(3-4).
Ma, X., & Hovy, E. (2016). End-to-end sequence labeling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354.
Peng, F., Feng, F., & McCallum, A. (2004). Chinese segmentation and new word detection using conditional random fields. Paper presented at the Proceedings of the 20th international conference on Computational Linguistics.
Peng, N., & Dredze, M. (2016). Improving named entity recognition for chinese social media with word segmentation representation learning. arXiv preprint arXiv:1603.00786.
Raschka, S. (2015). Python machine learning: Packt Publishing Ltd.
Rehurek, R. (2009, 2018/02/03). Topic Modelling For Humans. Retrieved from https://radimrehurek.com/gensim
Sullivan, D. (2001). Document warehousing and text mining: techniques for improving business operations, marketing, and sales: John Wiley & Sons, Inc.
Sun, J. (2012). ‘Jieba’Chinese word segmentation tool.
Teahan, W. J., Wen, Y., McNab, R., & Witten, I. H. (2000). A compression-based algorithm for Chinese word segmentation. Computational Linguistics, 26(3), 375-393.
Xu, J., & Sun, X. (2016). Dependency-based gated recursive neural network for chinese word segmentation. Paper presented at the Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
林千翔. (2004). 基於特製隱藏式馬可夫模型之中文斷詞研究; Chinese Word Segmentation using Specialized HMM.
林大貴. (2017). TensorFlow+Keras深度學習人工智慧實務應用: 博碩文化.
陳稼興, 謝佳倫, & 許芳誠. (2000). 以遺傳演算法為基礎的中文斷詞研究. 資訊管理研究, 2(2), 27-44.
陳譽晏. (2015). 運用 R Shiny 建立文字探勘平台之語意分析及輿情分析. Journal of Data Analysis, 10(6), 51-78.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊