跳到主要內容

臺灣博碩士論文加值系統

(44.220.44.148) 您好!臺灣時間:2024/06/18 15:14
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳代穎
研究生(外文):Tai-Ying Chen
論文名稱:新聞及社群媒體中的新詞擷取
論文名稱(外文):New Word Extraction from News and Social Media
指導教授:項潔項潔引用關係
指導教授(外文):Jieh Hsiang
口試委員:蔡宗翰謝育平
口試委員(外文):Tzong-Han TsaiYuh-Pyng Shieh
口試日期:2019-07-17
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2019
畢業學年度:108
語文別:中文
論文頁數:41
中文關鍵詞:新詞擷取詞彙分類文字探勘
外文關鍵詞:New Word ExtractionWord ClassificationText Mining
DOI:10.6342/NTU201900739
相關次數:
  • 被引用被引用:0
  • 點閱點閱:191
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
新聞及社群媒體為網路上重要的訊息來源,其中新詞又別具意義,因為新詞反映出當下發生的事件及立場。故本研究提出一新詞擷取的系統,系統分為新詞擷取模組與分類預測模組。
在新詞擷取中,首先藉由既有的詞庫對文獻集斷詞,此時不在詞庫中的新詞會被斷為小的詞素碎片,之後計算n-gram獲得候選新詞。接著利用候選新詞的詞頻、Pointwise Mutual Information(PMI)、分歧亂度3個統計特徵進行篩選。最後利用人工規則移除含有數字、介詞、停用詞的候選新詞,得到擷取的新詞。
在分類預測模組中,以Support Vector Machine(SVM)預測新詞出現的文件分類後,取平均後作為新詞的分類。
實驗結果顯示,本系統在社群媒體的文獻集表現較佳,F1-score達到70.4%,此時準確率為62.7%,召回率為80.2%。經實驗觀察也發現藉由新詞能更全面地分析輿情,並掌握過去難以觀察的事件及立場。
News and social media are the main sources of information on the Internet nowadays and new words have been created on these sources every day. Although new words represent up-to-date and meaningful information, most of the word extraction tools cannot extract new words. Therefore, in this study, we propose a new word extraction system. We first segment the corpus with an existing dictionary and new words will be segmented into small morphemes. We then obtain new words by computing statistical features such as term frequency, Pointwise Mutual Information (PMI), and Branching Entropy. We also predict the domains of new words with Support Vector Machine (SVM).
Our result shows that our system has a better performance on the corpus from social media, and it achieves 70.4% of F1-score with 62.7% of accuracy and 80.2% of recall. With new words, we find that extensive opinion analysis and understanding of corpus can be better achieved.
目錄 ii
圖目錄 iv
表目錄 vi
第一章 緒論 1
1.1 研究動機 1
1.2 研究目的 3
1.3 論文架構 3
第二章 相關研究 4
2.1 概述 4
2.2 中文斷詞 4
2.3 命名實體識別(NER) 6
2.4 同位詞夾子 6
第三章 研究方法 8
3.1 概述 8
3.2 研究資料 8
3.3 符號定義 12
3.4 系統架構 12
3.5 新詞擷取 13
3.5.1 資料前處理 14
3.5.2 建立PAT tree 16
3.5.3 字串斷詞 17
3.5.4 計算候選新詞 18
3.5.5 候選新詞篩選 19
3.5.6 候選新詞過濾 21
3.6 分類預測 24
3.6.1 訓練資料 24
3.6.2 訓練流程 25
3.6.3 預測流程 27
3.7 本章總結 28
第四章 實驗結果與評估 29
4.1 概述 29
4.2 評估方法 29
4.3 實驗設計 30
4.4 評估篩選步驟 32
4.5 評估過濾步驟 34
第五章 應用與觀察 35
5.1 系統程式碼與標記資料 35
5.2 新詞在新聞媒體上的分布 35
5.3 新詞在新聞及社群媒體的分布 36
第六章 結論與未來展望 40
6.1 結論 40
6.2 未來展望 40
參考文獻 41
謝育平, ‘同位詞夾子: 主題式分類詞庫萃取演算法’, 數位人文研究的新視野: 基礎與想像, 2010
Chen, K.-J., and Ma, W.-Y., ‘Unknown word extraction for Chinese documents’: ‘Book Unknown word extraction for Chinese documents’ (Association for Computational Linguistics, 2002), pp. 1-7
Ma, W.-Y., and Chen, K.-J., ‘A bottom-up merging algorithm for Chinese unknown word extraction’: ‘Book A bottom-up merging algorithm for Chinese unknown word extraction’ (Association for Computational Linguistics, 2003), pp. 31-38
Sun, J., ‘‘Jieba’Chinese word segmentation tool’
Xue, N., and Shen, L., ‘Chinese word segmentation as LMR tagging’: ‘Book Chinese word segmentation as LMR tagging’ (Association for Computational Linguistics, 2003, edn.), pp. 176-179
Peng, F., Feng, F., and McCallum, A., ‘Chinese segmentation and new word detection using conditional random fields’: ‘Book Chinese segmentation and new word detection using conditional random fields’ (Association for Computational Linguistics, 2004), pp. 562
Morrison, D.R., ‘PATRICIA—practical algorithm to retrieve information coded in alphanumeric’, Journal of the ACM (JACM), 1968, 15, (4)
Chien, L.-F., ‘PAT-tree-based keyword extraction for Chinese information retrieval’: ‘Book PAT-tree-based keyword extraction for Chinese information retrieval’ (Citeseer, 1997), pp. 50-58
Chang, C.-C., and Lin, C.-J., ‘LIBSVM: A library for support vector machines’, ACM transactions on intelligent systems and technology (TIST), 2011, 2, (3)
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top