研究生(外文):Hao Tang
論文名稱(外文):Key Term Extraction from Spoken Documents
外文關鍵詞:key termkey wordspoken document
擷取關鍵語彙一直是一個重要的課題,可惜目前的研究較少,內容多分散在各個 不同的會議或是文章的某些部份,尚缺乏一個完整的簡介,也缺乏統一的比較。 本論文首先將目前較常見的方法歸納整理,分析各項方法的優缺點,提出一個較 統一的評估方式,然後進行比較。此外,過去使用的方法有過多人為的介入,例 如手動去除停用詞。為保留真實擷取關鍵語彙的環境,我們在不對語料進行過多 的前處理及後處理的情況下進行實驗。
與前人不同的是,我們不在只利用單一特徵進行篩選,而嘗試使用單純貝 氏分類器及馬可夫模型同時使用不同的特徵來擷取關鍵語彙。雖然最後結果 F-measure 分別只有 18.0% 及 17.0% ,但召回率都有超過一半,分別為 55.6% 及 54.2% 。我們還嘗試進行特徵選擇,發現某些特徵組合表現較好,且兩模型均有 穩定的表現。
進行特徵分析的結果顯示,多半被視為停用詞的詞很有可能是決定關鍵語彙的 線索,我們稱這些詞為線索詞。從模型上的表現顯示,平均而言,使用線索詞的 表現都優於不使用線索詞。可見某些停用詞提供了重要的訊息,不應該隨意地移 除。
我們更發現,訓練集及測試集有著不小的差異,測試集中有超過半數的詞是詞 外詞。在如此不批配的環境下兩個模型能有如此的表現,顯示使用模型比使用單 一特徵來的有效且穩定。

口試委員會審定書 i
摘要 iii
圖目錄 x
表目錄 xi
1 緒論 1
1.1 研究動機................................. 1
1.2 相關研究................................. 2
1.2.1 人工索引............................. 2
1.2.2 自動抽取關鍵語彙........................ 4
1.3 本論文之研究方法與成果........................ 8
1.4 章節安排................................. 8
2 背景知識 9
2.1 單純貝氏分類器.............................. 9
2.2馬可夫模型................................ 13
2.2.1參數估計............................. 13
2.2.2 維特比演算法(ViterbiAlgorithm)................ 16
2.3本章總結................................. 17
3 特徵 19
3.1詞頻與逆向文件詞頻........................... 19
3.2位置熵(PositionEntropy)........................ 21
3.3共同出現................................. 22
3.4本章總結................................. 24
4 連續分佈的單純模型 25
4.1高斯分佈(GaussianDistribution).................... 25
4.2指數分佈(ExponentialDistribution) .................. 27
4.3貝塔分佈(BetaDistribution) ...................... 29
4.4本章總結................................. 30
5 實驗及分析 33
5.1實驗語料................................. 33
5.2實驗設計................................. 34
5.3評估方法................................. 35
5.4結果分析................................. 37
5.5本章總結................................. 40
6 關鍵語彙圖 41
6.1連通圖(ConnectedGraph)........................ 41
6.2小世界(SmallWorld)........................... 42
6.3本章總結................................. 46
7 結論與展望 47
7.1總結.................................... 47
7.2未來展望................................. 48
參考文獻 52

