本論文中,我們針對工商時報的2306篇新聞報導做文件自動分類以及相似 性排序的實驗,其主要目的,是希望藉由電腦的幫助來減輕人的負擔。實 驗所用的新聞報導是以工商時報民國80年7月到81年1月間取樣出來的2306 篇財經類的新聞報導,包括產業、企業、機械、電機、資訊五大類,共24 小類,先以人工將之分類,並分為訓練資料(2095篇)及測試資料( 211篇) 兩部分,根據次數、集中度、廣度三項條件,從訓練資料得到具有分類價 值的關鍵詞,以向量模式、機率模式,和不同的分類比重方式來做自動分 類實驗,並比較其結果。實驗結果,測試資料有67%左右的正確率(回收 率),若取前三名則有 80%的正確率。文件相似性排序部分,則是根據電 腦自動習得的關鍵詞為基礎,事先建立了文件-關鍵詞矩陣、關鍵詞-文 件矩陣以及關鍵詞-關鍵詞相似性矩陣,再由這些矩陣中的數值來計算文 件與文件的相似性,將所挑出的文件,依相似性以及可信度做排序。而相 似性排序的主要用途,在提供使用者做簡便的線上查詢。同時,我們針對 電腦與人工在做分類以及相似性排序時的不同點提出簡單的比較與討論, 讓我們了解之間的差異。未來,對於文件自動分類方面,我們希望能夠加 入斷詞系統,以提昇關鍵詞的品質、增加正確率。因為受限於訓練資料數 量不足的限制,並沒有得到十分滿意的結果,但是應該已有某種程度的貢 獻,而且這是個值得努力的方向,因為能夠省去大量的人工。本文共分八 章:第一章導論;第二章分類的觀念及步驟;第三章實驗步驟1資料選取及類 別選定;第四章實驗步驟2關鍵詞選取及分類比重給定;第五章自動分類實 驗結果;第六章錯誤分析;第七章文件相似性排序;第八章結論。
|