跳到主要內容

臺灣博碩士論文加值系統

(44.192.92.49) 您好!臺灣時間:2023/06/10 11:37
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:楊允言
研究生(外文):Yang, Yun Yan
論文名稱:文件自動分類及其相似性排序
論文名稱(外文):Document Automatic Classification and Ranking
指導教授:張俊盛;陳克健
指導教授(外文):Chang Jyun Sheng;Chen Keh Jiann
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊科學學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1993
畢業學年度:81
語文別:中文
中文關鍵詞:自動分類相似性排序資訊檢索
外文關鍵詞:Automatic ClassificationRankingInformation Retrieval
相關次數:
  • 被引用被引用:42
  • 點閱點閱:350
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:6
本論文中,我們針對工商時報的2306篇新聞報導做文件自動分類以及相似
性排序的實驗,其主要目的,是希望藉由電腦的幫助來減輕人的負擔。實
驗所用的新聞報導是以工商時報民國80年7月到81年1月間取樣出來的2306
篇財經類的新聞報導,包括產業、企業、機械、電機、資訊五大類,共24
小類,先以人工將之分類,並分為訓練資料(2095篇)及測試資料( 211篇)
兩部分,根據次數、集中度、廣度三項條件,從訓練資料得到具有分類價
值的關鍵詞,以向量模式、機率模式,和不同的分類比重方式來做自動分
類實驗,並比較其結果。實驗結果,測試資料有67%左右的正確率(回收
率),若取前三名則有 80%的正確率。文件相似性排序部分,則是根據電
腦自動習得的關鍵詞為基礎,事先建立了文件-關鍵詞矩陣、關鍵詞-文
件矩陣以及關鍵詞-關鍵詞相似性矩陣,再由這些矩陣中的數值來計算文
件與文件的相似性,將所挑出的文件,依相似性以及可信度做排序。而相
似性排序的主要用途,在提供使用者做簡便的線上查詢。同時,我們針對
電腦與人工在做分類以及相似性排序時的不同點提出簡單的比較與討論,
讓我們了解之間的差異。未來,對於文件自動分類方面,我們希望能夠加
入斷詞系統,以提昇關鍵詞的品質、增加正確率。因為受限於訓練資料數
量不足的限制,並沒有得到十分滿意的結果,但是應該已有某種程度的貢
獻,而且這是個值得努力的方向,因為能夠省去大量的人工。本文共分八
章:第一章導論;第二章分類的觀念及步驟;第三章實驗步驟1資料選取及類
別選定;第四章實驗步驟2關鍵詞選取及分類比重給定;第五章自動分類實
驗結果;第六章錯誤分析;第七章文件相似性排序;第八章結論。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊