跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.11) 您好!臺灣時間:2025/09/24 06:11
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:黃雲龍
研究生(外文):Huang, Yun-Long
論文名稱:中文全文文件群集索引理論研究--向量空間模型的建構
論文名稱(外文):A Theoretic Research of Cluster Indexing for Mandarin Chinese Full Text Document--The Construction of Vector Space Model
指導教授:謝清佳謝清佳引用關係謝清俊謝清俊引用關係
指導教授(外文):Hsieh Ching-ChaHsieh Ching-Chun
學位類別:博士
校院名稱:國立臺灣大學
系所名稱:商學研究所
學門:商業及管理學門
學類:一般商業學類
論文種類:學術論文
論文出版年:1997
畢業學年度:85
語文別:中文
論文頁數:160
中文關鍵詞:群集索引自動索引資訊檢索向量空間模型群集索引模型奇異值分解
外文關鍵詞:Cluster IndexingAutomatic IndexingInformation RetrievalVector Space ModelCluster Index ModelSingular Value Decomposition
相關次數:
  • 被引用被引用:14
  • 點閱點閱:649
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:4
由於資訊技術的應用,使得資訊的儲存、呈現、處理與交換的方式發生很
大的變革。特別是文件電子化以後,對於非結構化的全文文件需要新的全
文資料庫技術、方法與模型,以解決全文文件處理、應用與管理問題。當
前商業應用的全文檢索系統仍以字串比對的全文檢視法,配合布林查詢介
面為主流,這種系統過於簡化電子文件檢索系統環境的形式與內容關係。
因此先進的資訊檢索研究都強調內容檢索方式,以提供使用者更精確的檢
索結果。本文基於中文語文的特色,並且結合中文資訊處理應用研究的成
果,在中文自動索引理論研究上,提出以向量空間模型(VSM)為基礎的群
集索引模型(CIM),運用奇異值分解技術,找出索引詞共同因素,建立一
個具有直交向量空間,又能縮減原始資料空間的群集索引空間。經由實驗
設計分別從檢出率、精確率、索引構面及相關係數界限值等四個角度去綜
合評量CIM索引的效果。另外為了突破傳統VSM在自動索引上的瓶頸,本文
在詮釋索引形式與文件內容關係上,首度將人工索引系統的分類架構引進
於CIM,建立衡量索引詞群集索引形式的方法。以「廣度」衡量索引詞在
群集區域內的分佈資訊量,代表索引詞索引的詳盡性;再以「集中度」衡
量索引詞在所有群集上全域的分佈資訊量,代表索引詞的明確性。根據上
述索引詞在群集內與群集間的資訊量,建立篩選詞彙的標準,選取具有群
集索引價值的索引詞。本文從兒童日報全文語料庫中選取環保新聞(368篇
文件)與醫藥新聞(502篇文件),分別設計環保語料六個查詢句、醫藥語料
五個查詢句,進行各項實驗。並由台大圖書館學系高年級學生以人工選詞
方式選取環保語料原始詞集2544詞,醫藥語料原始詞集2564詞。最後以人
工進行索引詞的同義詞權威控制,環保語料共有索引詞2299詞,醫藥語料
共有索引詞2369詞。各項選詞結果並經專家審查確認。在各項實驗與研究
控制下,提出以下主要發現:1.CIM最適群集索引構面區間的決策準則:
文件數與群集索引構面之間的比例至少在五∼十倍。2.以IDF加權方式建
立索引詞--文件矩陣,CIM有最佳的索引效能。3.根據索引詞廣度與集中
度的資訊量衡量結果,環保語料篩選詞集1139詞,醫藥語料篩選詞集1149
詞。4.篩選詞集、原始詞集、權威控制詞集交叉分析結果。(1) 醫藥語料
在高界限值(sim=0.5)下,篩選1149詞集的平均精確率60.15%分別略低於
原始2564詞集的63.49%,與權威控制2369詞集的64.78%。(2) 醫藥語料在
低界限值(sim=0.2)下,篩選1149詞集的平均精確率46.65%分別略高於原
始2564詞集的43.82%,與權威控制2369詞集的44.05%。(3) 環保語料在高
界限值(sim=0.5)下,篩選1139詞集的平均精確率40.34%分別略優於原
始2564詞集的35.21%,與權威控制2299詞集的37.57%。(4) 環保語料在高
界限值(sim=0.2)下,篩選1139詞集的平均精確率21.04%分別略優於原
始2564詞集的18.56%,與權威控制2299詞集的19.22%。5.經由上述實驗,
CIM在索引的效果上優於傳統VSM,而且可以改善或者提昇其效能,達到具
有權威控制機制下的索引效果。最後本文建議規劃中文自動索引研究的基
礎環境,建立整合研究系統的基本模組,包括:查詢介面、檢索引擎、自
動索引與相關評量四個部份。然後以中文字或詞彙的索引形式,分別從兩
個不同的途徑著手。並且從相關評量模組開始,建立標準的測試語料庫,
設計足夠代表評量系統效能的查詢句,模擬實際使用者環境下系統效能評
量的新標準,並進一步探索使用者相關回饋的檢索模型,建立中文資訊檢
索研究在國際上的新展望與貢獻。
封面
謝詞
中文摘要
英文摘要
目錄
表次
圖次
第一章 緒論
第一節 研究動機
第二節 問題陳述
第三節 研究目的
第二章 文獻探討
第一節 索引理論
第二節 向量空間模型
第三節 總結
第三章 研究方法與研究設計
第一節 研究方法
第二節 研究設計
第四章 實驗結果分析
第一節 實驗環境與評量方式
第二節 實驗結果
第五章 問題討論與結論建議
第一節 問題討論
第二節 結論
第三節 未來研究建議
參考文獻
一、中文文獻
二、英文文獻
附錄一 文件分類統計表
附錄二 索引詞人工選取作業說明
附錄三 博士論文研究日誌
附錄四 查詢句相關文件編號註紀表
附錄五 索引詞篩選後的詞彙基本組成分析
附錄六 查詢評量文件數統計表
附錄七 環保語科所[引詞篩選ICF﹥1.0詞表
附錄八 兒童日報全文語科庫與CIM系統操作簡介
作者簡歷
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊