自動索引是資訊檢索領域的重要課題其應用的典型代表為文件檢索 (document retrieval) 及書後索引 (back-of-book indexing)。有關探 討書後索引的研究一向不多,在中文方面尤其罕見;在本篇論文,我們 提出一套利用術語辨識的方法來為中文文書產生書後索引。本篇論文的基 本作法結合了術語(terminology)辨識、自然語言處理的技術及傳統文 件檢索的概念。實驗的前段是術語的辨識,後段則嘗試以術語為基礎,將 之擴展為索引項。在術語辨識的階段,我們利用類似統計式詞性標注的方 法,製作了一個術語標注器 (term tagger)。實驗結果顯示,這個標注器 標示術語的能力,不論在查全率或精確率都有將近 90% 的水準,是相當 不錯的結果。在索引形成的階段,則以術語為基礎,找出名詞組與動賓結 構,並利用傳統文件檢索的權重計量方式,來篩選出有檢索價值的書後索 引項。由實驗結果看來,查全率在 57 -70% 的水準,精確率也在 41-51%之間,可說是令人滿意的結果。在實驗過程中,我們將一部術語元 素辭典與一般領域辭典合併,因此,可以全力地發展術語標注器,而不必 擔心有太多非術語字彙的雜訊干擾。這樣一個利用特定領域辭典輔助的方 法,或許可以為中文特定領域的語料,提供另一種處理方式。
|