研究生(外文):Jen-Hao Tang
論文名稱(外文):A Research on Automatic Recommendation for Classification and Subject Headings of New Book Bibliographies
外文關鍵詞:Information retrievalRecommendation systemLibrary and information science
Librarians spend a lot of time and efforts on new book bibliography. They choose moderate classification and subject headings for new books according to the rule from the manual and the experience from their career. This research offers an approach to build an automatic recommendation system to suggest classification codes and subject headings of new books.
By the concept of information retrieval, we built the index of the bibliography data to search for the candidate classification codes and subject headings. After that, the system sort the candidate list to find the recommended results. The whole system is divided into 4 parts: data pre-process, data indexing, candidate retrieval & ranking process, and rule classification.
The goal of this research is to help librarians’ daily work for new book bibliography and increase the efficiency of their works. Besides, the research also finds out some interesting issues for recommendation systems applied for the real library data set.

口試委員會審定書 #
致謝 i
摘要 iii
目錄 v
圖目錄 ix
表目錄 xi
第 1 章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 研究範圍與限制 3
第 2 章 國家圖書館書目編目相關議題 4
2.1 分類號、主題詞的特性 4
2.2 編目欄位內容、格式的一致性 8
2.3 編目人員間編目的一致性 9
第 3 章 相關研究與文獻分析 11
3.1 書目分類系統相關研究 11
3.2 資訊檢索 13
3.2.1 特徵選擇 13
3.2.2 特徵權重 14
3.2.3 TF-IDF 14
3.2.4 BM25 15
3.3 關聯規則探勘 (association rule mining) 16
3.3.1 購物籃分析 (market basket analysis) 16
3.3.2 關聯規則 (association rule) 18
3.4 成效評估方式 19
第 4 章 研究問題與系統架構 22
4.1 研究問題定義 22
4.2 系統架構 24
4.2.1 資料前處理模組 25
4.2.2 建立索引模組 27
4.2.3 檢索與排序模組 31
4.2.4 例外規則分類模組 33
第 5 章 實驗與討論 36
5.1 實驗資料選擇 36
5.2 分類號推薦 38
5.2.1 檢索排序推薦 38
5.2.2 再版規則分類 39
5.2.3 關聯規則分類 40
5.2.4 分類號粗分實驗 42
5.3 主題詞推薦 45
5.3.1 主題詞推薦的評估方式 45
5.3.2 檢索排序推薦 46
5.3.3 再版規則分類 47
5.3.4 關聯規則分類 48
5.3.5 系統整體推薦 48
5.4 討論 50
5.4.1 分類號 50
5.4.2 主題詞 53
5.4.3 時間因素對推薦的影響 55
第 6 章 總結 60
6.1 結論 60
6.2 未來展望 62
附錄一 中文編目人工作業流程 67
附錄二 主題分析準則 68
附錄三 編目相關資源 70


圖 1 購物籃分析示意 17
圖 2 研究問題架構 23
圖 3 類別與特徵參數關係圖 23
圖 4 系統架構圖 24
圖 5 資料前處理 26
圖 6 建立索引 27
圖 7 建立反轉式索引之文件範例 28
圖 8符號表建立示意圖 30
圖 9 檢索與排序 33
圖 10 例外規則分類 35
圖 11 資料選擇示意圖 37
圖 12 系統整體分類號推薦成效 38
圖 13 檢索排序分類號推薦成效 39
圖 14 尋找關聯規則示意圖(items, support >= 0.001) 41
圖 15 尋找關聯規則示意圖(rules, confidence >= 0.6) 41
圖 16 粗分分類號的檢索排序推薦成效 43
圖 17 粗分分類號的系統整體推薦成效 44
圖 18 recall與Jaccard coefficient 46
圖 19 檢索排序推薦主題詞成效 47
圖 20 系統整體主題詞推薦成效 49
圖 21 兩實驗的系統整體分類號推薦比較 56
圖 22 兩實驗主題詞的系統整體推薦的average-Jaccard比較 58
圖 23 兩實驗主題詞的系統整體推薦的Macro-recall比較 58


表 1 本研究與其他研究的比較 12
表 2混淆矩陣 19
表 3 反轉式索引內字彙分布示意 29
表 4初步候選清單示意 32
表 5 最後推薦結果示意 32
表 6 實驗資料統計 36
表 7 訓練資料與測試資料統計 37
表 8 再版規則分類號推薦成效表 40
表 9 關聯規則分類號推薦成效表 42
表 10 粗分分類號的再版規則分類成效表 43
表 11 粗分分類號的關聯分類成效表 43
表 12 測試書目資料集主題詞數量統計 45
表 13 再版規則分類主題詞推薦成效表 48
表 14 關聯規則分類主題詞推薦成效表 48
表 15 再版書籍的分類號粗分細分差異 51
表 16 contingency table(局部) 53
表 17 再版書籍中擁有相似概念卻不同的主題詞 54
表 18 再版書籍因編目政策的改變而有不同的主題詞 54
表 19 時間因素實驗資料統計 56
表 20 兩實驗的分類號再版規則分類推薦成效比較 57
表 21 兩實驗的分類號關聯規則推薦成效比較 57
表 22兩實驗的主題詞再版規則分類推薦成效比較 59
表 23 兩實驗的主題詞關聯規則分類推薦成效比較 59

