跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.169) 您好!臺灣時間:2025/01/22 02:56
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:唐仁壕
研究生(外文):Jen-Hao Tang
論文名稱:新書編目的分類號與主題詞自動推薦研究
論文名稱(外文):A Research on Automatic Recommendation for Classification and Subject Headings of New Book Bibliographies
指導教授:黃乾綱黃乾綱引用關係
口試日期:2017-06-30
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:工程科學及海洋工程學研究所
學門:工程學門
學類:綜合工程學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:71
中文關鍵詞:資訊檢索自動推薦系統圖書資訊學
外文關鍵詞:Information retrievalRecommendation systemLibrary and information science
相關次數:
  • 被引用被引用:2
  • 點閱點閱:381
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:4
圖書館的書目編目工作人員需要花費大量的時間對新進書籍進行編目,根據過去經驗與規則,給予每本書適當的分類號與主題詞等。本研究提出一套自動化的系統,能夠自動推薦適合的分類號與主題詞,作為編目人員的參考,加速編目工作流程。
方法上利用文件檢索的概念,將既有的編目資料建成索引,用搜尋的方式提供初步的相關詞條,最後經過重新計算與排序給出最終的推薦結果。系統流程上主要分成:資料前處理、建立索引、搜尋排序、例外規則分類四大部份,針對圖書館編目資料的特性設計適合的處理方式。
本研究的目的在於讓圖書館方編目人員在新書編目的過程中,能夠以系統推薦的分類號與主題詞加速編目工作流程。此外從研究過程中,進一步發現可研究的議題或更有價值的資訊。
Librarians spend a lot of time and efforts on new book bibliography. They choose moderate classification and subject headings for new books according to the rule from the manual and the experience from their career. This research offers an approach to build an automatic recommendation system to suggest classification codes and subject headings of new books.
By the concept of information retrieval, we built the index of the bibliography data to search for the candidate classification codes and subject headings. After that, the system sort the candidate list to find the recommended results. The whole system is divided into 4 parts: data pre-process, data indexing, candidate retrieval & ranking process, and rule classification.
The goal of this research is to help librarians’ daily work for new book bibliography and increase the efficiency of their works. Besides, the research also finds out some interesting issues for recommendation systems applied for the real library data set.
目錄

口試委員會審定書 #
致謝 i
摘要 iii
ABSTRACT iv
目錄 v
圖目錄 ix
表目錄 xi
第 1 章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 研究範圍與限制 3
第 2 章 國家圖書館書目編目相關議題 4
2.1 分類號、主題詞的特性 4
2.2 編目欄位內容、格式的一致性 8
2.3 編目人員間編目的一致性 9
第 3 章 相關研究與文獻分析 11
3.1 書目分類系統相關研究 11
3.2 資訊檢索 13
3.2.1 特徵選擇 13
3.2.2 特徵權重 14
3.2.3 TF-IDF 14
3.2.4 BM25 15
3.3 關聯規則探勘 (association rule mining) 16
3.3.1 購物籃分析 (market basket analysis) 16
3.3.2 關聯規則 (association rule) 18
3.4 成效評估方式 19
第 4 章 研究問題與系統架構 22
4.1 研究問題定義 22
4.2 系統架構 24
4.2.1 資料前處理模組 25
4.2.2 建立索引模組 27
4.2.3 檢索與排序模組 31
4.2.4 例外規則分類模組 33
第 5 章 實驗與討論 36
5.1 實驗資料選擇 36
5.2 分類號推薦 38
5.2.1 檢索排序推薦 38
5.2.2 再版規則分類 39
5.2.3 關聯規則分類 40
5.2.4 分類號粗分實驗 42
5.3 主題詞推薦 45
5.3.1 主題詞推薦的評估方式 45
5.3.2 檢索排序推薦 46
5.3.3 再版規則分類 47
5.3.4 關聯規則分類 48
5.3.5 系統整體推薦 48
5.4 討論 50
5.4.1 分類號 50
5.4.2 主題詞 53
5.4.3 時間因素對推薦的影響 55
第 6 章 總結 60
6.1 結論 60
6.2 未來展望 62
REFERENCE 64
附錄一 中文編目人工作業流程 67
附錄二 主題分析準則 68
附錄三 編目相關資源 70

圖目錄

圖 1 購物籃分析示意 17
圖 2 研究問題架構 23
圖 3 類別與特徵參數關係圖 23
圖 4 系統架構圖 24
圖 5 資料前處理 26
圖 6 建立索引 27
圖 7 建立反轉式索引之文件範例 28
圖 8符號表建立示意圖 30
圖 9 檢索與排序 33
圖 10 例外規則分類 35
圖 11 資料選擇示意圖 37
圖 12 系統整體分類號推薦成效 38
圖 13 檢索排序分類號推薦成效 39
圖 14 尋找關聯規則示意圖(items, support >= 0.001) 41
圖 15 尋找關聯規則示意圖(rules, confidence >= 0.6) 41
圖 16 粗分分類號的檢索排序推薦成效 43
圖 17 粗分分類號的系統整體推薦成效 44
圖 18 recall與Jaccard coefficient 46
圖 19 檢索排序推薦主題詞成效 47
圖 20 系統整體主題詞推薦成效 49
圖 21 兩實驗的系統整體分類號推薦比較 56
圖 22 兩實驗主題詞的系統整體推薦的average-Jaccard比較 58
圖 23 兩實驗主題詞的系統整體推薦的Macro-recall比較 58

表目錄

表 1 本研究與其他研究的比較 12
表 2混淆矩陣 19
表 3 反轉式索引內字彙分布示意 29
表 4初步候選清單示意 32
表 5 最後推薦結果示意 32
表 6 實驗資料統計 36
表 7 訓練資料與測試資料統計 37
表 8 再版規則分類號推薦成效表 40
表 9 關聯規則分類號推薦成效表 42
表 10 粗分分類號的再版規則分類成效表 43
表 11 粗分分類號的關聯分類成效表 43
表 12 測試書目資料集主題詞數量統計 45
表 13 再版規則分類主題詞推薦成效表 48
表 14 關聯規則分類主題詞推薦成效表 48
表 15 再版書籍的分類號粗分細分差異 51
表 16 contingency table(局部) 53
表 17 再版書籍中擁有相似概念卻不同的主題詞 54
表 18 再版書籍因編目政策的改變而有不同的主題詞 54
表 19 時間因素實驗資料統計 56
表 20 兩實驗的分類號再版規則分類推薦成效比較 57
表 21 兩實驗的分類號關聯規則推薦成效比較 57
表 22兩實驗的主題詞再版規則分類推薦成效比較 59
表 23 兩實驗的主題詞關聯規則分類推薦成效比較 59
REFERENCE

[1]王省吾, 圖書分類法導論, 中國文化大學出版部, 1982
[2]El-Sherbini, M. and G. Klim (1997). "Changes in technical services and their effect on the role of catalogers and staff education: An overview." Cataloging & Classification Quarterly 24(1-2): 23-33.
[3]朱惠中 and 李克強 (2006). "運用資料探勘技術從事圖書分類之研究." 資訊管理學術與實務研討會論文集: 221-228.
[4]薛理桂 (1998). 分類與編目之發展趨勢, 國立成功大學圖書館館刊.
[5]Baeza-Yates, R. and B. Riberiro-Neto, Modern Information Retrieval, the concepts and technology behind search 2nd. 2011: Pearson
[6]Robertson, S. and H. Zaragoza (2009). "The probabilistic relevance framework: BM25 and beyond." Foundations and Trends® in Information Retrieval 3(4): 333-389.
[7]Robertson, S. E., et al. (1995). "Okapi at TREC-3." Nist Special Publication Sp 109: 109.
[8]Robertson, S., et al. (2004). Simple BM25 extension to multiple weighted fields. Proceedings of the thirteenth ACM international conference on Information and knowledge management, ACM.
[9]Robertson, S. E. and S. Walker (1994). Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval. Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, Springer-Verlag New York, Inc.
[10]Robertson, S. E., et al. (1980). Probabilistic models of indexing and searching. Proceedings of the 3rd annual ACM conference on Research and development in information retrieval, Butterworth & Co.
[11]Salton, G. and C. Buckley (1988). "Term-weighting approaches in automatic text retrieval." Information processing & management 24(5): 513-523.
[12]Han, J., et al. (2011). Data mining: concepts and techniques, Elsevier.
[13]Agrawal, R., et al. (1993). Mining association rules between sets of items in large databases. Acm sigmod record, ACM.
[14]Piatetsky-Shapiro, G. (1991). "Discovery, analysis and presentation of strong rules." Knowledge discovery in databases: 229-248.
[15]林昕潔, et al., 使用 SVM 與詮釋資料之圖書自動分類 Automatic Book Classification Using Support Vector Machine and Meta-Information. 2008 資訊科技國際研討會論文集, 2008.
[16]黃嘉宏 and 陳舜德, 基於自動分類為基礎的圖書提名特徵擷取之研究-以輔助圖書分類系統為例. 輔仁大學碩士論文, 2008.
[17]Frank, E. and G. W. Paynter (2004). "Predicting library of congress classifications from library of congress subject headings." Journal of the Association for Information Science and Technology 55(3): 214-227.
[18]Pong, J. Y.-H., et al. (2008). "A comparative study of two automatic document classification methods in a library setting." Journal of Information Science 34(2): 213-230.
[19]Robertson, S. E. and K. S. Jones (1976). "Relevance weighting of search terms." Journal of the Association for Information Science and Technology 27(3): 129-146.
[20]Song, R., et al. (2011). "A proximity probabilistic model for information retrieval." Microsoft Research.
[21]Ludwig, C., Text Retrieval. 2007. 24: p. 1-21.
[22]曾元顯 (2002). "文件主題自動分類成效因素探討." 輔仁大學 圖書資訊學系 [中國圖書館學會會報]: 62-83.
[23]Zobel, J. and A. Moffat (2006). "Inverted files for text search engines." ACM computing surveys (CSUR) 38(2): 6.
[24]Black, P.E., Inverted index. Dictionary of Algorithms and Data Structures, 2008.
[25]Ziviani, N., et al. (2000). "Compression: A key for next-generation text retrieval systems." Computer 33(11): 37-44.
[26]Kosub, S. (2016). "A note on the triangle inequality for the Jaccard distance." arXiv preprint arXiv:1612.02696.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top