(3.233.219.101) 您好!臺灣時間:2020/01/24 06:55
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
本論文永久網址: 
line
研究生:王玉峯
研究生(外文):Yu-fang Wang
論文名稱:推薦期刊文章至適合學科類別之研究
論文名稱(外文):Recommending Subject Categories for Journal articles
指導教授:許秉瑜許秉瑜引用關係
指導教授(外文):Ping-yu Hsu
學位類別:碩士
校院名稱:國立中央大學
系所名稱:企業管理學系在職專班
學門:商業及管理學門
學類:企業管理學類
論文出版年:2014
畢業學年度:102
語文別:中文
論文頁數:37
中文關鍵詞:天真貝氏法巨量資料文字探勘
外文關鍵詞:Naïve BayesBig Datatext mining
相關次數:
  • 被引用被引用:0
  • 點閱點閱:98
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
年輕學者在投稿時期刊文章,時常會有誤判學科類別(Subject Categories)的問題出現。本研究嘗試以英文期刊文章標題(Journal Title)來進行分析,探討期刊文章適合投稿的學科類別之間的吻合關係。在過去研究中不曾僅使用文章標題之斷詞後文字(Text)做為類別分類的基礎,此外當面臨相當龐大的資料量和類別廣度時,為瞭解探究其分類結果,所用方法包含:每篇文章標題之斷詞後各個文字出現的文字、次數和學科類別集合,以及天真貝氏分類法(Naïve Bayes)。所獲得預測命中與否的結果準確度分別有兩種:一種為概括文章命中率(Rough Hitting Ratio, RHR)67.24%,另一種為精實學科類別命中率(Precise Hitting Ratio, PHR)38.34%。
With the proliferation of academic journals, a common issue faced by young scholars or researchers who wish to tread into the field of cross disciplines is to locate suitable categories and journals to submit their works. To lessen the severity of the issue, this research proposed a Naïve Bayes Classification method to recommend subject categories for a manuscript by analyzing the title words.
The challenging of this study came from the huge amount of data. By limiting the subject categories to the areas where NCU faculty members have published in the past three years, we got 64 categories and 199 journals. The number of articles in these journals are 224,870 The data that are used to build the classification model consists of 171,625 records and the testing data have 53,245 records. With intensive coding, the study is able to come out with a system to handle the job with reasonable performance. The Hit ratios are 67.24% and 38.34% for Rough Hitting Ratio (RHR) and Precise Hitting Ratio (PHR), respectively.

中文摘要 I
ABSTRACT II
誌謝 III
目錄 IV
圖目錄 VI
表目錄 VII
一、 緒 論 1
1-1 研究動機 1
1-2 研究目的 1
1-3 論文架構 2
二、 文獻探討 3
2-1 文字探勘(TEXT MINING) 3
2-1-1 英文-資料前置處理 3
1. 英文斷詞(Parsing) 4
2. 移除停用字(Elimination of StopWords) 4
3. 還原字根(Stemming) 5
4. 計算權重(Term Frequency–Inverse Document Frequency, TF-IDF) 5
2-2 多元類別問題(MULTICLASS PROBLEM) 6
三、 研究方法 8
3-1 資料結構 12
3-2 準確度判斷式 16
四、 實驗分析 19
4-1 資料蒐集 19
4-2 實驗結果 20
五、 結論與未來研究議題 21
5-1 結論 21
5-2 未來研究議題 21
參 考 文 獻 23
附 錄 24
附錄一、建立核心計算程序 24
附錄二、計算被預測命中之程序 29
一、 中文部份
[1]尹相志,SQL Server 2008 Data Mining資料採礦,初版,悅知文化,2009
[2]Tan, P.N., Steinbach, M., Kumar, V.著,Introduction to Data Mining,施雅月,賴錦慧譯,台灣培生教育出版社股皆有限公司,2008.01
[3]林傑斌、張一岑、張太平,資料倉儲與資料採擷,博碩文化股份有限公司,2004.05
[4]耿素雲、張立昂,機率統計,二版,儒林圖書有限公司,1996.01
二、 英文部份
[5] Tan, P.N., Steinbach, M., Kumar, V. Introduction to Data Mining,Addison Wesley,2005
三、 期刊報章論文
[6]何承威,王惠嘉,”考量樣板品質與自動擴張技術之醫學資訊擷取”, 中華民國資訊管理學會研討會論文集,2011
[7]魏忠志,”SCI/SSCI文章比對方法之研究”,2005
四、 網路資料
[8]維基百科:2014.06.12取自 http://zh.wikipedia.org/wiki/数据挖掘
[9]維基百科:2014.06.12取自http://zh.wikipedia.org/wiki/文字探勘
[10]2014.05.29取自:sparc.nfu.edu.tw/~tchen/DataMining2/ch5.ppt
[11]維基百科:2014.06.05取自http://morris.lis.ntu.edu.tw/wikimedia/index.php/Stop_words
[12]維基百科:2014.06.12 取自http://zh.wikipedia.org/wiki/TF-IDF
[13]Ryan Rifn, Multicalss Classification:2014.05.28取自http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
[14]2014.06.12取自http://coolshell.cn/articles/8422.html

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔