跳到主要內容

臺灣博碩士論文加值系統

(216.73.217.60) 您好!臺灣時間:2026/06/17 22:42
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:葉柏慶
研究生(外文):Po-Ching Yeh
論文名稱:以網拍目錄建構網頁分類器之研究
論文名稱(外文):Using Product List in Online Auction for Webpage Classification
指導教授:林志麟林志麟引用關係
指導教授(外文):Jun-Lin Lin
口試委員:王彥文謝瑞建
口試委員(外文):Yen-Wen WangJui-Chien Hsieh
口試日期:2016-07-15
學位類別:碩士
校院名稱:元智大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2016
畢業學年度:104
語文別:中文
論文頁數:25
中文關鍵詞:型號詞文件分類支援向量機正規表示法文件頻率兩階段分類方法
外文關鍵詞:model vocabularytext classificationsupport vector machineregular expressiondocument frequencytwo-phase method
相關次數:
  • 被引用被引用:0
  • 點閱點閱:637
  • 評分評分:
  • 下載下載:8
  • 收藏至我的研究室書目清單書目收藏:1
隨著現今網際網路的發展,使得商品在不斷地推陳出新時,相關的討論也跟著出現,但是也同樣伴隨著資訊過量的問題,使得我們難以有效的管理資訊。如何以自動化文件分類技術代替人工分類進行大量且繁複的工作,以快速且有效的方式來解析文件的內容並進行適當的分類,顯得格外重要。
本研究的目的為建立一個網頁文件自動分類系統。我們提出一個兩階段分類方法。首先將詞彙分成型號詞與一般詞彙兩種,我們會利用正規表示法擷取出型號詞的部份,然後根據型號詞本身所出現的類別來標記其所屬的類別,作為第一階段預測文件分類的準則。一般詞彙則使用文件頻率挑選重要的詞彙後,計算其TF-IDF的權重值來訓練SVM,作為第二階段預測文件分類的準則。當有一個新的網頁文章要被分類的時候,如果在文章中找到一個屬於某一類別的型號詞,就依照此型號詞所屬類別來判斷網頁的類別。如果沒找到任何型號詞的話,就利用一般詞彙所訓練的SVM分類器來判斷文章的分類。
實驗結果發現,本研究所提出的兩階段分類方法與單純使用SVM相比,文件分類的準確率確實有所改善。接下來我們仔細地針對所有能夠使用本研究的第一階段預測的文件,同時使用SVM與本研究的第一階段進行分類,雖然本研究的第一階段能夠預測的文件數較少,但兩者相較之下,本研究的第一階段分類的成效比SVM來得好。利用本研究所提出的方法,能夠改善網頁文件的分類。

In the Internet era, after a new product is released on the market, many discussions about the product soon appear on the Internet. Automatic classification of these discussions is a crucial step to effectively utilize the information.
The objective of this study is to develop an automatic classification system for webpages. Specifically, the system determines whether a webpage is about a particular product category, e.g., mobile phones. We propose a two-phase method, where all vocabulary is divided into two kinds: general vocabulary and model vocabulary. Each model vocabulary is related to a particular product model, such as “BM-123”. We use regular expressions to extract all of the model vocabulary from the webpages, and the remaining vocabulary is referred to as general vocabulary. In the first phase of the method, if a webpage contains any model vocabulary, then the webpage will be classified to the product class of the model vocabulary. If, however, the webpage does not contain any model vocabulary, then the second phase of the method is invoked. In the second phase, SVM is used to classify webpages, based on the TF-IDF values of each vocabulary in the webpages.
The experimental results show that this two-phase method outperformed the method that utilizes only SVM. Specifically, the document classification accuracy is improved. We further examine those webpages that can be classified by the first phase of the proposed method. The results show that those webpages can be classified with very high accuracy using our method.

書名頁 i
論文口試委員審定書 ii
授權書 iii
中文摘要 vi
英文摘要 vii
誌謝 viii
目錄 ix
表目錄 xi
圖目錄 xii
第一章 緒論 1
第一節 研究背景 1
第二節 研究目的 1
第三節 研究範圍及限制 2
第四節 論文大綱 3
第二章 文獻探討 4
第一節 文件分類的應用類型 4
第二節 文件資訊檢索 4
第三節 文件分類步驟 7
第三章 研究方法 11
第一節 研究架構 11
第二節 文字前處理 11
第三節 特徵選擇與字詞權重計算 14
第四節 分類預測 15
第四章 研究結果 17
第一節 實驗設計 17
第二節 實驗結果分析 18
第五章 結論與未來展望 22
第一節 結論 22
第二節 未來展望 22
參考文獻 24

Baeza-Yates, R., & Ribeiro-Neto, B. (1999). Modern information retrieval (Vol. 463): ACM press New York.
Baharudin, B., Lee, L. H., & Khan, K. (2010). A review of machine learning algorithms for text-documents classification. Journal of advances in information technology, 1(1), 4-20.
Esuli, A., & Sebastiani, F. (2005). Determining the semantic orientation of terms through gloss classification. Paper presented at the Proceedings of the 14th ACM international conference on Information and knowledge management.
Lawson, M. V. (2003). Finite automata: CRC Press.
Lin, F. (2014). 如何使用 JIEBA 結巴中文分詞程式. from http://blog.fukuball.com/ru-he-shi-yong-jieba-jie-ba-zhong-wen-fen-ci-cheng-shi/
Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513-523.
Salton, G., Wong, A., & Yang, C.-S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613-620.
Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1-47.
Stamatatos, E. (2009). A survey of modern authorship attribution methods. Journal of the American Society for information Science and Technology, 60(3), 538-556.
vBulletin.com. (2008). vBulletin Community Forum - FAQ: What is a bulletin board? , from http://www.vbulletin.com/forum/help?faq=vb3_board_usage#faq_vb3_forums_threads_posts
Vladimir, V. N., & Vapnik, V. (1995). The nature of statistical learning theory: Springer Heidelberg.
吳泳慶. (2007). 中文垃圾郵件客製化過濾系統之研究. 淡江大學統計學系碩士班學位論文, 1-62.
周冠銘. (2013). 利用自動化關鍵字選取與文件分群技術優化醫學文章之資訊擷取.
林晏僖. (2010). 中文名詞組的辨識: 規則式判別, 監督式, 半監督式與非監督式學習法的實驗.
曹承礎. (2000). 企業網路資訊系統之工作流程管理及中文全文及區塊檢索之研究 (3/3).
梁清福. (2009). 利用多重分類器之文件自動分類.
陳俊翰. (2009). 人工智慧方法應用於臺灣股票指數期貨隔日漲跌預測之研究.
陳信源, 葉鎮源, 林昕潔, 黃明居, 柯皓仁, 楊維邦, et al. (2009). 結合支援向量機與詮釋資料之圖書自動分類方法. 資訊科技國際期刊, 3 (1), 2-21.
彭桂香. (2014). 從臉書中文使用者之動態貼文預測其人格特質.
葉采羚. (2006). 垃圾郵件過濾: 資料採礦與中文斷詞技術之應用.
葉書宇. (2011). 年, 多類別分類之特徵選擇-以專利文件分類為案例, 國立雲林科技大學工業管理碩士班, 碩士論文.
劉力華. (2010). 應用資料探勘於手機評論文章分類之研究. 電子化企業經營管理理論暨實務研討會, 294-303.
劉瑋竣. (2014). 使用 WordNet 語意之拍賣商品標題自動分類.
薛弘業. (2012). 應用文字探勘文件分類分群技術於股價走勢預測之研究─ 以台灣股票市場為例.
簡之文. (2012). 部落格文章情感分析之研究. 淡江大學資訊管理學系碩士班學位論文, 1-52.


連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top