臺灣博碩士論文加值系統

English |FB 專頁 |Mobile

免費會員登入| 註冊

功能切換導覽列

(216.73.217.60) 您好！臺灣時間：2026/06/17 22:42

字體大小：

:::

詳目顯示

第 1 筆 / 共 1 筆

/1頁

論文基本資料
摘要
外文摘要
目次
參考文獻
電子全文
紙本論文
論文連結
QR Code

本論文永久網址:

研究生:

葉柏慶

研究生(外文):

Po-Ching Yeh

論文名稱:

以網拍目錄建構網頁分類器之研究

論文名稱(外文):

Using Product List in Online Auction for Webpage Classification

指導教授:

林志麟

指導教授(外文):

Jun-Lin Lin

口試委員:

王彥文、謝瑞建

口試委員(外文):

Yen-Wen Wang、Jui-Chien Hsieh

口試日期:

2016-07-15

學位類別:

碩士

校院名稱:

元智大學

系所名稱:

資訊管理學系

學門:

電算機學門

學類:

電算機一般學類

論文種類:

學術論文

論文出版年:

2016

畢業學年度:

104

語文別:

中文

論文頁數:

中文關鍵詞:

型號詞、文件分類、支援向量機、正規表示法、文件頻率、兩階段分類方法

外文關鍵詞:

model vocabulary、text classification、support vector machine、regular expression、document frequency、two-phase method

相關次數:

被引用:0
點閱:637
評分:
下載:8
書目收藏:1

隨著現今網際網路的發展，使得商品在不斷地推陳出新時，相關的討論也跟著出現，但是也同樣伴隨著資訊過量的問題，使得我們難以有效的管理資訊。如何以自動化文件分類技術代替人工分類進行大量且繁複的工作，以快速且有效的方式來解析文件的內容並進行適當的分類，顯得格外重要。
本研究的目的為建立一個網頁文件自動分類系統。我們提出一個兩階段分類方法。首先將詞彙分成型號詞與一般詞彙兩種，我們會利用正規表示法擷取出型號詞的部份，然後根據型號詞本身所出現的類別來標記其所屬的類別，作為第一階段預測文件分類的準則。一般詞彙則使用文件頻率挑選重要的詞彙後，計算其TF-IDF的權重值來訓練SVM，作為第二階段預測文件分類的準則。當有一個新的網頁文章要被分類的時候，如果在文章中找到一個屬於某一類別的型號詞，就依照此型號詞所屬類別來判斷網頁的類別。如果沒找到任何型號詞的話，就利用一般詞彙所訓練的SVM分類器來判斷文章的分類。
實驗結果發現，本研究所提出的兩階段分類方法與單純使用SVM相比，文件分類的準確率確實有所改善。接下來我們仔細地針對所有能夠使用本研究的第一階段預測的文件，同時使用SVM與本研究的第一階段進行分類，雖然本研究的第一階段能夠預測的文件數較少，但兩者相較之下，本研究的第一階段分類的成效比SVM來得好。利用本研究所提出的方法，能夠改善網頁文件的分類。

In the Internet era, after a new product is released on the market, many discussions about the product soon appear on the Internet. Automatic classification of these discussions is a crucial step to effectively utilize the information.
The objective of this study is to develop an automatic classification system for webpages. Specifically, the system determines whether a webpage is about a particular product category, e.g., mobile phones. We propose a two-phase method, where all vocabulary is divided into two kinds: general vocabulary and model vocabulary. Each model vocabulary is related to a particular product model, such as “BM-123”. We use regular expressions to extract all of the model vocabulary from the webpages, and the remaining vocabulary is referred to as general vocabulary. In the first phase of the method, if a webpage contains any model vocabulary, then the webpage will be classified to the product class of the model vocabulary. If, however, the webpage does not contain any model vocabulary, then the second phase of the method is invoked. In the second phase, SVM is used to classify webpages, based on the TF-IDF values of each vocabulary in the webpages.
The experimental results show that this two-phase method outperformed the method that utilizes only SVM. Specifically, the document classification accuracy is improved. We further examine those webpages that can be classified by the first phase of the proposed method. The results show that those webpages can be classified with very high accuracy using our method.

書名頁 i
論文口試委員審定書 ii
授權書 iii
中文摘要 vi
英文摘要 vii
誌謝 viii
目錄 ix
表目錄 xi
圖目錄 xii
第一章緒論 1
第一節研究背景 1
第二節研究目的 1
第三節研究範圍及限制 2
第四節論文大綱 3
第二章文獻探討 4
第一節文件分類的應用類型 4
第二節文件資訊檢索 4
第三節文件分類步驟 7
第三章研究方法 11
第一節研究架構 11
第二節文字前處理 11
第三節特徵選擇與字詞權重計算 14
第四節分類預測 15
第四章研究結果 17
第一節實驗設計 17
第二節實驗結果分析 18
第五章結論與未來展望 22
第一節結論 22
第二節未來展望 22
參考文獻 24

Baeza-Yates, R., & Ribeiro-Neto, B. (1999). Modern information retrieval (Vol. 463): ACM press New York.
Baharudin, B., Lee, L. H., & Khan, K. (2010). A review of machine learning algorithms for text-documents classification. Journal of advances in information technology, 1(1), 4-20.
Esuli, A., & Sebastiani, F. (2005). Determining the semantic orientation of terms through gloss classification. Paper presented at the Proceedings of the 14th ACM international conference on Information and knowledge management.
Lawson, M. V. (2003). Finite automata: CRC Press.
Lin, F. (2014). 如何使用 JIEBA 結巴中文分詞程式. from http://blog.fukuball.com/ru-he-shi-yong-jieba-jie-ba-zhong-wen-fen-ci-cheng-shi/
Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513-523.
Salton, G., Wong, A., & Yang, C.-S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613-620.
Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1-47.
Stamatatos, E. (2009). A survey of modern authorship attribution methods. Journal of the American Society for information Science and Technology, 60(3), 538-556.
vBulletin.com. (2008). vBulletin Community Forum - FAQ: What is a bulletin board? , from http://www.vbulletin.com/forum/help?faq=vb3_board_usage#faq_vb3_forums_threads_posts
Vladimir, V. N., & Vapnik, V. (1995). The nature of statistical learning theory: Springer Heidelberg.
吳泳慶. (2007). 中文垃圾郵件客製化過濾系統之研究. 淡江大學統計學系碩士班學位論文, 1-62.
周冠銘. (2013). 利用自動化關鍵字選取與文件分群技術優化醫學文章之資訊擷取.
林晏僖. (2010). 中文名詞組的辨識: 規則式判別, 監督式, 半監督式與非監督式學習法的實驗.
曹承礎. (2000). 企業網路資訊系統之工作流程管理及中文全文及區塊檢索之研究 (3/3).
梁清福. (2009). 利用多重分類器之文件自動分類.
陳俊翰. (2009). 人工智慧方法應用於臺灣股票指數期貨隔日漲跌預測之研究.
陳信源, 葉鎮源, 林昕潔, 黃明居, 柯皓仁, 楊維邦, et al. (2009). 結合支援向量機與詮釋資料之圖書自動分類方法. 資訊科技國際期刊, 3 (1), 2-21.
彭桂香. (2014). 從臉書中文使用者之動態貼文預測其人格特質.
葉采羚. (2006). 垃圾郵件過濾: 資料採礦與中文斷詞技術之應用.
葉書宇. (2011). 年, 多類別分類之特徵選擇-以專利文件分類為案例, 國立雲林科技大學工業管理碩士班, 碩士論文.
劉力華. (2010). 應用資料探勘於手機評論文章分類之研究. 電子化企業經營管理理論暨實務研討會, 294-303.
劉瑋竣. (2014). 使用 WordNet 語意之拍賣商品標題自動分類.
薛弘業. (2012). 應用文字探勘文件分類分群技術於股價走勢預測之研究─ 以台灣股票市場為例.
簡之文. (2012). 部落格文章情感分析之研究. 淡江大學資訊管理學系碩士班學位論文, 1-52.

電子全文

國圖紙本論文

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供，不一定有電子全文可供下載，若連結有誤，請點選上方之〝勘誤回報〞功能，我們會盡快修正，謝謝！

推文
網路書籤
推薦
評分
引用網址
轉寄

top

相關論文
相關期刊
熱門點閱論文

1.	運用支援向量機與文字探勘於股價漲跌趨勢之預測
2.	基於影像與文字特徵之網頁內容分類方法之研究
3.	文件分類於電子化政府之應用：以政府機關市長信箱民眾陳情案件為例
4.	使用啟始分群分類法進行垃圾郵件過濾的研究
5.	文件內容來源對文件分類之績效評估
6.	網際網路新聞文章心情偵測之研究
7.	應用支援向量機與特徵詞彙於印刷電路板中文研發文件分類與檢索
8.	基於新聞字詞漲跌極性之股價趨勢分類預測
9.	對使用者評論之情感分析研究－以Google Play市集為例
10.	利用ConceptNet於文章分類研究
11.	運用SVM分類技術提昇民意信箱服務品質之研究
12.	利用自動學習與錯誤過濾方法的多類別支援向量機分類系統
13.	網頁目錄之高時效文件分類方法研究
14.	使用支持向量機和錯誤更正輸出碼做文件分類
15.	使用潛在狄氏配置改善支援向量機的文章分類表現

1.	陳信源, 葉鎮源, 林昕潔, 黃明居, 柯皓仁, 楊維邦, et al. (2009). 結合支援向量機與詮釋資料之圖書自動分類方法. 資訊科技國際期刊, 3 (1), 2-21.

1.	開放源碼軟體之長壽程式漏洞預測
2.	運用系統模擬與基因演算法於解決相同機台之人力分配排程問題
3.	軟體發展人員之協作網路對開放源碼軟體品質之影響
4.	利用文字探勘技術辨別網路謠言之真偽
5.	關鍵字廣告位置與搜尋排名對廣告成效之關聯度分析
6.	利用文字探勘探討女性內衣品牌的網路口碑分析
7.	資訊融合與視覺化於大學志願選填輔助之應用
8.	以網拍市場交易量預測股價之研究-以露天拍賣為例
9.	網拍商家服務品質、知覺價格、顧客滿意度與再購意願
10.	電信產業網路輿情語意分析:以文章為基礎的N-phrase rules
11.	使用機器學習技術與低功耗藍芽的室內定位
12.	高齡者參與行動載具課程之非預期效果
13.	色度檢查機變異之改善研究－以量測系統分析方法探討
14.	復健物理治療流程與醫療資源配置之模擬分析-以A地區醫院復健中心為例
15.	社群媒體對於消費者購買行為演化過程之影響及其系統動態模擬研究

簡易查詢 | 進階查詢 | 熱門排行 | 我的研究室