跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.168) 您好!臺灣時間:2024/12/13 10:47
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:馮雅民
研究生(外文):Ya Min Feng
論文名稱:運用文件探勘技術進行新聞報導評價分類-以網路財經新聞為例
論文名稱(外文):Classifying News Evaluation via Text Mining-A Case Study Based on Net Financial News
指導教授:董信煌董信煌引用關係
學位類別:碩士
校院名稱:樹德科技大學
系所名稱:資訊管理研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:45
中文關鍵詞:文字探勘支持向量機類神經網路新聞評價斷詞系統
外文關鍵詞:Data MiningSupport Vector MachineBackpropagation Neural Network
相關次數:
  • 被引用被引用:5
  • 點閱點閱:1669
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:5
隨著網際網路的普及,使用者可以很便捷地經由網路找到他想要的資訊,在資訊爆炸時代,使用者也收到更多不是他想要的資訊,因此如何有效率管理來自網路的資訊也越來越重要,近幾年來有越來越多資料探勘技術運用在網際網路資料篩選上。
本研究使用文件探勘技術於YAHOO的網路中文財經新聞評價分類。新聞文件將透過中研院的斷詞系統切割成詞彙與切成個別字元做為資料維度,擷取關鍵詞並以向量模式來表現。在資訊獲利率被用來選擇合理的詞彙個數之後,本研究使用支持向量機(SVM)與類神經網路(ANN)二種不同的分類技術於財經新聞的報導評價。一件財經新聞報導將被歸類成正面、負面或中性等三種類別。實驗結果顯示,支持向量機與類神經網路有皆有60%以上的分辨正確率,其中以個別字元做為所擷取之關鍵詞正確率最高有67%,在實驗中支持向量機分類的正確率與模型的訓練速度皆優於較類神經網路。
網路財經新聞千變萬化,一則正面或負面的評價往往會造成一家企業在股票市場中的大漲或大跌。一般投資者或許是因為經驗或時間的因素,無法從大量的財經新聞報導中迅速與正確的替新聞評價做分類。本研究所建立的評價分類系統可使閱讀者在處理網路財經新聞時,增加評價分類的效率與正確性。
With prevalence of Internet, people can easily and quickly retrieve the information what they want from Internet. In Information explosion, users receive more information what they don’t want from internet. It is important how to manager information from Internet. Nearly several yeas, there is more and more the techniques of data mining used on the internet.
This research uses the technique of text mining usage in the finance and economics news of the YAHOO network. The news document is cut into a set of individual word through the word segment of Academia Sinica. After that, calculate the IDF and information gain of each word and choose several keyword from the set of news document by information gain. Those words will become the variable of the mining’s technique importation. This research uses SVM and BNN two kinds of mining technique and compares two kinds of accuracy for categorizing. SVM have bast precision rate and faster than BNN.
In the experiment, this research induces into the news category that has positive meaning or negative meaning through to the classification of the document and expecting can increase the finance and economics news sorting and read efficiency.
第一章 緒論 1
第一節 研究動機 1
第二節 研究目的 2
第三節 研究流程 2
第四節 論文架構 3
第二章 文獻探討 5
第一節 資料探勘 5
第二節 文件探勘 7
第三節 中文斷詞 8
第四節 詞彙權重計算 9
第五節 資訊獲利率 10
第六節 類神經網路 11
第七節 支持向量機 13
第三章 實驗流程與方法 16
第一節 實驗設計 16
第二節 實驗流程 16
第三節 研究環境 17
第四節 資料來源與前處理 18
第五節 人工辨別資料 19
第六節 挑選關鍵詞 20
第七節 資料轉換 22
第八節 實驗進行方式與評估 22
第四章 實驗結果 24
第一節 樣本資料描述 24
第二節 演算法參數測試 24
第三節 各類別樣本數量實驗結果 27
第四節 詞彙與字元的實驗結果 31
第五節 分類錯誤分析 34
第六節 其他嘗試性實驗 38
第五章 結論與未來展望 40
第一節 結論 40
第二節 研究範圍與限制 41
第三節 後續研究方向 41
參考文獻 43
[1]王景南,民92,多類支向機之研究,元智大學資訊管理系碩士班,碩士論文
[2]吳毓傑,民91,叢聚式中文新聞分類,銘傳大學資訊管理研究所,碩士論文
[3]李維平,民94,應用關聯規則技術有效輔助以向量空間模型為基礎之文件群集法,中原大學資訊管理系,碩士論文
[4]林傑斌,張一岑,張太平, 2004, 資料倉儲與資料採擷, 台北縣: 博碩
[5]洪淑芬,民94,潛在語意索引在生醫文件分類之應用,樹德科技大學資訊管理系碩士班,碩士論文
[6]晏文珍,民94,利用資料探勘技術於文件分類之研究,南台科技大學資訊管理研究所,碩士論文
[7]陳克健、陳正佳、林隆基,1986 ,“中文語句的研究-斷詞與構詞”,技術報告,TR-86-006,中央研究院,南港
[8]陳景揆,民89,探勘中文新聞文件中的概念關聯與趨勢,雲林科技大學資訊管理系碩士班,碩士論文
[9]黃如玉,民90,應用文件探勘技術於中文產業新聞之知識發掘,中國文化大學資訊管理研究所,碩士論文
[10]葉怡成, 2003, 類神經網路模式應用與實作, 台北市: 儒林
[11]蔡厚灼,民92,客訴文件探勘系統,國立成功大學資料管理研究所,碩士論文
[12]蘇木春,張孝德, 2004, 機器學習:類神經網路、模糊系統以及基因演算法則, 台北市: 全華
[13]Andrew Trotman, "Choosing document structure weights", Information Processing and Management, 41, p.243-264, 2005.
[14]B. Walczak, "Neural networks with robust backpropagation learning algorithm", Analytica Chimica Acta, 322, p.21-29, 1996.
[15]Brachman, R. J., et al., "Mining Business Database", Communication of ACM, 39, no.11, p.42-48, 1996.
[16]C. Clifton, B. Thuraisingham, "Emerging standards for data mining", Computer Standards & Interfaces, 23, no.3, p.187-193, 2001.
[17]Chen, K.J. & S.H. Liu, "Word Identification for Mandarin Chinese Sentences", Proceedings of COLING, , p.101-107, 1992.
[18]Chen, K.J. & Wei-Yun Ma, "Unknown Word Extraction for Chinese Documents", Proceedings of COLING, , p.169-175, 2002.
[19]Chih-Wei Hsu,Chih-Chung Chang and Chih-Jen Lin,"A Practical Guide to Support Vector Classification",Technical Report,National Taiwan University
[20]D.E. Rumelhart et al, "The basic ideas in neural networks", Communications of the ACM, 37, no.3, p.87-92, 1994.
[21]Dörre, J., P. Gerstl and R. Seiffert, "Text Mining: Finding Nuggets in Mountains of Textual Data", Proceedings of the 5’s ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.398-401,1999
[22]Fan, C. K. and W. H. Tsai, "Automatic Word Identification in Chinese Sentences by the Relaxation Technique", Computer Proceeding of Chinese and Oriental Languages, pp.33-56, 1998
[23]Fayyad, U. and R. Uthurusamy, "Data mining and knowledge discovery in databases", Communications of the ACM, 39, no.11, p.24-26, 1996.
[24]H. Chen, "Knowledge Management Systems ─ A Text Mining Perspective",Ph.D. thesis, 2001.
[25]H. Drucker et al, "Support vector machines: relevance feedback and information retrieval", Information Processing and Management, 38, p.305-323, 2002.
[26]H. White, "Learning in neural networks: A statistical perspective", Neural Computing, 4, p.425-464, 1989.
[27]I. Kasstra, M. Boyd, "Designing a neural network for forecasting financial and economic time series", Neural Computing, 10, p.215-236, 1996.
[28]Indranil Bose, Radha K. Mahapatra, "Business data mining - a machine learning perspective", Communications and Management, 39, p.211-225, 2001.
[29]Jiawei Han and Micheline Kamber, Data mining:concepts and techniques , Morgan Kaufmann, San Francisco, 2001
[30]Kate A. Smith, Jatinder N.D Gupta, "Neural networks in business: techniques and applications for the operations researcher", Computers & Operations Research, 27, p.1023-1044, 2000.
[31]Mannila, H., 1996a, "Data Mining: machine learning, statistics, and databases", Proceedings of 8' sinternational conference on Scientific and Statistical Database Systems, pp.2-9.
[32]Nie, J., M. Briscbois and X. Ren, "On Chinese Text Retrieval", Conference Proceedings of SIGIR, , p.0-0, 1996.
[33]Quinlan, J. R., "Discovering Rules from Large Collections of Examples: A Case Study." In D. Michie, Editor, Expert Systems in the Micro-Electronic Age, Edinburgh University Press, Edinburgh, pp. 168-201, 1979.
[34]R. Agrawal, T. Imielinski and A. Swami. , "Mining Association Rules between Sets of Items in Very Large Database", Proceedings of the ACM SIGMOD Conference on Management of Data, pp. 207-216, 1993.
[35]Salton, G.& C. Buckley, "Term Weighting Approaches in Automatic Information Retrieval", Journal of Information Proceeding and Management, 24, no.3, p.513-524, 1988.
[36]Shutao Li et al., "Texture classification using the support vector machines", Pattern Recognition, 36, p.2883-2893, 2003.
[37]Singh, L., P. Scheuermann and B. Chen, 1997, "Generating Association Rules from Semi-Structured Documents Using an Extended Concept Hierarchy", ACM IKM, pp.193-200.
[38]Spark Jones, K., "A static interpretation of term specificity and its application in retrieval", Journal of Document, 28, no.1, p.11-20, 1972.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊