跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.240) 您好!臺灣時間:2026/06/13 23:45
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:胡勝傑
研究生(外文):Janson Hu
論文名稱:中文新聞文件分析與探勘
論文名稱(外文):Chinese News Articles Analysis and Mining
指導教授:許中川許中川引用關係
指導教授(外文):Chung-Chian Hsu
學位類別:碩士
校院名稱:國立雲林科技大學
系所名稱:資訊管理研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:1999
畢業學年度:87
語文別:中文
論文頁數:67
中文關鍵詞:文件資料探勘資料探勘資訊檢索中文文件處理
外文關鍵詞:Text Data MiningData MiningInformation RetrievalChinese Document Processing
相關次數:
  • 被引用被引用:13
  • 點閱點閱:544
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:2
文件資料呈幾何級數的增加,大量文件中極可能隱藏著許多有用的寶貴知識。然而,傳統資訊檢索方式無法有效地幫助使用者分析了解大量的文件資料,且一般的資料庫探勘方法,只適用於結構化的關聯表格資料,而無法運用到非結構化的中文文件資料上。現有的文件探勘方式並未兼顧新聞特性,以致無法得到新聞中重要的訊息。因此本研究特別針對新聞特性──變動性、突出性及時間性建置一新聞文件探勘架構。本架構以自動化方式進行前置處理,於資料探勘中利用前置處理的輸出,配合分析人員的背景知識,完成新生詞彙關聯分析及結構化資訊關聯分析,幫助分析人員挖掘潛藏在大量中文新聞文件中的知識。
The amount of text data grows rapidly in the information age. It is very likely that some useful knowledge hidden in the huge text data. However, conventional information retrieval techniques could not help user effectively analyze and understand huge text data. Meanwhile, most of current data mining techniques work for structural relational tables, not applicable for unstructured text data. However, existing text mining methods do not take the characteristics of news articles into account, resulting in can’t mine the knowledge among news articles effectively. In this study, we propose a Chinese news mining architecture, according to characteristics of news, the volatile, outstanding, and timely. In the proposed architecture news articles are pre-processed, then mined with background knowledge come from analysts. In this study, mining is focused on association rules regarding new lexicons and structured information.
中文摘要……………….…………………………………………………………..i
英文摘要………………………………………………………………………..…ii
誌謝…………………………………………………………………….…………iii
目錄…………………………………………………………………………………iv
表目錄……………………………………………………………………….…...vi
圖目錄………………………………………… ………………………..………vii
一、緒論 1
1.1研究動機 1
1.2研究目的 3
二、文獻探討 5
2.1資料探勘 5
2.2前置處理 7
2.2.1中文文件斷詞 7
2.2.2關鍵資訊擷取 10
2.3文件資料探勘 11
三、中文新聞文件探勘架構 19
3.1探勘架構 19
3.2新聞文件 21
3.3前置處理 22
3.3.1中文文件斷詞 23
3.3.1.1詞庫式斷詞 24
3.3.1.2統計式斷詞 26
3.3.2關鍵資訊擷取 28
3.3.2.1結構化資訊擷取 30
3.3.2.2非結構化資訊擷取 30
3.4背景知識 34
3.5關聯法則模式 36
3.6資料探勘 38
3.6.1新生詞彙關聯分析 40
3.6.2結構化資訊關聯分析 41
四、雛形系統與結果分析 43
4.1實驗環境 43
4.2新聞文件 43
4.3文件前置處理 44
4.3.1中文文件斷詞 44
4.3.2關鍵資訊擷取 49
4.4背景知識 51
4.5資料探勘 52
4.5.1新生詞彙關聯分析 52
4.5.2結構化資訊關聯分析 54
五、結論與未來研究方向 57
參考文獻 59
附錄 63
簡歷 67
1. Negroponet N.,1995,數位革命,齊若蘭譯,天下文化出版,台北
2. 中文詞知識庫小組,1993,新聞語料詞頻統計表─語料庫為本研究系列之
二,技術報告93-02,中央研究院,南港
3. 中文詞知識庫小組,1995,中央研究院平衡語料庫的內容與說明,技術報
告95-02,中央研究院,南港
4. 許中川,洪鋕鋒,1997,“資料庫知識發掘前置處理與欄位拆解”,第三
屆國際資訊管理研究暨實務研討會,嘉義,頁362-369
5. 陳光華,1997,“電子文獻主題之自動辨識”,中國圖書館學會會報,第
59期,頁43-58
6. 陳光華,1996,“資訊檢索查詢之自然語言處理”,中國圖書館學會會
報,第57期,頁141-153
7. 陳克建,陳正佳、林隆基,1986,中文語句的研究-斷詞與構詞,技術報
告86-006,中央研究院,南港
8. 曾元顯,1997,關鍵字自動擷取技術與相關詞回饋,中國圖書館學會會
報,頁59-64
9. 程之行,1981,新聞寫作,臺灣商務印書館,台北
10. 漆敬堯,1980,新聞學,臺灣商務印書館,台北
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top