臺灣博碩士論文加值系統

English |FB 專頁 |Mobile

免費會員登入| 註冊

功能切換導覽列

(216.73.216.240) 您好！臺灣時間：2026/06/13 23:45

字體大小：

:::

詳目顯示

第 1 筆 / 共 1 筆

/1頁

論文基本資料
摘要
外文摘要
目次
參考文獻
紙本論文
QR Code

本論文永久網址:

研究生:

胡勝傑

研究生(外文):

Janson Hu

論文名稱:

中文新聞文件分析與探勘

論文名稱(外文):

Chinese News Articles Analysis and Mining

指導教授:

許中川

指導教授(外文):

Chung-Chian Hsu

學位類別:

碩士

校院名稱:

國立雲林科技大學

系所名稱:

資訊管理研究所

學門:

電算機學門

學類:

電算機一般學類

論文種類:

學術論文

論文出版年:

1999

畢業學年度:

語文別:

中文

論文頁數:

中文關鍵詞:

文件資料探勘、資料探勘、資訊檢索、中文文件處理

外文關鍵詞:

Text Data Mining、Data Mining、Information Retrieval、Chinese Document Processing

相關次數:

被引用:13
點閱:544
評分:
下載:0
書目收藏:2

文件資料呈幾何級數的增加，大量文件中極可能隱藏著許多有用的寶貴知識。然而，傳統資訊檢索方式無法有效地幫助使用者分析了解大量的文件資料，且一般的資料庫探勘方法，只適用於結構化的關聯表格資料，而無法運用到非結構化的中文文件資料上。現有的文件探勘方式並未兼顧新聞特性，以致無法得到新聞中重要的訊息。因此本研究特別針對新聞特性──變動性、突出性及時間性建置一新聞文件探勘架構。本架構以自動化方式進行前置處理，於資料探勘中利用前置處理的輸出，配合分析人員的背景知識，完成新生詞彙關聯分析及結構化資訊關聯分析，幫助分析人員挖掘潛藏在大量中文新聞文件中的知識。

The amount of text data grows rapidly in the information age. It is very likely that some useful knowledge hidden in the huge text data. However, conventional information retrieval techniques could not help user effectively analyze and understand huge text data. Meanwhile, most of current data mining techniques work for structural relational tables, not applicable for unstructured text data. However, existing text mining methods do not take the characteristics of news articles into account, resulting in can’t mine the knowledge among news articles effectively. In this study, we propose a Chinese news mining architecture, according to characteristics of news, the volatile, outstanding, and timely. In the proposed architecture news articles are pre-processed, then mined with background knowledge come from analysts. In this study, mining is focused on association rules regarding new lexicons and structured information.

中文摘要……………….…………………………………………………………..i
英文摘要………………………………………………………………………..…ii
誌謝…………………………………………………………………….…………iii
目錄…………………………………………………………………………………iv
表目錄……………………………………………………………………….…...vi
圖目錄………………………………………… ………………………..………vii
一、緒論 1
1.1研究動機 1
1.2研究目的 3
二、文獻探討 5
2.1資料探勘 5
2.2前置處理 7
2.2.1中文文件斷詞 7
2.2.2關鍵資訊擷取 10
2.3文件資料探勘 11
三、中文新聞文件探勘架構 19
3.1探勘架構 19
3.2新聞文件 21
3.3前置處理 22
3.3.1中文文件斷詞 23
3.3.1.1詞庫式斷詞 24
3.3.1.2統計式斷詞 26
3.3.2關鍵資訊擷取 28
3.3.2.1結構化資訊擷取 30
3.3.2.2非結構化資訊擷取 30
3.4背景知識 34
3.5關聯法則模式 36
3.6資料探勘 38
3.6.1新生詞彙關聯分析 40
3.6.2結構化資訊關聯分析 41
四、雛形系統與結果分析 43
4.1實驗環境 43
4.2新聞文件 43
4.3文件前置處理 44
4.3.1中文文件斷詞 44
4.3.2關鍵資訊擷取 49
4.4背景知識 51
4.5資料探勘 52
4.5.1新生詞彙關聯分析 52
4.5.2結構化資訊關聯分析 54
五、結論與未來研究方向 57
參考文獻 59
附錄 63
簡歷 67

1. Negroponet N.，1995，數位革命，齊若蘭譯，天下文化出版，台北
2. 中文詞知識庫小組，1993，新聞語料詞頻統計表─語料庫為本研究系列之
二，技術報告93-02，中央研究院，南港
3. 中文詞知識庫小組，1995，中央研究院平衡語料庫的內容與說明，技術報
告95-02，中央研究院，南港
4. 許中川，洪鋕鋒，1997，“資料庫知識發掘前置處理與欄位拆解”，第三
屆國際資訊管理研究暨實務研討會，嘉義，頁362-369
5. 陳光華，1997，“電子文獻主題之自動辨識”，中國圖書館學會會報，第
59期，頁43-58
6. 陳光華，1996，“資訊檢索查詢之自然語言處理”，中國圖書館學會會
報，第57期，頁141-153
7. 陳克建，陳正佳、林隆基，1986，中文語句的研究－斷詞與構詞，技術報
告86-006，中央研究院，南港
8. 曾元顯，1997，關鍵字自動擷取技術與相關詞回饋，中國圖書館學會會
報，頁59-64
9. 程之行，1981，新聞寫作，臺灣商務印書館，台北
10. 漆敬堯，1980，新聞學，臺灣商務印書館，台北

國圖紙本論文

推文
網路書籤
推薦
評分
引用網址
轉寄

top

相關論文
相關期刊
熱門點閱論文

1.	資料挖掘在教育上的應用－以國小學童「體適能測驗」為例
2.	以資料探勘探討顧客消費之行為
3.	財經新聞語料探勘及其於企業財務危機預警模型構建上之應用
4.	圖書館新聞研究-以聯合知識庫為例
5.	利用文字探勘技術進行犯罪資料之發掘—以網路販售違禁品及網路賭博為例
6.	財經新聞語料探勘技術在企業財務危機預警模型構建上之應用
7.	以RDF規範為基礎之專利授權知識結構解析與表達技術
8.	規劃建構台灣知識櫥窗資料探勘參考模式之先期研究
9.	財經新聞語料中所隱含之樂悲觀情緒在企業財務危機預警模型構建上的應用
10.	運用公開資訊觀測站語料探勘以提昇企業財務危機預警模型之績效
11.	應用數值編碼技術於中文文件分類之研究
12.	應用群集技術支援國小學童網路同儕互評之研究
13.	網路覽讀的使用者介面設計
14.	利用資料探勘技術發掘議題網絡
15.	SupportVectorMachine技術應用於中文文件自動分類之探討

1.	5. 陳光華，1997，“電子文獻主題之自動辨識”，中國圖書館學會會報，第

1.	探勘中文新聞文件中的概念關聯及趨勢
2.	中文社會新聞文件資訊擷取
3.	以資料探勘探討顧客消費之行為
4.	利用文字探勘技術進行犯罪資料之發掘—以網路販售違禁品及網路賭博為例
5.	策略性成本管理與經營績效之研究－以大型製造業為例
6.	網際網路上輔助消費者購物之研究
7.	企業資訊系統發展─下載式架構與再使用導向方法之研究
8.	以屬性階層為基礎的視覺化資料分析
9.	會員消費資料分析與探勘
10.	網路中文超文件自動摘要之研究與實作
11.	從資源基礎理論的觀點探討資訊科技與持續性競爭優勢的關係
12.	運用智慧型系統在認購權證評價模式、避險及投資策略之研究
13.	企業架構規劃方法─以製造資訊中心為例
14.	從溝通媒介看組織溝通與工作滿足
15.	電腦與物理實驗教具之整合：實驗數據的擷取、視覺化、分析與數學模型的建立

簡易查詢 | 進階查詢 | 熱門排行 | 我的研究室