跳到主要內容

臺灣博碩士論文加值系統

(3.81.172.77) 您好!臺灣時間:2022/01/21 19:14
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:葉鎮源
研究生(外文):Jen-Yuan Yeh
論文名稱:文件自動化摘要方法之研究及其在中文文件的應用
論文名稱(外文):A Study on Automated Text Summarization and Its Application on Chinese Documents
指導教授:柯皓仁柯皓仁引用關係楊維邦楊維邦引用關係
指導教授(外文):Hao-Ren KeWei-Pang Yang
學位類別:碩士
校院名稱:國立交通大學
系所名稱:資訊科學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:69
中文關鍵詞:中文文件摘要以文件集為基礎的摘要技術潛在語意分析主題關係地圖
外文關鍵詞:Chinese Text SummarizationCorpus-based ApproachLatent Semantic AnalysisText Relationship Map
相關次數:
  • 被引用被引用:41
  • 點閱點閱:1554
  • 評分評分:
  • 下載下載:227
  • 收藏至我的研究室書目清單書目收藏:3
本論文提出了兩種新的文件摘要方法來摘錄原始文件中的重要語句。第一個方法屬於以文件集為基礎的摘要技術(Corpus-based Approach),此方法基於統計模型,利用特徵的分析來計算語句重要性。我們提出三個新的想法:1) 利用語句位置重要性的分級以提高不同語句位置的重要性;2)利用詞彙相關程度(Word Co-occurrence)計算找出文件中的新詞,並將新詞加入關鍵詞重要性的計算,以得到更精確的關鍵詞權重特徵值;3) 利用基因演算法訓練計算語句權重的Score Function,以期了解訓練文件集的特性。第二個方法,我們結合潛在語意分析(Latent Semantic Analysis)與主題相關地圖(Text Relationship Map)的概念,用來擷取文件中的概念結構(Conceptual Structure)以期得到語意層面的分析。實驗中,我們收集100篇新台灣週刊中關於政治類的文章,並將上述的兩種方法應用於中文文件的摘要實驗上。效益評估結果顯示,我們所提的方法都有不錯的表現,在壓縮比為30%的情況下,平均來說,召回率分別為52.0%及45.6%。
In this thesis, two novel approaches are proposed to extract important sentences from a document to create its summary. The first is a corpus-based approach using feature analysis. It brings up three new ideas: 1) to employ ranked position to emphasize the significance of sentence position, 2) to reshape word unit to achieve higher accuracy of keyword importance, and 3) to train a score function by the genetic algorithm for obtaining a suitable combination of feature weights. The second approach combines the ideas of latent semantic analysis and text relationship maps to interpret conceptual structures of a document. Both approaches are applied to Chinese text summarization. The two approaches were evaluated by using a data corpus composed of 100 articles about politics from New Taiwan Weekly, and when the compression ratio was 30%, average recalls of 52.0% and 45.6% were achieved respectively.
英文摘要 I
中文摘要 II
致謝 III
目錄 IV
圖目錄 VI
表目錄 VII
方程式目錄 VIII
第一章 簡介 1
第一節 自動化資訊摘要 1
第二節 研究動機 4
第三節 研究目的 5
第四節 論文架構 5
第二章 相關研究工作 7
第一節 文件摘要相關研究 7
第二節 以文件集為基礎的摘要技術 12
第三節 以主題關係地圖(Text Relationship Map)為基礎的摘要技術 18
第四節 以語段模型(Discourse Model)為基礎的摘要技術 23
第三章 改良型語句權重摘要 26
第一節 基本特徵值分析 26
第二節 語句權重的計算與摘要生成 30
第四章 以潛在語意分析為基礎的語句摘要 34
第一節 潛在語意分析(Latent Semantic Analysis) 34
第二節 系統架構 39
第三節 語句分群與摘要生成 41
第五章 實驗結果分析與評估 46
第一節 實驗資料說明 46
第二節 評估方法 46
第三節 改良型語句權重摘要之效益評估 47
第四節 潛在語意分析語句摘要之可行性評估 53
第六章 結論與未來研究方向 59
第一節 結論與討論 59
第二節 未來研究方向 60
附錄一:實作系統展示 62
附錄二:範例文件 63
參考文獻 67
1.[Aone99] C. Aone, M. E. Okurowski, J. Gorlinsky, and B. Larsen (1999), “A Trainable Summarizer with Knowledge Acquired from Robust NLP Techniques,” In I. Mani and M. Maybury (eds), Advances in Automated Text Summarization, MIT Press, pp. 71-80, 1999.
2.[Azzam99] S. Azzam, K. Humphreys, and R. Gaizauskas (1999), “Using Coreference Chains for Text Summarization,” In Processings of the ACL''99 Workshop on Coreference and its Applications, Baltimore, June, 1999.
3.[Barzilay97] R. Barzilay, and M. Elhadad (1997), “Using Lexical Chains for Text Summarization,” In Processings of the Workshop on Intelligent Scalable Text Summarization, Madrid, Spain, August, 1997.
4.[Bellegarda96] J. R. Bellegarda, J. W. Butzberger, and Y. L. Chow (1996), “A Novel Word Clustering Algorithm Based on Latent Semantic Analysis,” In Conference on Acoustics, Speech, and Signal Processing, IEEE, Vol. 1, pp. 172-175, 1996.
5.[Edmundson68] H. P. Edmundson (1968), “New Methods in Automatic Extracting,” In I. Mani and M. Maybury (eds), Advances in Automated Text Summarization, MIT Press, pp. 23-42, 1999.
6.[Goldstein99] J. Goldstein, M. Kantrowitz, V. Mittal, and J. Carbonell (1999), “Summarizing Text Documents: Sentence Selection and Evaluation Metrics,” In SIGIR, ACM, Berkley, CA, USA, 1999.
7.[Gong01] Y. Gong, and X. Liu (2001), “Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis,” In SIGIR, ACM, New Orleans, Louisiana, USA, September 9-12, 2001.
8.[Habn00] U. Habn, and I. Mani (2000), “The Challenges of Automatic Summarization,” In Computer, IEEE, Vol. 33, No. 2000, pp. 29-36, 2000.
9.[Halliday76] M. A. K. Halliday, and R. Hasan (1976), “Cohesion in English,” Longman, London, 1976.
10.[Han01] J. Han, and M. Kember (2001), “Classifier Accuracy,” In Data Mining: Concepts and Techniques, pp. 323-324, 2001.
11.[Hovy99] E. Hovy, and C. Y. Lin (1999), “Automated Text Summarization in SUMMARIST,” In I. Mani and M. Maybury (eds), Advances in Automated Text Summarization, MIT Press, pp. 81-94, 1999.
12.[Kim00] J. H. Kim, J. H. Kim, and D. Hwang (2000), “Korean Text Summarization Using an Aggregate Similarity,” In Processings of the 5th International Workshop Information Retrieval with Asian Languages, ACM, 2000.
13.[Kowalski97] G. Kowalski (1997), “Information Retrieval Systems: Theory and Implementation,” Kluwer Academic Publishers, 1997.
14.[Kupiec95] J. Kupiec, J. Pedersen, and F. Chen (1995), “A Trainable Document Summarizer,” In SIGIR, ACM, Seattle WA, USA, 1995.
15.[Lam01] W. Lam, H. M. L. Meng, K. L. Wong, J. C. H. Yen (2001), “Using Contextual Analysis for News Event Detection,” In International Journal of Intelligent Systems, Vol. 16, pp. 525-546.
16.[Landauer98] T. K. Landauer, P. W. Foltz, and D. Laham (1998), “An Introduction to Latent Semantic Analysis,” In Discourse Processes, Vol. 25, 1998, pp. 259-284.
17.[Lin99] C. Y. Lin (1999), “Training a Selection Function for Extraction,” In CIKM, ACM, Kansas City, MO, USA, 1999.
18.[Mani99] I. Mani, and M. Maybury (1999), “Introduction,” In I. Mani and M. Maybury (eds), Advances in Automated Text Summarization, MIT Press, pp. x-xv, 1999.
19.[McKeown95] K. R. McKeown, D. R. Radev (1995), “Generating Summaries of Multiple News Articles,” In SIGIR, ACM, Seattle Washington, USA, 1995.
20.[Myaeng99] S. H. Myaeng, and D. Jang (1999), “Development and Evaluation of a Statistically Based Document System,” In I. Mani and M. Maybury (eds), Advances in Automated Text Summarization, MIT Press, pp.61-70, 1999.
21.[Salton97] G. Salton, A. Singhal, M. Mitra, and C. Buckley (1997), “Automatic Text Structuring and Summarization,” In Information Processing & Management, Elsevier, Vol. 33, No. 2, pp. 193-207, 1997.
22.[Silber00] H. G. Silber, and K. F. McCoy (2000), “Efficient Text Summarization Using Lexical Chains,” In IUI, ACM, New Orleans, LA, USA, 2000.
23.CKIP AutoTag, available at http://godel.iis.sinica.edu.tw/CKIP/.
24.WordNet (a lexical database for the English language). Available at http://www.cogsci.princeton.edu/~wn/.
25.[陳光華98] 陳光華 (1998), “新資訊時代的啟發性資訊服務,” 21世紀資訊科學與技術的展望學術研討會, 桃園, 1998.
26.[陳鈺瑾00] 陳鈺瑾, 與張俊盛 (2000), “可調式之中文文件自動摘要,” 碩士論文, 國立清華大學資訊工程研究所, 新竹, 2000.
27.[黃聖傑99] 黃聖傑, 與陳信希 (1999), “多文件自動摘要方法研究,” 碩士論文, 國立台灣大學資訊工程研究所, 台北, 1999.
28.[翁鴻加01] 翁鴻加, 與陳信希 (2001), “多文件摘要一些新技術及評估模型之建立,” 碩士論文, 國立台灣大學資訊研究所, 台北, 2001.
29.[蘇哲君01] 蘇哲君, 與陳信希 (2001), “中英雙語多文件自動摘要系統研究,” 碩士論文, 國立台灣大學資訊工程研究所, 台北, 2001.
30.[蘇諼96] 蘇諼 (1996), “自動摘要法,” 中國圖書館學會會報, 第56期, 頁41-47, 1996.
31.新台灣新聞週刊. Available at http://www.newtaiwan.com.tw.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top