跳到主要內容

臺灣博碩士論文加值系統

(44.210.85.190) 您好!臺灣時間:2022/11/30 01:32
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳威霖
研究生(外文):Wei-Lin Chen
論文名稱:中英文新聞的對應、分群、歸類與延伸閱讀
論文名稱(外文):The Matching, Clustering, Categorization and Entity Linking of Bilingual International News
指導教授:陸承志陸承志引用關係
指導教授(外文):Cheng-Jye Luh
口試委員:周清江楊正仁
口試委員(外文):Chi-Chang JouCheng-Zen Yang
口試日期:2015-7-6
學位類別:碩士
校院名稱:元智大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
畢業學年度:103
語文別:中文
論文頁數:39
中文關鍵詞:跨語言文件對應文件分群文件分類延伸閱讀
外文關鍵詞:Cross-lingual Document AlignmentDocument ClusteringDocument ClassificationFurther Reading
相關次數:
  • 被引用被引用:0
  • 點閱點閱:156
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本研究探討雙語國際新聞的對應,新聞文章的分群以及後續新聞的事件歸類。在雙語新聞對應時,我們依詞彙在標題與內文出現的差異給予不同的權重,並使用語料庫進行詞彙之間的相似度計算找出相對應的新聞。在新聞分群方面,我們修改搜尋引擎結果分群方法,利用潛在語意分析找出文件之間的相關詞,並依語意分析的概念維度分數進行相關詞的分群,並透過新聞文章所包含的相關詞進行文件分群。接著依照各群集的代表詞彙做為虛擬類別的特徵詞訓練分類模型,進行後續新進文章的事件歸類。最後在對延伸閱讀部分主要分為命名實體連結以及新文主題語意關聯圖,讓讀者在讀完文章後能有進一步的知識補充。在文章對應,分群與後續文章的歸類皆有不錯的表現,但仍有許多改善空間。
This study conducts matching, clustering and topic categorization of bilingual international news. The matching of bilingual news extends previous work on bilingual international news matching and named entity linking. We assign different weights to terms depending on its appearance in document title or content and use bilingual corpuses to calculate the similarity between terms. We modify a Latent Semantic Analysis based clustering method for grouping news. The clustering process first finds the relevant terms associated with a news set, and then using semantic dimensionality scores to group the terms into clusters and in turn group the documents containing similar terms into news clusters. Finally, we consider the label terms of each news cluster as features of a virtual class to run training of a classifier for categorizing the up-coming news. The further reading contains entity linking and topic relation graph. The experimental results look promising; however, much room remains for improvement.
書名頁 i
論文口試委員審定書 ii
授權書 iii
中文摘要 vi
英文摘要 vii
誌謝 viii
目錄 ix
表目錄 xi
圖目錄 xii
第一章、 動機與目的 1
1.1 研究動機 1
1.2 研究目的 1
1.3 研究架構 2
第二章、 文獻探討 2
2.1 文件對應 2
2.2 新聞分群 5
2.3 新聞事件歸類 10
2.4 延伸閱讀 10
第三章、 研究方法 13
3.1 系統架構 13
3.2 雙語新聞對應 13
3.3 中文新聞分群 14
3.4 新聞事件歸類 16
3.4 延伸閱讀 18
第四章、 系統評估 23
4.1 實驗資料來源 23
4.2 雙語新聞對應 23
4.3 新聞分群 25
4.4 新聞事件歸類 27
4.5 延伸閱讀-命名實體辨識與對應 29
4.6 新聞主題語意關聯圖與雙語新聞網站呈現 31
第五章、 結論 33
5.1 結論 33
5.2 未來展望 34
第六章、 參考文獻 36

1. 王建弘,民103年,『雙語國際新聞對應與延伸閱讀』,元智大學資訊管理研究所碩士論文
2. 林昱呈,民103年,『基於與義相關詞的搜尋結果分群方法之改良及其在行動裝置之呈現』,元智大學資訊管理研究所碩士論文
3. 黃純敏,民103年,『新聞事件偵測與追蹤之分群類演算法研究』,資訊科技國際期刊 ,第八卷‧第一期,70~78頁
4. 陳良駒,民99年,『植基於詞彙數量關係探討軍事新聞主題--以青年日報為例』,資訊管理展望,2010.06,頁21-42
5. Corley, C. and Mihalcea, R. 2005. “Measuring the Semantic Similarity of Texts,” ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment, pp13-18.
6. Diaz, F. and Metzler D. (2007). Pseudo-Aligned Multilingual Corpora. Proceedings of 20th International Joint Conference on Artifical intelligence, 2727 - 2732.
7. John C. Platt. 1998. “Fast Training of Support Vector Machines Using Sequential Minimal Optimization,” Advances in Kernel Methods - Support Vector Learning
8. J. Han, M. Kamber ,(2006). “Data Mining: Concepts and Techniques,” Morgan Kaufmann Publishers, New York.
9. Kaufman, L and Rousseeuw, P. 1990. “Finding Groups in Data: An Introduction to Cluster Analysis”, Wiley, New York
10. Lee, K.S. and Kageura, K. 2006. “Korean-Japanese Story Link Detection Based on Distributional and Contrastive Properties of Event Terms,” Information Processing and Management, 42(2), pp538-550.
11. Mengqi Pei. 2014. “Text classification based on SMO and fuzzy model”, Information Technology and Artificial Intelligence Conference (ITAIC), 2014 IEEE 7th Joint International, pp306 – 310
12. Osinski, S., Stefanowski, J. and Weiss, D., (2003). “Lingo: Search results clustering algorithm based on Singular Value Decomposition,” Intelligent Information System Conference 2004, Zakopane, Poland.
13. Rao, D., McNamee, P. and Dredze, M. (2011). Entity Linking: Finding Extracted Entities in a Knowledge Base. a book chapter in Multi-source, Multi-lingual Information Extraction and Summarization. Poibeau, T, Saggion, H, Piskorski, J. and Yangarber, R.
14. Rendon, E., Abandez, I., Arizmendi, A. and Quiroz, E. M. (2011). “Internal Versus External Cluster Validation Indexes,” International Journal of computers and communications, pp: 27-34
15. Stanfill, C. and Waltz, D. 1986. “Toward memory-based reasoning,” ACM Communications, Vol.29, pp1213-1228.
16. Simpson, T. and Dao, T. 2010. “WordNet-based semantic similarity measurement,” Code Project, (available on line at http://www.codeproject.com/Articles/11835/WordNet-based-semantic-similarity-measurement).
17. Stern, R., Sagot, B. and B#westeur042#chet, F. (2012). A Joint Named Entity Recognition and Entity Linking System. Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data, 52 - 60.
18. Voigt, M., Aleythe, M. and Wehner, P. 2013. “Towards Topics-based, Semantics-assisted News Search,” Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics, Article No. 6.
19. Vu, T., Aw A.T., and Zhang, M. (2009). Feature-based Method for Document Alignment in Comparable News Corpora. Proceedings of 12th Conference of the European Chapter of the Association for Computational Linguistics, 843 - 851.
20. Wall, Michael E., Andreas Rechtsteiner, Luis M. Rocha. (2003). “Singular value decomposition and principal component analysis,” A Practical Approach to Microarray Data Analysis, D.P. Berrar, W. Dubitzky, M. Granzow, eds. Kluwer: Norwell, MA., pp: 91-109.
21. Weiss, S., White, B., Apte, C. and Damerau, F. 1999. Lightweight Document Matching for Help Desk Applications. Intelligent Systems and their Applications, IEEE, pp57 - 61.
22. Zhao, Y., Jiang and H., Wang, X. 2010. “Minimum Edit Distance-Based Text Matching Algorithm,” Proceedings of Natural Language Processing and Knowledge Engineering (NLP-KE), pp1-4.
23. Zamir, O. and Etzioni, O. 1998.“Web Document Clustering: A Feasibility Demonstration,” SIGIR 98, pp: 46-54.

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊