研究生(外文):Yan-Wun Lin
論文名稱(外文):The System Design and Development for Transforming Digital News to Linked Open Data
外文關鍵詞:Linked DataDigital NewsSemantic WebNamed Entity RecognitionConvolutional Neural Networks.
因此,為了改善新聞頁面缺乏語意的問題,本研究提出一套網路新聞到鏈結資料(Linked Data)的轉換系統,將目前網路新聞所提供之資訊轉為與本研究為台灣網路新聞平台所設計的資源描述框架相對應的Metadata。本系統利用命名實體識別(Named Entity Recognition,NER)技術標記新聞內文中所提之人物及組織,藉由將這些實體鏈結至中文維基百科與DBpedia等知識庫的方式,改善使用者在搜尋特定對象新聞時可能遭遇的同義詞問題,並使用語意網技術中的SPARQL查詢取代現有的關鍵字查詢。
由於社群網路平台的興起,人們在網路新聞平台上除了瀏覽新聞之外,使用者於社群平台對於該新聞特定對象的評論亦是人們關心的重點。因此,本研究不只針對網路新聞平台資料做轉換,更進一步將人們於社群網路平台所提供之新聞留言轉換為鏈結資料,並利用卷積神經網路(Convolutional Neural Networks, CNN)分析新聞留言與新聞內文各標籤的相關程度,以猜測各留言所討論的對象並進行標記。藉此改善新聞留言搜尋問題,讓使用者能透過本系統搜尋與特定人物、組織相關的新聞評論。
With the rising of social media and digital news, it greatly changed the habit of people watching news and discussing news topics. People browse news through digital news platform as the main source and discuss news issues on social network. However, due to digital news platforms provided by Taiwanese news publishers using traditional web pages (HTML), the presentation of news pages doesn't provide the semantics (Metadata) that can be parsed by computer. As a result, the web resources relating to the news contents cannot be linked to the news.
In order to solve this problem in digital news, we design a system which transforms digital news data to the Resource Description Framework (RDF). The proposed system recognizes the entities, person and organization, in digital news by the named entity recognition technique then and links them to the knowledge bases such as Wikipedia or DBpedia. Our system also solves the synonym problem when users search news about specific object. In addition, it provides SPARQL query of semantic web to enhance search capability.
People not only browse news through digital news platform but discuss news issues on social network. Our system transforms digital news platform data to linked data. Besides, we use Convolutional Neural Networks(CNN) classifier to analyze degree of relatedness between news opinions from social network and entities in the news. By the means, we allow users to search the opinion about specific entity.
致謝 i
摘要 iii
Abstract iv
目次 v
表目次 vi
圖目次 vii
第1章 緒論 1
1-1 研究背景及動機 1
1-2 研究目的 4
1-3 主要貢獻 6
1-4 論文架構 7
第2章 相關研究 8
2-1 語意網 8
2-2 鏈結資料 8
2-3 鏈結資料與網路新聞 11
2-4 網路新聞到鏈結資料轉換系統 12
2-5 命名實體識別 13
2-6 卷積神經網路於意見探勘之應用 14
第3章 系統架構與演算法 16
3-1 系統架構 16
3-2 網路新聞RDF Metadata 17
3-3 資料蒐集模組 20
3-3-1 社群媒體資料蒐集 20
3-3-2 網路新聞資料蒐集 21
3-4 資料預處理模組 23
3-5 hasTag資料萃取模組 25
3-6 TalkingAbout資料萃取模組 30
第4章 系統實作與實驗分析 37
4-1 開發工具與實驗環境 37
4-2 應用鏈結資料於網路新聞範例平台 38
第5章 結論與未來研究 44
5-1 結論 44
5-2 未來研究方向 45
參考文獻 46
