研究生(外文):Guan-Shuo Mai
論文名稱(外文):Linked Open Data of Ecology : A New Approach of Data Sharing
指導教授(外文):Yue-Joe HsiaChau-Chin Lin
外文關鍵詞:RDFLinked DataEcologyData Sharing
生態學是一門重視整合與合作的科學,分享生態資料是解決跨領域整合問題的需求。以metadata標準或是知識本體論(ontology) 為導向的生態資料管理系統,由於缺少一致的存取平台與標準,而難以跨越系統的藩籬。有鑑於此,本研究嘗試以近年發展的鍵連資料(Linked Data)風格建立新的生態資料分享方式。鍵連資料是Web發明人Tim Berners-Lee為實現下一代網路─語意網─所提出的資料分享的實務方式。它的四個原則善用了既有的Web架構以及資源描述框架(簡稱RDF)這個單一標準,讓資料在最細的單元彼此連結,形成有別於傳統網路的資料網,並能讓機器協助資料處理作業,更跨越了系統的界線而彼此連結。本研究串連了五個主題或內容相異,但又具有不同程度的關連性的資料集,包括了林火資料庫、林業試驗所的植物與昆蟲標本資料庫、楠溪森林動態樣區資料,以及TaiBNET提供的台灣物種名錄資料庫等等。串連的結果命名為「鍵連開放的生態資料」(簡稱LODE)並發布於資料網上。發布過程可歸納為1)準備原始資料並建立資料模型,2)將資料轉換為RDF的形式,3)將RDF資料載入專屬的系統並以推理器完備資料中隱含的語意,4)透過鍵連資料介面發布資料並在LODE與其他資料網上的資料集之間建立連結。為展現鍵連資料為分散的資料集所帶來的交互操作性,本研究建立了數個操作實例來示範如何尋訪連結以探索未知來源的動態資料、聯合查詢多來源靜態資料集、探索資料間的關係,以及以進階的查詢指令示範資料間的互動等等。藉由幾個現有的資料庫操作實例,本研究討論了鍵連資料對生態資料分享的合適性、資料品質、整合分類學資料時可能忽略的細節、將發布的資料整合進入半自動化的科學工作流程系統的可行性、以及與現有的資料管理方式整合的途徑。最後提出依鍵連資料風格分享生態資料,改進現有資料模型與發布架構的方針。
Ecology is a discipline emphasizing integrative and collaborative approaches, and data sharing could facilitate integration among different ecology subdisciplines. However, the lack of semantics and unified access platform in prevalent ecological information management systems hamper the data sharing considerably. In this study, a newly developing framework to connect data on the Web, Linked Data, is proposed to be a suitable practice for exposing, sharing and connecting pieces of ecological data. The four principles built upon standard Web technologies and Resource Description Framework (RDF) make data linkable and machine-readable in the finest level of granularity, interweaving data silos into the Web of Data. The new-proposed framework for sharing ecological data is named Linked Open Data of Ecology (LODE). As a case study, five existing datasets with different but related contents was published as LODE. The data sets are forest fire database, plant and insect specimen databases established byTFRI, the Nanshi forest dynamics plot census data provided by Providence University, and the database of catalogue of life in Taiwan provided by Academia Sinica. The data publishing workflow can be summarized into 4 steps: 1) to prepare raw data and to build general data models, 2) to transform raw data into RDF data fitting models from step 1, 3) to load RDF data and models into RDF repositories with reasoners to merge data and to complete semantics,4) to publish through Linked Data interface. Using the above schema links among 5 source datasets as well as other datasets on the Web of Data could then be established. The scalability and interpretability of this data framework were demonstrated with dynamic data discovery by link traversing, federated querying multiple static datasets, exploring relationships among data instances, and advanced queries. The suitability of this new approach in ecological data sharing is then discussed. Problems on data quality, integrating taxonomic data, analysis of ecological data automatically under LODE framework using scientific workflow tools such as Kepler, and the need to improve current data models were also explored. This study concludes that Linked Data is suitable for ecological data sharing but improvement of data publishing workflow and the user interface are needed.
1. 前言 1
2. 生態資料管理綜論 3
2.1 資料管理與生態學 3
2.2 生態資料管理方式 6
2.2.1 保存與倉儲 6
2.2.2 Metadata、Metadata標準與資料分享 7
2.3 語意網脈絡下的生態資料管理 11
2.3.1 知識本體論 11
2.3.2 鍵連資料 14
2.3.3 RDF倉儲系統與SPARQL概述 20
3. 材料與方法 23
3.1 準備原始資料以及資料模型 25
3.1.1 準備原始資料 25
3.1.2 統一的資料概念模型設計 27
3.1.3 字彙收集 30
3.2 資料轉換 31
3.2.1 建立對應檔 32
3.2.2 特殊考量與操作 33
3.2.3 轉換資料 35
3.3 將資料載入RDF倉儲系統 39
3.3.1 BigOWLIM系統 40
3.3.2 載入前處理 40
3.3.3 合併資料與關係推理 40
3.4 發布與連結資料 44
3.4.1 透過鍵連資料界面發布資料 45
3.4.2 建立內部與對外連結 46
3.4.3 描述LODE資料集 47
3.5 其他工具 48
3.5.1 SQUIN 48
3.5.2 MAP4RDF 48
3.5.3 RelFinder 48
4. 操作實例 51
4.1 直接瀏覽 51
4.2 物種名與分布地查詢 56
4.3 單一物種於世界尺度的分布 60
4.4 以地找物 62
4.5 探索資料間的關係 64
4.6 衍生範例─SPARQL查詢操作 66
5. 討論 71
5.1 鍵連資料應用於生態學的適宜性 71
5.2 與科學工作流程整合的潛力 72
5.3 原始資料品質與內容問題 75
5.4 引申自鍵連資料框架本身的議題 75
5.5 物種分類與實體身份認定問題 77
6. 後續研究方向 81
6.1 改善現有的資料模型 81
6.2 補足資料轉換與呈現方式 81
6.3 與既有框架與文化整合的資料分享願景 82
7. 引用文獻 83
附錄 87
