研究生(外文):Po-Yun Chuang
論文名稱(外文):Design of a new Search Engine for XML Document Schemata
指導教授(外文):Eric Jui-Lin Lu
外文關鍵詞:DTDTree edit distanceDTD treeXML RepositorySearch engine
近年來,有愈來愈多的商業交易透過網際網路達成,為了能夠在網路上順利的進行交易,企業必須使用良好的訊息交換格式。目前XML(Extensible Markup Language)為公認最好的資料呈現及交換的格式,這是因為XML允許使用者定義符合自己的標籤及屬性。但是允許使用者定義自己的標籤及屬性將會造成同義異名及同名異義的問題。所以,有許多知名的國際組織,建立XML儲存庫來解決此問題。然而,儲存庫被建立之後,將會有愈來愈多的文件定義被註冊,因此能夠正確的找到最接近使用者所想要的文件定義將是一個很重要的問題。目前主要有二種方法用來搜尋文件定義,為Kotsakis和Bohm提出的XSD(XML Schema Directory)和Lu和Jung提出的XDSearch,但此兩種方法在搜尋時並沒有考慮到meta-character及提供子結構的搜尋。因此,本研究將提出一個新的文件定義搜尋引擎,使用Zhang和Shasha樹與樹之間的校正距離的演算法測量兩文件定義之間的相似度,並利用此演算法所算出的距離矩陣來判斷文件定義是否有使用者需求的子結構。最後,針對XDSearch和提出的方法使用真實世界的文件定義做實驗比較及分析。
Electronic commerce is an emerging trade model under dramatically rapid development. It is believed that XML is one of the best layout formats for exchanging messages over the Internet. Although XML allow developers to define elements and attributes to fit their own needs, this feature makes it difficult to exchange XML documents between companies. To solve this problem, it is believed that XML repositories have to be established. XML repositories store and manage re-usable objects such as document schemata and entities such as DTDs for developers. Therefore, it is imperative to develop an efficient search engine so that developers can locate objects they need. However, to be able to search for the right document schemata, a powerful document schema search engine is required. In this paper, we propose a new document schema search engine to search similarity for XML schemata.
中文摘要 I
誌謝 III
目 錄 IV
圖 目 錄 V
表目錄 VI
第一章 緒論 1
1.1研究背景 1
1.2研究動機 3
1.3研究目標 7
第二章 文獻探討 8
2.1關鍵字搜尋 8
2.2目錄搜尋 9
2.3 XSD 9
第三章 文件定義搜尋引擎的架構 12
3.1資訊元件 13
3.1.1文件定義儲存庫 13
3.1.2專有名訽表格 13
3.1.3文件定義表格 15
3.1.4索引表格 16
3.2搜尋元件 16
3.2.1建立DTD樹模組 16
3.2.2排序模組 20
3.2.3測量相似度模組 23
3.2.4索引模組 29
3.3介面元件 30
第四章 實作及實驗 31
4.1實作 31
4.2實驗 34
4.3分析 38
第五章 結論與未來工作 41
5.1結論 41
5.2未來工作 42
參考文獻 43
