跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.110) 您好!臺灣時間:2025/09/30 00:35
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:蔣易翰
研究生(外文):Yi-Han Chiang
論文名稱:應用詞彙量化及潛藏語意分析於口語敘述檢索醫療文件之研究
論文名稱(外文):Study on Term Quantization and Latent Sematic Analysis in Medical Document Retrieval from General Description
指導教授:邱毓賢邱毓賢引用關係
指導教授(外文):Yu-Hsien Chiu
學位類別:碩士
校院名稱:高雄醫學大學
系所名稱:醫務管理暨醫療資訊學系碩士班
學門:商業及管理學門
學類:醫管學類
論文種類:學術論文
論文出版年:2014
畢業學年度:102
語文別:中文
論文頁數:57
中文關鍵詞:醫療文件資訊檢索詞彙量化潛藏式語意分析向量空間模型
外文關鍵詞:Medical documentinformation retrievalterm quantizationlatent semantic analysisvector space model.
相關次數:
  • 被引用被引用:1
  • 點閱點閱:363
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:2
預防重於治療之預防醫學的觀念,隨著人口老化及慢性病增多而逐漸受到重視。現今人們對於自我照護的觀念日月增強,許多疾病及藥物名稱對一般民眾而言,不易被清楚認識或正確使用;此外,隨著網際網路及行動裝置的蓬勃發展,許多專業知識相當便利於網路上取得。然而,醫藥內容相較於一般人對疾病的自我認知與了解仍有相當的差異,如何建立或提供一個跨專業知識搜尋機制,使一般民眾可輕鬆找尋醫藥相關知識及內容,形成重要且必須面對的發展課題。因此,本研究目的為運用自然語言處理及計算語言學方法於建立易於一般民眾進行醫藥專業知識檢索系統,並探討醫療專業知識與一般醫療口語查詢語句之關係。
本研究特定目標主要包含:(1) 發展針對國家網路醫院KingNet醫藥百科辭典之網頁自動爬行系統,並透過中文斷詞剖析處理非結構性欄位之短文,以建立醫藥內容語料庫;(2) 運用改良式詞彙量化技術及觸發序對模型來篩選並擴展有意義之高關聯關鍵詞集並轉換成特徵向量描述形式;(3) 運用潛藏語意分析技術深度降低向量維度,以有效表達檢索語句;(4) 最後,應用向量空間模型及餘弦原理進行向量相似度比對,以檢索出使用者所需的醫藥內容。
本研究具體發展出一可透過口語描述檢索出醫護相關知識的輔助系統。隨機於所爬行而得之8694筆資料庫中擷取測試資料,在Top-15正確率評量原則下,檢索正確率已可達100%,實驗結果呈現本研究所提方法之可行性與實用性;未來將可提供更簡易、先進之醫療關鍵特徵向量化相似度檢索機制,以具體展現自我照顧衛教內容傳遞之新作為。


Preventive medicine and healthcare promotion are important for improving quality of daily life. However, medical context is hard to be understood.
Therefore, this study aimed to establish a back-end database for the name of the disease and a cost-effective link so that people can easily search for professional medical knowledge wondering search platform.(1)This study applies natural language processing and computational linguistics methods to develop an assisted query system in medical information retrieval from general description.(2)CKIP word segmentation system was utilized to parse medical content. A statistical term quantification method, based on Term Frequency–Inverse Document Frequency, was adopted to select a set of keywords, which was re-organized as a vector.(3)A Latent Semantic Analysis was performed to reduce the keyword vectors for advanced matching processing using arctan principle.(4) Finally, the vector space model and the principle of vector cosine similarity matching to retrieve the contents of a user needed medicine.
A corpus with 8694 medical terms and their interpretations was collected from KingNet website. An automatic database access mechanism in both local and remote sites was also developed for updating the corpus. Randomly 8694 selected document in the database test data, the Top-15 accuracy under assessment principles, to retrieve the correct rate of up to 100%, the experimental results presented in this study the feasibility and practicality of the proposed method; future will provide easier, advanced medical key feature to quantify the similarity retrieval mechanism to give concrete expression to self-care health education as the delivery of new content.


中文摘要 I
Abstract II
致謝 III
目錄 IV
表目錄 VI
圖目錄 VII
第一章 緒論 1
1.1. 研究動機 1
1.2. 研究目的與特定目標 4
1.3. 論文架構 5
第二章 背景與文獻探討 6
2.1. 搜尋引擎 6
2.2. 資訊檢索 8
2.3. 語言計算與量化 10
2.3.1. 詞彙量化 10
2.3.2. 詞彙相鄰模型與觸發序對 14
第三章 研究方法 17
3.1. 醫護辭典網頁文件解析與資料庫建立 18
3.2. 詞彙量化與關鍵詞集選取 22
3.3. 檢索關鍵詞擴充 24
3.4. 向量空間相似度比對 26
第四章 結果與討論 30
4.1. 資料庫詞彙統計與關鍵詞篩選實驗 32
4.2. 觸發序對篩選實驗 35
4.3. 潛藏語意分析降維實驗 38
4.4. 內在測試實驗結果 41
第五章 結論與未來研究建議 42
參考文獻 44
中文文獻 44
英文文獻 46


中文文獻
[1].SEO搜尋引擎優化的操作趨勢,2014年不知不可的SEO十大重點。台灣搜尋引擎優化與行銷研究院,2013。
[2].中研院資訊科學所詞庫小組中文斷詞系統,http://ckipsvr.iis.sinica.edu.tw/.
[3].朱毓君,以本體論強化網路FAQ系統之解答整合能力。國立台灣科技大學電子工程系碩士論文,2001。
[4].吳紫葦,利用句法與統計之文法搭配與多字詞語之擷取。國立清華大學資訊系統與應用研究所碩士論文,2006。
[5].周春珍、張蓓莉、李冠慧、李亭亭,”科技始於人性-淺談遠距醫療於老人健康照護之應用,” 護理雜誌,第56期,76~80頁,2009
[6].季斯遠,結合文件分類及分群之術語組織技術。臺灣大學資訊管理學研究所碩士論文,2007。
[7].林彥勳,醫療主訴句型預測及中文詞翻譯之研究。長榮大學資訊管理研究所碩士論文,2011。
[8].林昱豪,上下相關頁內搜尋。國立清華大學資訊工程研究所碩士論文,2011。
[9].莊庭瑋,適用於網路論壇之新事件偵測技術之研究。臺灣大學資訊管理學研究所碩士論文,2007。
[10].陳奕均,利用混合模型連結搭配詞語詞網詞意。國立清華大學資訊工程研究所碩士論文,2012。
[11].陳啟煌,大型醫療文件資訊探勘。國立臺灣大學電機工程研究所碩士論文,2010。
[12].陳瑞呈,資訊保存與自然語言處理的應用。國立臺灣大學資訊工程研究所碩士論文,2013。
[13].程圳松,網頁設計使用搜尋引擎最佳化方法提升網頁在搜尋引擎結果排名之研究-以Yahoo與Google搜尋引擎為例。世新大學資訊管理學系碩士論文,2008。
[14].馮廣明,正面和負面資訊需求對資訊件所效能之影響研究。國立臺灣大學資訊工程學研究所碩士論文,2003。
[15].黃挺豪,應用於中文意見分析之詞內暨詞間語法結構自動擷取研究。臺灣大學資訊網路與多媒體研究所碩士論文,2009。
[16].黃純敏、楊存一、邱立豐,”TFIDF與GBP方法於重要句子擷取績效評估,”第十三屆國際資訊管理學術研討會論文集, 2002。
[17].楊媁嵐,以互動電子書探討高齡族群接收醫療資訊之效果分析。中國文化大學資訊傳播研究所碩士論文,2012。
[18].蔡如意,語言模型之連續性表示法於語音辨識之應用。國立成功大學資訊工程研究所碩士論文,2008。
[19].蔡易圜,應用潛藏式語意分析於護理診斷支決策。南台科技大學電機工程研究所碩士論文,2008。
[20].蔡景祥,網路搜尋結果自動組織之研究。國立臺灣大學資訊管理學研究所碩士論文,2005。
[21].鄭合志、葉明珍、陳秀華、邱玲慧、趙恩霖、楊欽顯,”老人居家功能性健康監測系統之設計與應用,” 中洲學報,第26期,第1~12頁,2007。
[22].盧文祥,以網路探勘為基礎之術語翻譯擷取技術。國立交通大學資訊工程研究所博士論文,2004。
[23].賴敏軒,實證探究多種鑑別式語言模型於語音辨識之研究。國立臺灣師範大學資訊工程研究所碩士論文,2010。
[24].簡仁宗、陳鴻儀,使用關聯法則為主之語言模型於擷取長距離中文文字關聯性。國立成功大學資訊工程學系碩士論文,2001。
英文文獻
[1].Cabena, P., “Discovering Data Mining from Concept to Implementation, ” New Jersey :Pretice Hall,1997.
[2].Chen, F. andGoodman, Joshua, “An Empirical Study of Smoothing Techniques for Language Modeling,” Computer Speech and Language, vol. 13, pp.359-394, 1999.
[3].Chen, Kuang-Hua and Chen, Hsin-His . “The Chinese Text Retrieval Tasks of NTCIR Workshop 2,” in Proc. of the Second NTCIR Workshop Meeting on Evaluation of Chinese & Japanese Text Retrieval and Text Summarization(NTCIR 2), pp.51-72, 2001.
[4].Chonawat, Srisa-an, “E-Business’s Page Ranking with Ant Colony Algorithm,” in Proc. of the Fourth International Conference on eBusiness, Bangkok, Thailand, 2005.
[5].Christopher, D. M. and Hinrich, Schutze , “Foundations of Statistical Natural Language Processing”. MIT Press, Cambridge, MA: May 1999.
[6].Ciprian, Chelba and Frederick, Jelink, “Structured Language Modeling, ”Computer Speech and Language, vol. 14, no.4, pp. 283-332, 2000.
[7].Frederick. Jelinek and Mercer, L. R., “Interpolated Estimation of Markov Source Parameters form Sparse Data,” in Proc. Workshop in Pattern Recognition in Practice, pp.381-402, 1980.
[8].Furnas, G. W., Deerwester, S., Dumais, S. T., Landauer, T. K., Harshman, R., Streeter, L.A. and Lochbaum, K. E, “Information Retrieval using a Singular Value Decomposition Model of Latent Semantic Structure,” in Proc. ACM SIGIR Conference on R&D in Information Retrieval, pp.465-480, 1988.
[9].Golub, Gene and VanLoan, C.F, Matrix Computation. Johns Hopkins Univ. Press, 1996.
[10].Lin, W. C., Chang, Y. C. and Chen, H. H., “Integrating Textual and Visual Information for Cross-Language Image Retrieval: A Trans-media Dictionary Approach,” Information Processing & Management, vol. 43, Issue 2, pp. 488-502, 2007.
[11].Liu, Y. and Lin, Y. J., “Supervised HITS Algorithm for MEDLINE Citation Ranking, ” in Proc. of the 7th IEEE International Conference on Bioinformatics and Bioengineering, 2007.
[12].Przemyslaw, Kazienko, “Multi-agent System for Web Advertising; KES 2005, ” in Proc. of 9th International Conference on Knowledge-Based Intelligent Information & Engineering Systems, pp14-16, 2005.
[13].Rakesh, A., Ramakrishnan, S., “Fast Algorithm for Mining Association Rules”, Very Large Data Bases (VLDB’94), 1994, pp. 487-499.
[14].Ronald, R., “A Maximum Entropy Approach to Adaptive Statistical Language Modeling,” Computer speech and Language, vol. 10, pp.187-228, 1996.
[15].Song, J. M. and Croft, W. B., “A Language Modeling Approach to Information Retrieval,” in Proc. on the 22nd annual international ACM SIGIR Conference, pp.279-280, 1999.
[16].Tsai, M. F., Chen, H. H. and Wang, Y. T., “Learning a Merge Model for Multilingual Information Retrieval,” Information Processing and Management, vol. 47, Issue 5, pp. 635–646, 2011.
[17].Wen, H. L., Lee, F. C. and His, J. L., “Anchor Text Mining for Translation of Web Queries,” in Proc. of IEEE International Conference on Data Mining, 2001.
[18].Wu, C. H., Chiu, Y. H., Shia, C. J. and Lin, C. Y., “Automatic Segmentation and Identification of Mixed-language Speech using Delta-BIC and LSA-based GMMs,” IEEE Trans. Audio, Speech, and Language Processing, vol. 14, no. 1, pp.266~276, 2006.
[19].Yates, R. B. and Neto, B. R., Modern Information Retrieval. ACM Press, 1999.
[20].Zhang, X., Yu, H., Zhang, C. and Liu X. Y., “An Improved Weighted HITS Algorithm Based on Similarity and Popularity, ” in Proc. of Second International Multi-Symposiums (IMSCCS 2007), 2007.
[21].Zhou, G. D. and Lua, K. T., “Interpolation of N-gram and Mutual-Information based Trigger Pair Language Models for Mandarin Speech Recognition,” Computer Speech and Language, vol. 13, pp. 125-141, 1999.


QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top