跳到主要內容

臺灣博碩士論文加值系統

(44.192.48.196) 您好!臺灣時間:2024/06/16 12:12
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:黃韋傑
研究生(外文):HUANG, WEI-JIE
論文名稱:線上問診諮詢科別之預測及探勘分析
論文名稱(外文):Prediction and Text Mining of Medical Problems for Online Consultation Services
指導教授:黃河銓黃河銓引用關係
指導教授(外文):HUANG, HO-CHUAN
口試委員:楊棠堯陳聰毅
口試委員(外文):YANG, TARNG-YAOCHEN, TSONG-YI
口試日期:2020-07-27
學位類別:碩士
校院名稱:國立高雄科技大學
系所名稱:智慧商務系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2020
畢業學年度:108
語文別:中文
論文頁數:87
中文關鍵詞:文字探勘機器學習關聯規則主題模型醫療諮詢應用
外文關鍵詞:Text miningMachine LearningAssociation RulesTopic ModelsMedical Consulting Applications
相關次數:
  • 被引用被引用:0
  • 點閱點閱:205
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本研究目的是利用探勘技術與機器學習技術建構一個科別分類的模型,探討使用不同分類器分類的結果,透過關聯規則分析各個科別的民眾問診資料與醫師回覆之間字詞的關聯,以及使用主題模型分析民眾問診的主題有哪些,最後依據查詢者輸入的問診內容並給予預測的科別回饋。
本研究以國家網路醫藥一般內科、一般婦科、泌尿科以及皮膚科的問診紀錄做為示範,資料來源經萃取、清潔、整理後,共有4181筆資料用於資料分析,使用支援向量機、貝式分類器、隨機森林和多層感知器四種演算法作為分類的訓練模型;關聯規則使用Apriori找出各個科別使用字詞的關聯;主題模型使用LDA (Latent Dirichlet Allocation)分析各科別問診主題。
研究結果發現在一般內科與皮膚科使用多層感知器/TF表現最佳,精確度個別為0.92與 0.95;一般婦科使用支援向量機/TF-IDF表現最好,精確度為0.93;泌尿科表現最佳的分類器為隨機森林/TF-IDF,精確度為0.92。關聯規則中找出一般內科8筆規則;一般婦科8筆規則;泌尿科6筆規則;皮膚科12筆規則,從規則發現該科別的問診傾向、疾病附加的症狀或是在某症狀下醫師推斷的疾病。主題模型根據各科某一症狀擷取5筆相似的主題,發現在同一個疾病下出現的症狀以及諮詢的內容都各有不同,未來新的問診者提問時可以預測該問題屬於哪個主題,並且給予他們相關的回覆當作一個初步診斷。
This study aims to find a best-fit classification model to conforming on-line consultation data from a medical website with the suggestions of the replied doctors. Data mining and machine learning techniques were employed in this study, such as the classification models for prediction, the association rules for the content analysis, and the topic model for the analyze of the consultation subject.
Consultation data were collected from four categories from the KingNet website (i.e., general internal medicine, general gynecology, urology, and dermatology) for a total of 4181 data. Four algorithms were used as the prediction model for classification, including Support Vector Machine (SVM), Bayesian Classifier (BC), Random Forest (RF), and Multi-Layer Perceptron (MLP). The association rule used Apriori algorithm to discover the relationship of the keywords used in each category. The topic model used LDA (Latent Dirichlet Allocation) to analyze the consultation topic in each category.
The results found that the performance was the fit in the general internal medicine and the dermatology by using MLP/TF, the precision was 0.92 and 0.95, respectively. For the general gynecology, the SVM/TF-IDF had the best precision of 0.93. The best classifier in urology was RF/TF-IDF with a precision of 0.92. This study established eight rules in general internal medicine, eight rules in general gynecology, six rules in urology, and twelve rules in dermatology by the association rule. Response from physicians indicated that the possible problems additional symptoms of the disease, and diagnosis. The topic model retrieved five similar themes based on a symptom in each category. Finally, this study concluded that when people address questions about their discomfort, the system can predict which medical clinic is responding to the problems and provide them relevant information as a preliminary diagnosis tool.
摘 要 i
ABSTRACT ii
誌謝 iii
目錄 iv
表目錄 vi
圖目錄 vii
一、緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 論文架構 3
二、文獻探討 4
2.1 資料探勘 4
2.1.1 資料探勘模型 4
2.1.2 Apriori 6
2.2 文字探勘 7
2.2.1 關鍵字篩選 8
2.2.2 主題模型(LDA) 9
2.3 支援向量機 11
2.4 簡單貝氏分類 13
2.5 隨機森林 14
2.6 多層感知器 15
三、研究方法 18
3.1 研究流程 18
3.2 資料收集 19
3.3 資料處理 20
3.3.1 資料預處理 20
3.3.2 中文斷詞 21
3.3.3 詞頻分析 23
3.3.4 機器學習 23
3.4 探勘分析 24
3.4.1 關聯規則 24
3.4.2 主題模型(LDA) 25
3.5 評估指標 27
3.5.1 分類評估指標 27
3.5.2 關聯規則評估指標 28
四、結果與討論 29
4.1 科別分類結果與討論 29
4.1.1 貝式分類結果 29
4.1.2 支援向量機結果 30
4.1.3 隨機森林結果 31
4.1.4 多層感知器結果 32
4.1.5 科別分類討論 33
4.2 關聯規則結果與討論 36
4.3 LDA結果與討論 41
五、結論與建議 48
5.1 研究結論 48
5.2 未來研究建議 49
參考文獻 50
附錄一 一般內科LDA結果 55
附件二 一般婦科LDA結果 62
附錄三 泌尿科LDA結果 67
附錄四 皮膚科LDA結果 73

中文文獻
吳季嫻(2018)。文字探勘:應用於閱讀者分群與文章主動推薦系統(碩士論文)。靜宜大學財務與計算數學系碩士論文,台中市。
李惇維(2017)。基於Machine Learning & MapReduce 對於惡意軟體之分類技術(碩士論文)。國立雲林科技大學資訊工程系碩士論文,雲林縣。
周長銘(2016)。利用文字探勘技術辨別網路謠言之真偽(碩士論文)。元智大學資訊管理學系碩士論文,桃園縣。
林政修(2017)。文字探勘投資策略分析(碩士論文)。國立雲林科技大學財務金融系碩士論文,雲林縣。
翁慈宗、劉冠良、韓昀達(2015)。多項式馬可夫簡易貝氏分類器結合狄氏先驗分配於基因序列分類之研究。[Dirichlet Priors for Markov Naïve Bayesian Classifiers with Multinomial Model for Gene Sequence Data]。資訊管理學報,22(1),87-115。
袁得峻(2015)。探討良性攝護腺增生病人採不同術式後的 併發症與術前合併症之關聯(碩士論文)。國立中正大學資訊管理學系暨研究所碩士論文,嘉義縣。
國家發展委員會(2019)。108年持有手機民眾數位機會調查。取自https://www.ndc.gov.tw/cp.aspx?n=55C8164714DFD9E9 (檢索日期 2020/02/04)。
國家網路醫藥(2020)。取自https://www.kingnet.com.tw/knNew/index.html?source=index201607 (檢索日期 2020/07/12)。
戚玉樑、陳滄堯、洪智力(2013)。以知識整合模型建置症狀查詢就診科別推薦系統之研究。[Using a Knowledge-Integration Model to Construct a Recommendation System for Matching Outpatient Symptoms and Hospital Clinical Departments]。圖書館學與資訊科學,39(1),64-83。doi:10.6245/jlis.2013.391/602
陳世榮(2015)。社會科學研究中的文字探勘應用:以文意為基礎的文件分類及其問題。人文及社會科學集刊,27(4),683-718。
陳光華(2012)。文本探勘。圖書館學與資訊科學大辭典。取自 http://terms.naer.edu.tw/detail/1679014/ (檢索日期 2020/08/15)。
陳樂惠、林鼎舜(2011)。運用OWL與JessTab建構醫院門診推薦專家系統之研究。[The Study of Hospital Clinic Recommended ExpertSystem Based on OWL and JessTab]。醫療資訊雜誌,20(3),1-19。doi:10.29829/TJTAMI.201112.0001
劉姿蘭(2009)。應用文字探勘技術於疾病分類自動編碼之研究(碩士論文)。國立成功大學工業與資訊管理學系專班碩士論文,台南市。
蔡慶鐘(2012)。應用文字探勘技術於疾病問答系統之研究(碩士論文)。南華大學資訊管理學系碩士論文,嘉義縣。
蕭為元(2013)。應用文字探勘及機器學習技術於股票推薦系統之研究(碩士論文)。國立屏東科技大學資訊管理系所碩士論文,屏東縣。
韓世依、張鈺暉、馬雲山、涂存超、郭志芃、劉知遠、孫茂松(2016)。 THUOCL:清華大學開放中文詞庫。取自http://thuocl.thunlp.org/ (檢索日期 2020/07/12)。

英文文獻
Amin, M. S., Chiam, Y. K., & Varathan, K. D. (2019). Identification of significant features and data mining techniques in predicting heart disease. Telematics and Informatics, 36, 82-93. doi:https://doi.org/10.1016/j.tele.2018.11.007
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of Machine Learning Research, 3(Jan), 993-1022.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32. doi:10.1023/A:1010933404324
Chang, K. P., Wang, J., Chang, C. C., & Chu, Y. W. (2020). Development of a Novel Tool for the Retrieval and Analysis of Hormone Receptor Expression Characteristics in Metastatic Breast Cancer via Data Mining on Pathology Reports. Biomed Research International, 2020, 7. doi:10.1155/2020/2654815
Chen, J., Huang, H., Tian, S., & Qu, Y. (2009). Feature selection for text classification with Naïve Bayes. Expert Systems with Applications, 36(3, Part 1), 5432-5435. doi:https://doi.org/10.1016/j.eswa.2008.06.054
Chen, W., Yang, J., Wang, H. L., Shi, Y. F., Tang, H., & Li, G. H. (2018). Discovering Associations of Adverse Events with Pharmacotherapy in Patients with Non-Small Cell Lung Cancer Using Modified Apriori Algorithm. Biomed Research International. doi:10.1155/2018/1245616
Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273-297. doi:10.1007/BF00994018
Cui, S., Wang, D., Wang, Y., Yu, P.-W., & Jin, Y. (2018). An improved support vector machine-based diabetic readmission prediction. Computer Methods and Programs in Biomedicine, 166, 123-135. doi:https://doi.org/10.1016/j.cmpb.2018.10.012
Fayyad, U. M. (1996). Advances in Knowledge Discovery and Data Mining. Menlo Park, Calif.: AAAI Press : MIT Press.
Feldman, R., & Sanger, J. (2006). The Text Mining Handbook: Advanced approaches in analyzing unstructured data. Cambridge: Cambridge University Press.
John, G. H., & Langley, P. (1995). Estimating Continuous Distributions in Bayesian Classifiers. Paper presented at the Proceedings of the Eleventh conference on Uncertainty in artificial intelligence, Montréal, Qué, Canada.
Karaca, Y., Moonis, M., Zhang, Y.-D., & Gezgez, C. (2019). Mobile cloud computing based stroke healthcare system. International Journal of Information Management, 45, 250-261. doi:https://doi.org/10.1016/j.ijinfomgt.2018.09.012
Ketpupong, P., & Piromsopa, K. (2018). Applying Text Mining for Classifying Disease from Symptoms. Paper presented at the 2018 18th International Symposium on Communications and Information Technologies (ISCIT).
Li, Y., Rapkin, B., Atkinson, T. M., Schofield, E., & Bochner, B. H. (2019). Leveraging Latent Dirichlet Allocation in processing free-text personal goals among patients undergoing bladder cancer surgery. Quality of Life Research, 28(6), 1441-1455. doi:10.1007/s11136-019-02132-w
Onan, A., Korukoğlu, S., & Bulut, H. (2016). Ensemble of keyword extraction methods and classifiers in text classification. Expert Systems with Applications, 57, 232-247. doi:https://doi.org/10.1016/j.eswa.2016.03.045
Salton, G., & McGill, M. J. (1983). Introduction to Modern Information Retrieval: McGraw-Hill.
Sun, T., Wang, J., Li, X., Lv, P., Liu, F., Luo, Y., . . . Guo, X. (2013). Comparative evaluation of support vector machines for computer aided diagnosis of lung cancer in CT based on a multi-dimensional data set. Computer Methods and Programs in Biomedicine, 111(2), 519-524. doi:https://doi.org/10.1016/j.cmpb.2013.04.016
Sun, Y., & Zhang, D. (2019). Diagnosis and Analysis of Diabetic Retinopathy Based on Electronic Health Records. IEEE Access, 7, 86115-86120. doi:10.1109/ACCESS.2019.2918625
Tan, A.-H. (1999). Text Mining: The state of the art and the challenges. Paper presented at the Proceedings of the PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases.
Tang, J. Y., Chuang, L. Y., Hsi, E., Lin, Y. D., Yang, C. H., & Chang, H. W. (2013). Identifying the Association Rules between Clinicopathologic Factors and Higher Survival Performance in Operation-Centric Oral Cancer Patients Using the Apriori Algorithm. Biomed Research International, 7. doi:10.1155/2013/359634
Venkatesh, R., Balasubramanian, C., & Kaliappan, M. (2019). Development of Big Data Predictive Analytics Model for Disease Prediction using Machine learning Technique. Journal of Medical Systems, 43(8), 272. doi:10.1007/s10916-019-1398-y
Wang, T., Huang, Z., & Gan, C. (2016). On mining latent topics from healthcare chat logs. Journal of Biomedical Informatics, 61, 247-259. doi:https://doi.org/10.1016/j.jbi.2016.04.008
Yan, H., Jiang, Y., Zheng, J., Peng, C., & Li, Q. (2006). A multilayer perceptron-based medical decision support system for heart disease diagnosis. Expert Systems with Applications, 30(2), 272-281. doi:https://doi.org/10.1016/j.eswa.2005.07.022
Zhu, H., Xia, X., Yao, J., Fan, H., Wang, Q., & Gao, Q. (2020). Comparisons of different classification algorithms while using text mining to screen psychiatric inpatients with suicidal behaviors. Journal of Psychiatric Research, 124, 123-130. doi:https://doi.org/10.1016/j.jpsychires.2020.02.019

電子全文 電子全文(網際網路公開日期:20250828)
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊