跳到主要內容

臺灣博碩士論文加值系統

(3.235.227.117) 您好!臺灣時間:2021/07/28 03:52
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:歐怡彣
研究生(外文):Yi-Wen Ou
論文名稱:應用文字資料探勘與集群分析技術於工程查核缺失編號自動化
論文名稱(外文):Applying Data-Mining and Clustering to Automate the Quality Defects Indexing
指導教授:謝孟勳謝孟勳引用關係
學位類別:碩士
校院名稱:國立中興大學
系所名稱:土木工程學系所
學門:工程學門
學類:土木工程學類
論文種類:學術論文
畢業學年度:98
語文別:中文
論文頁數:80
中文關鍵詞:資料探勘施工查核特徵距離公式
外文關鍵詞:Data-Miningconstruction auditFeaturedistance formula
相關次數:
  • 被引用被引用:1
  • 點閱點閱:199
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
工程施工查核制度為確保國內公共工程品質的重要工作,就目前國內各級政府機關辦理工程施工查核業務,因配合行政院公共工程委員會「工程施工查核小組績效考核作業要點」之考核機制,全國各機關皆需辦理大量之工程施工查核業務,上萬份之查核委員紀錄表,經由工作人員以人工方式判讀確認後,再行上「公共工程標案管理資訊系統」依序選填缺失編號、繕寫缺失內容後,方能出具施工查核紀錄表。
然查核委員紀錄表,非屬條例勾選方式之紀錄表,由各施工查核委員參考「主辦機關工程管理自主評量表」後依各項缺失內容,以口語方式填寫「品質缺失描述」,工作人員為能輸出「工程施工查核紀錄表」,需依照行政院公共工程委員會「公共工程標案管理資訊系統」內依序勾選缺失編號暨繕寫缺失內容描述,故屬人工判讀之方式辦理,不僅費時且人工判讀之編碼工作,極易產生誤判。
本研究之目的係希望藉由工程施工查核委員的每一段「缺失內容描述」,利用電腦程式之輔助,依三種模式自動判斷其「特徵」後進而於765條的缺失編號中,自動搜尋判斷最相關的對應缺失編號。首先是以斷詞處理方式取得特徵,本研究採用Yahoo!搜尋斷詞API所提供的服務取得該特徵,獲得「9334」個關鍵詞,以此進行缺失分類;其次以專家經驗建立一專家補充詞庫來做缺失分類;最後再將以上兩種方法合併使用。計算相關程度的部份,採用TF*IDF(term frequency–inverse document frequency)之函數來取得缺失內容與缺失編號的「相似度」,並分析文件分類 (Data-Mining)技術中,4種較常見的距離公式,分別為:餘弦法(cosine similarity)、歐幾里德(Euclidean distance)、曼哈頓(City Blok Distance)及內積法(dot product,scalar product,inner product),計算獲得相似度之依據。
為探討特徵取得模式與四種距離公式之效能,特收集真實案例作為測試,其中以查核委員原始之查核紀錄表缺失內容,及人工判讀方式建檔之缺失編號,作為基本資料進行測試。最後實驗結果以歐幾里德距離計算的成果有82.72%的機率,可幫使用者大幅縮減工作量,表現最佳,為提高判讀之成果,加入專家語詞之關鍵字資料庫,則可更有效的判讀缺失編號,降低僅以人工判讀之錯誤產生,並加速工作效益。

The system of public construction quality control is an important system to ensure national public engineering quality. Now in Taiwan, each governmental organization audits the process of construction, following the supervising system of Execution proposal of the people supervising the public construction issued by The Public Construction Commission. The workload of construction audit is heavy. Related personnels usually identify more than ten thousand of construction audit sheets in an artificial way. Afterwards, they will use 「Public Construction management information system」 to issue the construction audit sheet by filling out questionairre form with lots of serial numbers & questions items in an sequencial manner.
The construction audit sheet is not a simple list. Based on the content of 「Construction audit Self-checklists」, construction auditors provide some descriptions about improvable items using colloquial words. Regarding the way to issue the construction audit sheet, it is time-consuming and makes related personnel inclined to misunderstand.
The purpose of this paper is using the computer search engine with three methods to retrieve the closest results based the feature from 765 items. Firstly, we will use the feature to associate with characteristics. This research applied Yahoo! Search technology (e.g. API) to have 9334 key words. Based on the result we are able to conduct the classifications;Secondly, we will build up a terminology bank to conduct the classifications. Last, we will combine above-mentioned two methods. We are getting the content of bad quality and using the similarity of numbers by TF*IDF(term frequency–inverse document frequency). Then we will analyze four distance formula from Data-Mining, including cosine similarity, Euclidean distance, City Blok Distance and dot product, scalar product, inner product.
To probe the efficiency of getting key words & four distance formulas.We will conduct experience based on real case data of the construction audit sheet by writing & collecting the numbers by artificial interpretation.To sum up, there is nearly 82.72% chance to help users sharply lower their workload and improve performance applying Euclidean distance. Moreover, using the keyword database of expert terminology will make it more effective to identify the numbers, and raise the accuracy rate of identification.

第1章 前言 1
1.1. 研究目的 1
1.2. 研究方法與流程 3
1.2.1. 工程查核缺失編號關鍵字之擷取 3
1.2.2. 工程查核缺失編號自動化之建置 3
1.2.3. 論文架構 3
第2章 文獻回顧 5
2.1. 公共工程施工品質管理制度 5
2.1.1. 施工品質管理制度之發展與現況 5
2.1.2. 品質查核相關法規及作業程序 6
2.2. 文件自動分類 8
2.3. 特徵的選取 9
2.4. 分類法 11
2.4.1. 決策樹 (Decision Tree) 11
2.4.2. 類神經網路 11
2.4.3. 貝氏分類(Bayes theorem) 11
2.4.4. LLSF(Linear Least Square Fit) 12
2.4.5. 向量空間模型(Vector Space Model,VSM): 12
2.4.6. SVM(support Vector Machine): 12
2.4.7. K-最鄰近法(K-Nearest Neighbor,KNN): 13
2.4.8. 新聞文件自動分類 13
2.5. 距離公式 14
2.5.1. 餘弦法(cosine similarity) 14
2.5.2. 歐基里德距離(Euclidean distance) 14
2.5.3. 曼哈頓距離 15
2.5.4. 內積法 16
2.6. 中文斷詞系統 17
第3章 研究方法 18
3.1. 工程查核缺失內容關鍵字之擷取 18
3.1.1. 中文斷詞建立關鍵字 18
3.1.2. 專家語詞 19
3.2. 工程查核缺失編號自動化之建置 19
3.2.1. 權重之運算 19
3.2.2. 距離公式之應用 20
3.2.3. 公式運用及範例說明 21
第4章 實例驗證 29
4.1. 資料收集 29
4.2. 特徵萃取( Feature extraction ) 29
4.3. 初步執行成果與分析 30
4.4. 第二次執行成果及分析 32
4.5. 修正後結果 42
第5章 結論與建議 44
參考文獻 46
附錄一、施工查核紀錄表上網填報程序 49
附錄二、工程施工查核小組查核品質缺失扣點紀錄表 52
附錄三、關鍵字表列 75
附錄四、專家語詞 80

[1]行政院公共工程委員會(2008)。政府採購法。台中:五南書局。
[2]行政院公共工程委員會(2008)。全民督工公共工程實施方案。台中:五南書局。
[3]行政院公共工程委員會(2008)。工程施工查核小組作業辦法。台中:五南書局。
[4]行政院公共工程委員會(2008)。工程施工查核小組組織準則。台中:五南書局。
[5]行政院公共工程委員會(2008)。公共工程施工品質管理作業要點。台中:五南書局。
[6]行政院公共工程委員會(2008)。工程施工查核小組績效考核作業要點。台中:五南書局。
[7]陳淑美,「財經新聞自動分類之研究」,國立台灣大學圖書資訊系碩士論文,1991
[8]楊雪花,「模糊理論結合遺傳演算法應用於中文自動化分類之研究」,國立中央大學碩士論文,1997。
[9]林頌堅,「自動化文件分類在資訊服務上的應用」,資訊傳播與圖書館學季刊,五卷二期,p.87-102,1998
[10]杜海倫,「以標題進行新聞自動分類」,國立清華大學碩士論文,1999。
[11]柯淑津和陳振南,「階層式文件自動分類之特徵選取研究」,第十二屆計算語言學研討會論文集,p.137-149,1999
[12]古倫維,「中英文新聞文件主題偵測方法之研究」,國立台灣大學碩士論文,2000。
[13]王稔志和張俊盛,「適應性文件分類系統」,第十四屆計算語言學研討會論文集,p.99-121,2001
[14]許雅芬,「新聞文件自動分類之研究」,東吳大學資訊科學系碩士論文,2002 。
[15]侯勝彬(2003)。從工程查核的角度探討公共工程品質常見的缺失。朝陽科技大學,霧峰。
[16]林政男,「以共現語詞為基礎的特徵選取在文件自動分類上之研究」,銘傳大學資訊管理系碩士論文,2004。
[17]許峰益,「利用同現詞解析進行主題詞文集文件分類之研究--以多義詞為例」,元智大學資訊工程系碩士論文,2005。
[18]郭瓊蓉,「文件分類於電子化政府之應用:以政府機關市長信箱民眾陳情案件為例」,國立中山大學資訊管理系碩士論文,2006。
[19]林卓彥,「自動分類方法之比較」,國立中正大學資訊工程系碩士論文,2005
[20]黃子洋,「自動分類文件收集器應用於適應性文件分類」,國立臺灣科技大學資訊工程系碩士論文,2007。
[21]陳麒偉,「考慮個人偏好因素之多重文件分類方法」,國立成功大學資訊管理系碩士論文,2008。
[22]黃三益,「利用文件探勘技術來自動分類民眾陳情文件」,國立中山大學資訊管理學系碩士論文,2008。
[23]廖政昱,「利用基因演算法輔助生物文件分類-以菇菌及毒蕈資料為例」,亞洲大學生物資訊系碩士論文,2009。
[24]梁清福,「利用多重分類器之文件自動分類」,中國文化大學資訊管理研究所碩士論文,2009。
[25]Apte’, C., F. Damerau & S. M. Weiss, “Automatic Learning of Decision Rules for Text Categorization,” Journal of ACM Translation Information System, 12(3), pp. 233-251, July 1994
[26]Burstein, J., Marcu, D., Andreyev, S. & Chodorow M., “Towards Automatic Classification of Discourse Elements in Essays,” In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, pp. 1-8, 2001
[27]Chen, A., J. He, L. Xu, F. C. Gey & J. Meggs, “Chinese Text Retrieval Without Using a Dictionary, ” In Proceedings of ACM International Conference on Research and Development in Information Retrieval, Philadelphia PA, USA, pp. 42-49, 1997
[28]Dasigi, V. & R. C. Mann, “Nerual Net Learning Issues in Classification of Free Text Documents,” In Proceedings of AAAI 1996 Sprint Symposium on Machine Learning in Information Access, pp. 101-103, March, 1996.
[29]Frakes, W. B. & R. Baezay, Information Retrieval: Data Structures and Algorithms, Prentice-Hall, 1992.
[30]Hull, D., “Improving Text Retrieval for the Routing Problem using Latent Semantic Indexing,” In Proceedings of SIGIR’94, pp. 282-291, 1994.
[31]Jun Wang and Jun Wang, "A linear assignment clustering algorithm based on the least similar cluster representatives," Systems, Man and Cybernetics, Part A, IEEE Transactions on, vol. 29, pp. 100-104, 1999.
[32]Jyh-Jong Tsay & Jing-Doo Wang, “Design and Evaluation of Approaches to Automatic Chinese Text Categorization.” Computational Linguistics and Chinese Language Processing Vol. 5, No. 2, pp. 43-58, August 2000。
[33]J.G. Conrad et al., "Effective document clustering for large heterogeneous law firm collections," Proceedings of the 10th international conference on Artificial intelligence and law, pp. 177-187, 2005.
[34]Jieh-Haur Chen & S.C. Hsu, “Hybrid ANN-CBR model for disputed change orders in construction projects.” Automation in Construction 17th, pp. 56-64, March 2007。
[35]J. Chen and S. Hsu, "Hybrid ANN-CBR model for disputed change orders in construction projects," Automation in Construction, vol. 17, pp. 56-64, November 2007
[36]Saaty, Thomas L. (1999). Decision Making for Leaders: The Analytic Hierarchy Process for Decisions in a Complex World. Pittsburgh, Pennsylvania: RWS Publications.
[37]Sebastiani, F., “Machine Learning in Automated Text Categorization,” ACM Computing Sruveys, Vol. 34, No. 1, pp. 1-47, March 2002
[38]Weiss, S. A., S. Kasif & E. Brill, “Text Classification in USENET Newsgroups: A Progress Report,” In Proceedings of AAAI 1996 Sprint Symposium on Machine Learning in Information Access, pp. 125-127, 1996.
[39]Yiming Yang & Jan O. Pedersen, “A Comparative Study on Feature Selection in Text Categorization.” Proceeding of 14th International Conference on Machine Learning, 1997。
[40]Zhao and Karypis, "Empirical and Theoretical Comparisons of Selected Criterion Functions for Document Clustering," Machine Learning, vol. 55, pp. 311-331, June 2004.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top