跳到主要內容

臺灣博碩士論文加值系統

(44.212.96.86) 您好!臺灣時間:2023/12/07 02:34
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:林義傑
研究生(外文):LIN, YI-CHIEH
論文名稱:資料探勘技術應用於營業人員違規交易預警模式之建構
論文名稱(外文):A Construction of a Prediction Module of Early Warning for Illegal Transactions by Using Data Mining Techniques
指導教授:李御璽李御璽引用關係
指導教授(外文):LEE,YUE-SHI
口試委員:左聰文胡秀華
口試委員(外文):TSO, TSUNG-WENHU, HSIU-HUA
口試日期:2019-06-12
學位類別:碩士
校院名稱:銘傳大學
系所名稱:國際企業學系碩士在職專班
學門:商業及管理學門
學類:企業管理學類
論文種類:學術論文
論文出版年:2019
畢業學年度:107
語文別:中文
論文頁數:98
中文關鍵詞:違規預警文字探勘非結構化大數據
外文關鍵詞:Warning ModelText MiningUnstructuredBig Data
相關次數:
  • 被引用被引用:0
  • 點閱點閱:276
  • 評分評分:
  • 下載下載:8
  • 收藏至我的研究室書目清單書目收藏:1
隨著資訊科技與網路的發展,「資料儲存成本」與「資料取得成本」逐年下降,催 生了大數據的興起。也因為數據的取得不再是科學研究最大的難處,如何「探勘」巨量 數據,並成功地「解釋」分析結果,成為新的挑戰與研究重點。
龐大的訊息正以巨量的程度成長,其中尤以非結構化文字的資料數量最為驚人。如 何利用自動化文字探勘技術應用於非結構化資料之處理,並輸出有用的預測或趨勢資 訊,近年已成為熱門的討論與研究議題。各級法院的判決書也是屬於非結構化文字資 料,對於此類非結構化資料,如何以文字探勘技術去分析、建構判決書分類並導出違規 交易的預警模型,是本文主要研究之目的。營業人員觸犯的刑事案件類型中,以偽造文 書之犯罪類型最為常見,其行為依循公司日常的作業中發生,往往被輕視忽略,管理階 層總是在被動得知後,才發見問題的嚴重性。
因此,本文將以營業人員觸犯偽造文書之法院判決書為文字探勘對象,利用結巴斷 詞演算法(Jieba)、 TF-IDF,嘗試探求判決書分類之關鍵字詞,將文字資訊轉為數值化使 用,並利用決策樹(Decision Tree)、支持向量機(Support Vector Machine)、簡單貝葉斯(Naive Bayes)之分類方法及 CRISP-DM 流程等技術與研究方法,以提供建構自動化判決書分類 及提出違規交易預警參考模型,以呈現出探勘法院判決書之價值與知識。
With the development of information technology and the Internet, the "cost of data storage" and "cost of data acquisition" have been declining year by year, which has spawned the rise of Big Data. Also, because obtaining data is no longer the biggest difficulty in scientific research, how to "explore" huge amounts of data and successfully "interpret" the results of analysis becomes a new challenge and research focus.
The huge amount of information is growing now, and the amount of unstructured text is the most amazing. How to use automated word-searching techniques to apply unstructured data and output useful predictions or trend information has become a hot topic of discussion and research in recent years. The judgments of the courts at all levels are also unstructured texts. For such unstructured materials, how to use Text Mining to analyze the judgments, construct the classification of judgments and to derive the early warning model of illegal transactions is the main purpose of this paper. Among the types of criminal cases that are committed by salesmen, the types of crimes that are forged by documents are the most common. Their behaviors follow the daily operations of the company and are often ignored. The management is always passively aware of the seriousness of the problem.
Therefore, I will use the court judgment for forging documents as the training and testing data, then use the techniques of Jieba, TF-IDF, trying to find the keyword words of the judgments, turning the text information into numerical use, and use Decision Tree, Support Vector Machine, Naive Bayes, CRISP-DM and other techniques and research methods, to provide the construction of automatic judgment classification and propose a warning model for the violation of the transaction, to present the value and knowledge of exploring the judgment of the court.
誌謝 I
摘要 II
Abstract III
目錄 IV
圖目錄 V
表目錄 VII
第壹章 緒 論 1
第一節 研究背景與動機 1
第二節 研究目的 6
第三節 研究範圍 8
第四節 研究流程 10
第貳章 文獻探討 12
第一節 文字探勘在判決書上之應用─以著作權法民事賠償為中心 12
第二節 以文字探勘技術產製求/量刑因子之研究—以我國智慧財產權法律為中心探討 14
第三節 基於文字探勘技術探討司法裁判書之撰寫一致性 15
第四節 大數據文字探勘方法分析我國死刑判決初探 16
第五節 營造工程類法學判決書搜尋系統之研發 17
第六節 判決書之探勘分析與量刑迴歸模型之建立 ~以法院毒品判決書為例 18
第參章 研究方法 20
第一節 研究流程與技術架構 20
第二節 探勘對象判決書之內容說明 21
第三節 技術背景說明 24
第四節 研究方法 37
第五節 研究架構 CRISP-DM 54
第肆章 資料分析與研究結果 57
第一節 判決書蒐集說明 57
第二節 資料前置處理:判決書斷詞、詞性標註 66
第三節 關鍵字詞之選擇與數值化 70
第四節 模型建立、測試與評估 71
第伍章 結論與建議 82
參考文獻 86
中文文獻:
1.51CTO 博客作者 langiner,2010。中文分詞技術一席談之典型分詞方法漫談,51CTO 博客,2019年5月8日,網址:https://blog.51cto.com/langiner/380563.
2.CSDN, 2018。隨機抽樣驗證示意圖,2019年5月8日,網址:https://ithelp.ithome.com.tw/articles/10197461.
3.CSDN 博主作者 zouxy09,2012。語音識別的基礎知識與 CMUsphinx 介紹,CSDN 博主,2019年5月8日,網址:https://blog.csdn.net/zouxy09/article/details/7941585.
4.Python 技術交流與分享,2017。多項式座標轉換,2019年5月8日,網址:http://www.feiguyunai.com/index.php/2017/10/25/pythonai-svm01/.
5.王正嘉,2017。大數據文字探勘方法分析我國死刑判決初探,法學研討會資訊平台,2017 台灣死刑判決研討會,2019年5月8日,網址:https://www.taedp.org.tw/story /10207.
6.王建興,2014。從搜尋引擎到文字探勘,電週文化事業(iThome),2019年4月4日, 網址:https://www.ithome.com.tw/voice/90846.
7.王曉龍、關毅,2005。計算機自然語言處理,清華大學出版社,第1版,71-72。
8.台部落,2018。結巴(Jieba)漢語詞性對照表,2019年4月4日,網址:https://www.twblogs.net/a/5b8685412b71775d1cd58541.
9.司法院,2019。判決書查詢系統,2019年2月28日,網址:https://law.judicial.gov.t w/default.aspx.
10.李御璽,2016。CDA 數據分析師人工智能實戰─文本分析,CDA 數據分析研究院。
11.周思源,2006。T3 台語剖析樹語料庫與 Brill 詞類標記,國立清華大學統計學研究所碩士論文。
12.周濟群、戚玉樑、曾建勛,2012。以詞彙表為基礎的知識本體雛型建構研究─以「公司治理」領域知識為例,圖書資訊學研究,6卷2期,37-81。
13.官大鈞,2016。機器學習原理、案例、應用,eBizprise Inc. & eBizprise Technology (TJ) Ltd. ,2019年4月4日,網址:https://fr.slideshare.net/TACHUNKUAN/machine-lea rning-63687570.
14.林婷嫻、張語辰,2019。斷開中文的鎖鍊!自然語言處理,研之有物(網站) ,2019年4月4日,網址:http://research.sinica.edu.tw/nlp-natural-language-processing-chines e-knowledge-information/.
15.林筱瓴,2013。文字探勘在判決書上之應用-以著作權法民事賠償為中心,國立臺灣大學法律學院科際整合法律學研究所碩士論文。
16.法務部,2018。地方檢察署偵查起訴人數,2019年2月1日,網址:http://www.rjsd.moj.gov.tw/RJSDWeb/common/WebList3_Report.aspx?list_id=805.
17.法務部,2018。地方檢察署執行裁判確定有罪人數,2019年2月1日,網址:http://www.rjsd.moj.gov.tw/RJSDWeb/common/WebList3_Report.aspx?list_id=807.
18.法務部統計手冊,2017。地方法院檢察署執行裁判確定有罪者之職業─年別,2019年2月1日,網址:http://www.rjsd.moj.gov.tw/rjsdweb/book/Book_Detail.aspx?book_i d=259.
19.法源法律網,2019。裁判書查詢系統,2019年2月28日,網址:https://fyjud.lawban k.com.tw/index.aspx.
20.邱高生,2010。量化分析,為何樣本數要大於等於30?PCHome個人新聞台,2019年6月6日,網址:http://mypaper.pchome.com.tw/jacobchiu999/post/1321044098/.
21.邱福賢,2012。有效釐清偵查方向、提升偵查效能之刑案資料探勘技術,刑事雙月刊51期,29卷2期,26-31。
22.帥嘉珍、陳杏枝、陳睿烽,2014。宗教社群網站內容分析-以北港朝天宮為例,明新學報,40卷2期,151-161。
23.施雅月、賴錦慧,2007。資料探勘,歐亞出版社。
24.柯禹伸,2011。使用文字探勘技術預測股票漲跌之研究,北臺灣科學技術學院電 子商務研究所碩士論文。
25.胡雅涵、黃正魁、楊承翰,2014。以基因演算法為基礎建立自動化文件分類模式,資訊管理學報,21卷3期,305-340。
26.郭榮彥,2017。法律大數據資料結構化是第一步,法律白話文運動(網站),2019年6月6日,網址:https://plainlaw.me/2017/03/06/law-bigdata/.
27.陳言熙,2007。運用文字探勘技術協助建構公司治理本體知識,國立政治大學會計研究所碩士論文。
28.陳宗權、陳俊育,2016。運用文本探勘技術探索未來科技,科技部105年度自行研究計畫成果報告。
29.陳怡廷、陳麗如、吳姿瑩,2016。從部落格探索客家旅遊目的地意象之研究—自然 語言處理的方法與應用,戶外遊憩研究,29卷2期,81-111。
30.陳政瑜,2015。基於文字探勘技術探討司法裁判書之撰寫一致性,國立臺灣大學資訊管理學研究所碩士論文。
31.博客園,2018。跨產業的數據挖掘標準處理流程,2019年5月8日,網址:https://www.cnblogs.com/anovana/p/8515629.html.
32.曾元顯,2004。文字知識探勘與自動化資訊組織研究成果,輔仁大學曾元顯個人網頁,2019年6月6日,網址:http://blue.lins.fju.edu.tw/~tseng/ResearchResults/index.htm.
33.黃玉婷,2012。以文字探勘技術產製求/量刑因子之研究—以我國智慧財產權法律為中心探討 ,東吳大學法律學系碩士在職專班科技法律組碩士論文。
34.黃嘉彥、楊竣徨,2013。運用文字探勘建置專利技術功效矩陣之成效評估,創新與經營管理學刊,4卷2期,162-176。
35.管瓊瑛、謝寧、陳潔、張桂萍、高翊瑋、謝邦昌、張嘉芳、張耀懋,2017。長期照顧政策是照顧老人還是失能者?-以蔡英文臉書為例探勘民眾認知,臺灣公共衛生雜誌,36卷5期,511-520。
36.劉姿蘭,2009。應用文字探勘技術於疾病分類自動編碼之研究,國立成功大學工業與資訊管理學系專班碩士論文。
37.蔡惠娟,2016。營造工程類法學判決書搜尋系統之研發,國立中興大學土木工程學系所碩士論文。
38.蕭惠如,2017。應用文字探勘於資訊管理領域研究趨勢,銘傳大學資訊管理學系碩士在職專班碩士論文。
39.諶家蘭,2012。導入國際會計準則之資訊揭露-應用資料探勘與文字探勘技術,會計研究月刊,318期,38-43。
40.謝吉隆、楊苾淳,2018。從「應變自然」到「社會應變」:以文字探勘方法檢視國內風災新聞的報導演變,教育資料與圖書館學,55卷3期,285-318。

英文文獻:
1.Cortes, C., Vapnik, V., 1995. Support-vector networks, Machine Learning., 20(3), 273-297.
2.Joachims, T., 1998. Text categorization with Support Vector Machines: Learning with many relevant features, Springer-Verlag Berlin Heidelberg, 137-142, retrieved May 8, fro m https://link.springer.com/chapter/10.1007/BFb0026683.
3.Moreira, D., Silva, J., and Massada, M., 2016. Classification of knee arthropathy with acc elerometer-basedvibroarthrography, The pHealth Conference, 41-42, retrieved June 6, from https://www.semanticscholar.org/paper/Classification-of-knee-arthropathy-with-More ira-Silva/1200b180589e164d419f46d869432b5f7d520c20.
4.Navlani, A., 2018. Support Vector Machines with Scikit-learn, Data Camp, retrieved Apri l 1, from https://www.datacamp.com/community/tutorials/svm-classification-scikit-learn-p ython.
5.Salton, G., and Buckley, C., 1988. Term weighting approaches in automatic text retrieval. Information Processing and Management, 24(5), 513-523.
6.Salton, G., and McGill, M.J., 1983. Introduction to Modern Information Retrieval. McG raw-Hill Book Co., New York.
7.SlidePlayer.com, 2019. Learning Phase Learning - Decision Tree, retrieved May 8, from: https://slideplayer.com/slide/3429895/.
8.SlidePlayer.com, 2019. Testing Phase Testing (Classification) - Decision Tree, retrieved May 8, from:https://slideplayer.com/slide/3429895/.
9.Sullivan, D., 2001. Document Warehousing and Text Mining, New York: John Wiley & Sons, Inc.
10.Velickov, S., and Solomatine D., 2000. Predictive Data Mining: Practical Examples, 
International Institute for Infrastructural, Hydraulic, and Environmental Engineerin g, 2-3, retrieved April 4, from https://www.researchgate.net/publication/254825062_Predi ctive_Data_Mining_Practical_Examples.
11.Verleysen, M., and François, D., 2005. The curse of dimensionality in data mining and tim e series prediction. In Computational Intelligence and Bioinspired Systems, Springer-Verlag Berlin Heidelberg, 758-770, retrieved June 6, from https://link.springer.com/cha pter/10.1007/11494669_93.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊