跳到主要內容

臺灣博碩士論文加值系統

(44.220.251.236) 您好!臺灣時間:2024/10/05 10:42
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:王安定
研究生(外文):Wang, An-Ding
論文名稱:判決書之探勘分析與量刑迴歸模型之建立~以法院毒品判決書為例
論文名稱(外文):Text Mining of Court Judgments and Regression Model for Judicial Sentence: An Example from Judgments on Narcotics Crimes
指導教授:壽大衛壽大衛引用關係
指導教授(外文):Shou, Ta-Wei
口試日期:2016-06-08
學位類別:碩士
校院名稱:臺北市立大學
系所名稱:資訊科學系碩士在職專班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2016
畢業學年度:104
語文別:中文
論文頁數:70
中文關鍵詞:大數據資料探勘統計迴歸量刑預測
外文關鍵詞:Big DataText MiningStatistical regressionSentencing Prediction
相關次數:
  • 被引用被引用:10
  • 點閱點閱:2654
  • 評分評分:
  • 下載下載:365
  • 收藏至我的研究室書目清單書目收藏:3
在大數據的時代裡,透過電腦產生的資料量正以巨量的程度直線成長,其中尤以非結構化文字的形態數量最為驚人。如何利用自動化文字探勘技術應用於非結構化資料之處理,並輸出有用的預測或趨勢資訊,已成為近年來熱門的討論與研究議題。法院的判決書也是非結構化文字資料的一種,對於此類非結構化資料如何以文字探勘技術去分析、建構判決書分類模型及以迴歸統計方式導出量刑公式,以公平的量刑對待被告,是本文主要研究之目的。在法院的案件類型中,以毒品判決之犯罪類型最為多元化,其刑度之輕重範圍也最廣。
因此,本文將以法院毒品判決書為文字探勘對象,利用TF-IDF、N-gram、統計迴歸及CRISP-DM等技術與研究方法,嘗試探求判決書分類之關鍵字詞,以提供建構自動化判決書分類及將文字資訊轉為數值化使用,並利用統計線性迴歸方法,提出量刑參考公式及因應修法後如何調整量刑模型參數,以呈現出探勘法院判決書之價值與知識。最後,為了美好的將來,本文將提出相關刑事政策及立法方向之建言,期盼可降低目前社會日益嚴重之毒品犯罪現象。
In the era of big data, the huge amount of data generated by the computer is growing very fast, especially in the unstructured text data. How to use the automated text mining techniques to process those unstructured data and output the useful information about forecasts or trend have become the hot topics of discussion and research in recent years. The court's judgments are a kind of unstructured text data. Using the text mining techniques to analyze court's judgments for creating the text classifier and then building a sentencing model for treating the defendant fairly are the main purposes of this paper. In the court, the types of drug-related judgments are the most diversified and the severity of punishment has the widest range.
Therefore, this paper will be mining the court drug judgments and use TF-IDF, N-Gram, statistical regression and CRISP-DM techniques for research methods. This paper tries to find out the key terms of court's judgments for classification. Those key terms can be used for building automated classification of judgments and changing the data format from text to numeric. The next step is use the linear regression analysis method to get the formula from those numeric data to build imprisonment sentence model and explain how to adjustment the parameter of the formula model for amendment. Those new models show the values and the knowledge of court's judgments text mining. Finally this paper offers some suggestions about criminal policy and legislative direction try to stop increasingly serious social phenomenon of drug-related crime for the better future.
Keywords: Big Data, Text Mining, statistical regression, Sentencing Prediction.
謝誌 I
摘要 II
Abstract III
表次 5
圖次 7
第一章 緒論 8
1.1研究背景與動機 8
1.2研究目的 9
1.3論文章節說明 10
第二章 文獻探討 11
2.1國外文獻部分 11
2.1.1資料探勘用於網路毒品犯罪之研究 11
2.1.2以統計迴歸分析種族量刑之差異 12
2.1.3利用TF-IDF及 N-gram等技術探勘文章之研究 13
2.1.4 美國量刑指導原則 14
2.2國內文獻部分 15
2.2.1司法院量刑資訊系統 16
2.2.2 法務部檢察官書類系統 17
2.2.3 利用機器學習於中文法律文件分類及量刑預測 18
2.2.4 以文字探勘技術產製求量刑因子 18
2.2.5基於文字探勘技術探討司法裁判書之撰寫一致性 19
2.3小結 20
第三章、研究資料、技術方法與研究架構 21
3.1整體研究流程與技術架構圖 21
3.2判決書內容說明 21
3.2.1判決書之內容 22
3.2.2判決書內容資訊說明 22
3.3技術背景說明 24
3.3.1 資料探勘(Data Mining)與文字探勘(Text Mining) 24
3.3.2文件自動分類(Automatic Classification of Text Documents) 26
3.4 研究方法 27
3.4.1文字探勘有關中文斷詞相關技術 27
3.4.1.1 N-Gram 28
3.4.1.2 MMseg斷詞系統 29
3.4.1.3中研院所開發的中文斷詞系統 (CKIP) 30
3.4.2文字探勘有關關鍵字詞與權重相關技術 31
3.4.3 關聯性法則分析(Association rule analysis) 34
3.4.4 相關分析(Correlation Analysis)、迴歸分析(Regression Analysis)與神經網路(Neural Network) 35
3.4.5研究架構 37
3.4.5.1定義問題(Business Understanding) 38
3.4.5.2定義分析資料(Data Understanding) 39
3.4.5.3資料前置處理(Data Preparation) 40
3.4.5.4建立模型(Modeling) 40
3.4.5.5評估模型(Evaluation) 40
3.4.5.6應用模型(Deployment) 42
3.5小結 42
第四章 研究結果 43
4.1資料前置處理:判決書斷詞與關聯性分析 43
4.1.1判決書斷詞 43
4.1.2關聯性分析與關鍵字詞之選擇 45
4.1.3判決書關鍵字詞之數值化 46
4.2建立量刑模型 48
4.2.1以神經網路及統計迴歸分析處理訓練資料 50
4.2.2變數之評估與選擇 55
4.2.3建立判決分類迴歸模型 57
4.3模型之測試與評估 62
4.4小結 64
第五章 結論與建議 66
參考文獻 68

[1] Berry, M. J., & Linoff, G. (1997). Data mining techniques: for marketing, sales, and customer support. John Wiley & Sons, Inc.
[2] 謝宛芷, & 胡雅涵. (2014). 文字探勘技術用於資安事件之自動化分類. 電腦稽核, (29), 92-101.
[3] 丁怡婷, & 劉志光. (2010). 文字探勘技術應用於中醫診斷腦中風之研究. Journal of Data Analysis, 5(4), 41-64.
[4] 李宜璇.(2015).文字探勘應用於台灣觀光節慶-以澎湖花火節為例(碩士論文).
[5] 劉育華.(2014).從文字探勘觀點分析臉書訊息–以台灣民間信仰的兩間宮廟為例(碩士論文).
[6] 蕭心旻.(2013).利用文字探勘在Android遊戲開發商競爭力分析之研究(碩士論文).
[7] Chuang, T. S. (2001). Discovering issue networks using data mining techniques (Doctoral dissertation, Master Dissertation, Department of Information Management, National Sun Yat-Sen University).
[8] Morselli, C., Masias, V. H., Crespo, F., & Laengle, S. (2013). Predicting sentencing outcomes with centrality measures. Security Informatics, 2(1), 1-9.
[9] 黃玉婷.(2012).以文字探勘技術產製求/量刑因子之研究—以我國智慧財產權法律為中心探討(碩士論文).
[10] 司法院.統計處. http://www.judicial.gov.tw/juds/index1.htm.
[11] 新新聞. (2015). 用大數據挽救恐龍法官的名聲, (1491), 64-67.
[12] Adegun, O. V. (2015). Immigration and sentencing: does geographical region of citizenship influence sentence longevity?.
[13] Ali, N., Price, M., & Yampolskiy, R. (2014). BLN-Gram-TF-ITF as a new Feature for Authorship Identification.
[14] Sentencing Reform Act (1999),Joseph S. Hall. Guided to Injustice? The Effect of the Sentencing Guidelines on Indigent Defendants And Public Defense, 36 Am. CRIM. L. Rev. 1331,1338.
[15] 吳巡龍.(2002). 美國的量刑公式化. 月旦法學雜誌,(85), 166-176.
[16] 林錦芳. (2011). 妨害性自主罪量刑分析研究. 刑事法雜誌, 55 (5), 17-40.
[17] 張淑君. (2011).法務部「運用文字探勘技術自動產製檢察官書類系統」簡介,政府機關資訊通報(290).
[18] 林琬真, 郭宗廷, 張桐嘉, 顏厥安, 陳昭如, & 林守德. (2012). 利用機器學習於中文法律文件之標記, 案件分類及量刑預測. 中文計算語言學期刊, 17(4),49-67.
[19] 陳政瑜.(2015).基於文字探勘技術探討司法裁判書之撰寫一致性:以刑事訴訟停止羈押聲請裁定書為例(碩士論文).
[20] Sullivan 2001 Nasukawa, T., Nagano, T., (2001), “Text analysis and knowledge mining system”, IBM System Journal, Vol. 40, No. 4.
[21] 葉乃菁, 王玳琪, 張嘉珍, 吳騏, & 賴志遠. (2009). 建構創新政策研究工具文字探勘之應用簡介. 國研科技, (22), 17-20.
[22] 周思源.(2006). T3台語剖析樹語料庫與Brill詞類標記(碩士論文).
[23] Joachims, T. (1998). Text categorization with support vector machines: Learning with many relevant features (pp. 137-142). Springer Berlin Heidelberg.
[24] 胡雅涵, 黃正魁, & 楊承翰. (2014). 以基因演算法為基礎建立自動化文件分類模式. 資訊管理學報, 21(3), 305-339.
[25] Verleysen, M., & François, D. (2005). The curse of dimensionality in data mining and time series prediction. In Computational Intelligence and Bioinspired Systems (pp. 758-770). Springer Berlin Heidelberg.
[26] 林千翔, & 張嘉惠.(2006). 基於特製隱藏式馬可夫模型之中文斷詞研究(碩士論文).
[27] Tsai, C. H. (1996). MMSEG: A World Identification System for Mandarin Chinese Text Based on Two Variations of the Maximum Matching Algorithm. Web Publication.
[28] 中央研究院.斷詞系統.http://ckipsvr.iis.sinica.edu.tw/.
[29] Salton, G.,McGill, M. J.(1983).Introduction to Modern Information Retrieval.New York, NY:McGraw Hill Book Co.
[30] Yu, J. X., Lin, X., Lu, H., & Zhang, Y. (Eds.). (2004). Advanced Web Technologies and Applications: 6th Asia-Pacific Web Conference, APWeb 2004, Hangzhou, China, April 14-17, 2004, Proceedings (Vol. 3007). Springer.
[31] Sparck Jones, K. (1972). A statistical interpretation of term specificity and its application in retrieval. Journal of documentation, 28(1), 11-21.
[32] 吳郁瑩.(1999).「網路中文超文件自動摘要之研究與實作」(碩士論文).
[33] Harris, A., & Oussalah, M. (2008, September). Automatic document summarizer. In Cybernetic Intelligent Systems, 2008. CIS 2008. 7th IEEE International Conference on (pp. 1-6). IEEE.
[34] 西內啓(Nishiuchi Hiromu). (2014). 統計學,最強的商業武器(統計学が最強の学問である). (陳亦苓, 譯者) 悅知文化.
[35] Wirth, R., & Hipp, J. (2000, April). CRISP-DM: Towards a standard process model for data mining. In Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining (pp. 29-39)

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top