(34.236.244.39) 您好!臺灣時間:2021/03/09 19:17
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:陳志凱
研究生(外文):Chih-kai Chen
論文名稱:法院判決文書之中文姓名辨識技術研究
論文名稱(外文):Court judgement documents of Chinese personal name Recognition Technology
指導教授:柯淑津柯淑津引用關係
指導教授(外文):Sue-jin Ker
學位類別:碩士
校院名稱:東吳大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2010
畢業學年度:98
語文別:中文
論文頁數:26
中文關鍵詞:法院判決文書中文姓名辨識知識庫模式機率模式
外文關鍵詞:courtjudgement documentchinese personal name reconginzedkonwledge modelprobility mode
相關次數:
  • 被引用被引用:1
  • 點閱點閱:357
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
中文斷詞不似英語可用空白字元做為分隔字元,故中文辨識精確率取決於中文斷詞之正確性高低,而一般中文辨識為提高其正確率,係針對辨識新聞類別、辨識姓名及辨識區域等不同專有名詞之使用目的、方法及範圍做不同之研究,且皆有不錯的辨識效果。
司法院為兼顧公開法院判決文書及保護個人隱私之目標,致力於遮隱裁判書姓名,然而司法院目前依現有之人力及成本,無法完成逐案審核並遮隱其姓名,本研究期能利用目前中文辨識技術之知識庫模式及機率模式,研究自動辨識出法院判決文書內之所有姓名。
本研究分別利用知識庫模式及混合模式(知識庫模式及機率模式)針對某法院之判決書電子檔共641筆做姓名辨識,此兩種模式經實驗數據顯示其精確率、召回率及F-測量皆高達97%以上,表此實驗模式應屬可行。
Chinese word does not like English word can be separated with whitespace. Therefore, the accuracy level of recognizing Chinese words depends on if phrases composed of Chinese words can be correcly identified. Most Chinese recognition techonologies use various researches on recognizing phrases according to how they are used and their purpose to improve accuracy rate and have good results.
To meet the requirement of making the court ruling public while protect the privacy of individuals in the case, Judicial Yuan has been working on censoring names in court documents. However, it is impossible to achieve the goal with limited staff and budget. The research is aimed to apply current Chinese recognition technologies' konwledge base and probability model to develop a system to automatically recognize personal names in documents of court judgement.
This study integrated knowledge base and probability model to recognize the personal name of court judgement document.The experimental result of both models can achieve 97% percision.
誌謝 I
中文摘要 II
英文摘要 III
表目錄 VI
圖目錄 VII
1.緒論 1
1.1研究動機與目的 1
1.2 論文架構 3
2.文獻探討 4
2.1 統計式作法 4
2.2 法則式作法 5
3.研究資源與觀察 8
3.1 法院判決電子檔格式說明 8
3.2 研究資源觀察 10
4.研究方法 12
4.1 知識庫模式 12
4.2 混合模式 17
5.實驗與結果討論 19
5.1 實驗資料 19
5.2 實驗設計 20
5.3 結果實驗 20
參考文獻 24
附錄A STOPWORD 25
A.1 標點符號 25
A.2 特定用語 25
A.3 連續用語 25
附錄B 稱謂/頭銜 26
B.1 二字詞 26
B.2 三字詞 26
B.3 四字詞 26
1.Lee, C. J., Chang, J. S., and Jang, J. R., "Alignment of bilingual named entities in parallel corpora using statistical models and multiple knowledge sources", ACM Transactions on Asian Language Information Processing (TALIP) , Vol.5, No.2, pp. 121-145, 2006。
2.Chen, C., Lee, H. J., "A Three-Phase System for Chinese Named Entity Recognition", The Association for Computational Linguistics and Chinese Language Processing, 2004。
3.Wu, Y., Zhao, J., and Xu, B., "Chinese Named Entity Recognition combining a statistical model with human knowledge",Proceedings of the ACL 2003 workshop on Multilingual and mixed-language named entity recognition, Vol.15, pp. 65-72, 2003。
4.已任,"台灣姓氏1989個",編輯學報,pp.142-143,2007。
5.毛婷婷、李麗雙、黃德根,"基於混合模型的中國人名自動識別",中文訊息學報,Vol. 21 , No. 2,pp.22-28,2007。
6.牛正雨、柴佩琪,"文語轉換系統中的中文姓名識別",計算機應用研究,pp.25-26,2001。
7.王源媛、何中市,"基于詞性探測的中文姓名識別算法",計算機科學,Vol.32,No.4,pp.84-86,2005。
8.司法院,"司法院裁判書公開原則之說明","http://jirs.judicial.gov.tw/GNNWS/NNWSS002.asp?id=923",2004年2月13日。
9.司法院,"裁判書公開兼顧個人隱私", "http://jirs.judicial.gov.tw/GNNWS/NNWSS002.asp?id=9831",2007年07月05日。
10.司法院,"裁判書類通俗化範例彙編(二)",2003年12月。
11.吳芬芬、劉磊,"基於神經網路的中文姓名抽取技術",吉林大學學報, Vol.44,No.3,pp.411-414,2006。
12.李中國、劉穎,"邊界模板和局部統計相結合的中國人名識別",中文訊息學報,Vol.20,No.5,pp.44-50,2006。
13.李振昌、李御璽及陳信希,"中文文本人名辨識問題之研究",第七屆計算機語言會議論文集,pp.203-222,1994。
14.季姮、羅振聲,"基於統計和規則的中文姓名自動辨識",語言文字應用 Vol2,No1,pp.14-18,2001。
15.邱中人,2000,"中文新聞群組自動摘要",國立清華大學資訊工程學系碩士論文。
16.孫茂松、黃昌寧、高海燕及方捷,"中文姓名的自動辨識",中文信息學報,Vol.9,No.2,pp.16-27,1992。
17.梁婷、葉政輝及吳典松,"以語料為本的中文專有詞分類",中華民國92年全國計算機會議,2003。
18.陳大任,"多層架構之中文具名實體辨識",國立交通大學資訊工程學系碩士論文,2003。
19.黃德根、楊元生、王省、張艷麗、鐘萬勰,"基於統計方法的中文姓名識別",中文訊息學報,Vol.15,No.2,pp.31-37,44,2001。
20.鄭家恒、劉開瑛,"漢語姓名自動辨識初探",漢語文字運用1994年第2期,1994。
21.羅智勇、宋柔,"一種基於可信度的人名識別方法",中文信息學報,Vol.19,No.3,pp.67-72,86,2005。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔