(54.236.58.220) 您好!臺灣時間:2021/03/08 08:43
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:王偉全
研究生(外文):Wei-Chuan Wang
論文名稱:文件抄襲偵測
論文名稱(外文):Document Plagiarism Detection
指導教授:林志麟林志麟引用關係
學位類別:碩士
校院名稱:元智大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2006
畢業學年度:94
語文別:中文
論文頁數:50
中文關鍵詞:抄襲偵測複製偵測副本偵測文件抄襲文件基因序列
外文關鍵詞:copy detectionduplicate detectionplagiarism detection
相關次數:
  • 被引用被引用:1
  • 點閱點閱:609
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
隨資訊技術與網路之普及,數位出版已成為散播資訊的方式之一,許多文件之數位化版本都可在網路上看到。雖然數位資訊的流通與取得十分便利,卻也因此造成文件內容更容易被擷取、複製後再散佈,此類行為不僅侵權,更是對原著者的不尊重。為加強對知識產權的保護,本研究利用生物資訊領域關於基因序列比對之觀念,提出「文件基因序列」的方法,針對數位文件內容設計一偵測系統,比對出可能有抄襲情形之文件。經實驗及人工檢視後,證明本系統可偵測出兩文件內容相近與改寫的部份。
With the growing of Internet technology, E-publish has been becoming a popular way of broadcasting information, and people can easily access digital version of a document on the web. It is very convenient to retrieve information now, but this also makes it easy to duplicate or distribute the content of digital documents. In order to protect Intellectual Property Right of digital documents, the purpose of this study is to construct a system to detect plagiarism candidates by using Chinese tokenization and sequence alignment algorithm.
目錄
1. 緒論 1
1.1. 研究背景與動機 1
1.2. 研究目的與構想 1
1.3. 論文架構 2
2. 文獻探討 3
2.1. 詞頻統計的方法 3
2.2. 字串比對的方法 4
2.3. 逐句比對的方法 5
3. 研究方法與系統實作 9
3.1. 文件近似之類型 9
3.2. 相關理論與方法 11
3.2.1. 文件基因序列 11
3.2.2. 序列比對演算法 12
3.2.3. 中文斷詞 14
3.3. 系統實作 15
3.3.2. 資料集擷取子系統 16
3.3.3. 抄襲偵測子系統 21
3.3.4. 人工檢視子系統 24
4. 實驗 27
4.1. 實驗設計 27
4.1.1. 資料集之擷取 27
4.1.2. 實驗之資料集 28
4.2. 實驗一:不同資料集測試 29
4.2.1. 實驗方法 29
4.2.2. 實驗結果 31
4.2.3. 實驗小結 38
4.3. 實驗二:不同詞庫測試 40
4.3.1. 實驗結果 40
4.3.2. 實驗小結 42
5. 結論與未來研究方向 45
5.1. 結論 45
5.2. 未來研究方向 47

圖目錄
圖1 資料集擷取子系統運作流程 17
圖2 資料集擷取子系統執行畫面 21
圖3 抄襲偵測子系統運作流程 22
圖4 抄襲偵測子系統執行畫面 23
圖5 人工檢視子系統執行畫面 25
圖6 CCS長度條件和正確率的關係圖(數位版權管理) 33
圖7 CCS長度條件和正確率的關係圖(資料探勘) 35
圖8 CCS長度條件和正確率的關係圖(腸病毒感染) 37
圖9三組資料集之CCS長度條件與正確率的關係圖 38
圖10 以新詞庫斷詞,CCS長度條件與正確率之關係圖 42
圖11 原詞庫與新詞庫其CCS長度條件與正確率之比較圖 43

表目錄
表1 CCS長度條件和正確率的關係(數位版權管理) 32
表2 CCS長度條件和正確率的關係(資料探勘) 34
表3 CCS長度條件和正確率的關係(腸病毒感染) 37
表4 以新詞庫斷詞,CCS長度條件與正確率之關係 41
表5 原詞庫與新詞庫其CCS長度與正確率之比較 43
1.Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse and Geoffrey Zweig, “Syntactic clustering of the Web,” Proceedings of the 6th International World Wild Web Conference, Apr 1997.
2.Andrei Z. Broder, “Identifying and Filtering Near-Duplicate Documents,” CPM 2000, LNCS 1848, pp. 1-10, 2000
3.Daniel R. White and Mike S. Joy, “Sentence-Based Natural Language Plagiarism Detection,” Educational Resources in Computing, Vol. 4, No. 4, December 2004
4.Dennis Fetterly, Mark Manasse and Marc Najork, “On the Evolution of Clusters of Near-Duplicate Web Pages,” Proceedings of the First Latin American Web Congress, 2003
5.Hui Yang and Jamie Callan, “Near-Duplicate Detection for eRulemaking,” Proceedings of the 2005 national conference on Digital government research, 2005.
6.Narayanan Shivakumar and Hector Garcia-Molina, “SCAM:A Copy Detection Mechanism for Digital Document,” Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL''95) , June 1995.
7.Rex A.Dwyer, Genomic Perl:From Bioinformatics Basics to Working Code, Cambridge University Press, New York, 2003.
8.Gynthia Gibas, Per Jambeck著,生物資訊電腦技術,李士杰、林仲彥譯,歐萊禮,台北市,民國91年。
9.Sara Baase著,計算機演算法,黃曲江譯,格致圖書。
10.盧錦隆,「基因序列比對的演算法」,科學發展,396期。
11.楊承逸,「相似網頁偵測」,國立中正大學資訊工程研究所,碩士論文,2003。
12.張智星,「資料群聚與樣式辨認」,http://www.cs.nthu.edu.tw/~jang。
13.趙坤茂,「Dynamic-Programming Strategies for Analyzing Biomolecular Sequences」,http://www.csie.ntu.edu.tw/~kmchao/seq04spr/dp.ppt。
14.周錫令,「對朱德熙著《語法答問》中一個論斷的質疑」,http://www.nlp.org.cn/docs/docredirect.php?doc_id=301。
15.蔡志浩,「MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm」,http://technology.chtsai.org/mmseg/。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔