(3.238.186.43) 您好!臺灣時間:2021/02/28 21:32
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:張雅雯
研究生(外文):Chang, Ya-Wen
論文名稱:以Google搜尋引擎為基礎之中文剽竊偵測系統
論文名稱(外文):Development of Chinese Plagiarism Detection System
指導教授:柯皓仁柯皓仁引用關係林妙聰林妙聰引用關係
指導教授(外文):Ke, Hao-RenLin, B.M.T.
學位類別:碩士
校院名稱:國立交通大學
系所名稱:資訊管理研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2010
畢業學年度:98
語文別:中文
論文頁數:46
中文關鍵詞:Google搜尋引擎剽竊最長共同子序列
外文關鍵詞:Google search enginesPlagiarismLongest Common Subsequence (LCS)
相關次數:
  • 被引用被引用:1
  • 點閱點閱:1036
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:101
  • 收藏至我的研究室書目清單書目收藏:0
隨著資訊科技與網路的蓬勃發展,搜尋引擎強大的搜尋功能,讓資訊分享變得十分容易,但在使用者缺乏尊重他人智慧財產權觀念的情況下,網路資訊被隨意濫用的情形時有所聞。目前發展出許多不同的剽竊偵測方法,各有其優、缺點,但都針對較具有規則性的英文,而非較無規則性的中文,本研究以Google搜尋引擎為基礎建立中文剽竊系統,利用修正後的最長共同子序列(Longest Common Sequence, LCS)之概念計算搜尋引擎傳回結果與中文文件之間的相似度。實驗證明比未經修正的LCS公式,可大幅降低其假警報(False Positive)機率。期望藉由系統的實際運作,賦有教育意義地教導學生尊重他人智慧財產權。
With the advancement of information and network technology, powerful search engines facilitate information sharing. However, users who lack the concept of intellectual property rights usually abuse the information on the Internet. As so far, there are many plagiarism detection techniques, most of which focus on regular grammatical patterns in English. Few plagiarism-detection methods were developed for non-regular grammatical patterns like Chinese. This thesis builds a plagiarism detection system for Chinese documents. The proposed system is based on the search results of Google. Considering the concept of the revised longest common sequence (LCS), our system calculates the similarities between the results returned by Google and Chinese documents to be examined. The empirical studies show that the revised longest common sequence can significantly reduce the occurrences of false positives. We expect that the development of this system can teach students to respect intellectual property rights of others.
目錄
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 論文架構 2
第二章 相關研究工作 4
2.1 剽竊定義 4
2.2 剽竊偵測方法 5
2.2.1 指紋識別 6
2.2.2 詞頻統計 7
2.2.3 風格分析 9
2.2.4 ROUGE 9
2.3 剽竊系統相關研究 12
第三章 中文剽竊偵測系統實作 14
3.1 前置處理 15
3.1.1 檔案轉換 15
3.1.2 斷句 15
3.2 運用Google搜尋引擎檢索相關字句 17
3.2.1 Google Ajax Search API 17
3.3 相似度計算 22
3.3.1 最長共同子序列 22
3.3.2 全文相似度計算 24
第四章 系統發展與結果分析 25
4.1 系統簡介 25
4.1.1 系統介面介紹 25
4.2 實驗 28
4.2.1 未經修正的LCS公式實驗 29
4.2.2 問題分析 31
4.2.3 ROUGE-L與修正後的LCS公式實驗 32
4.3 討論與分析 35
第五章 結論與建議 41
5.1 結論 41
5.2 未來改進方向 42
參考資料
[1] Apache POI, http://poi.apache.org/.
[2] Broder, A. Z., Glassman, S. C., Manasse, M. S., and Zweig, G. (1997). Syntactic Clustering of the Web. Computer Networks and ISDN Systems, vol. 29, no. 8, 1157 – 1166.
[3] Brin, S., Davis, J., and Garcia-Molina, H. (1995). Copy Detection Mechanisms for Digital Documents. ACM SIGMOD Record, vol. 24, no. 2, 398 – 409.
[4] Chowdhury, A., Frieder, O., Grossman, D., and McCabe, M. C. (2002). Collection Statistics for Fast Duplicate Document Detection. ACM Transactions on Information Systems, vol. 20, no. 2, 171 – 191.
[5] CNN.com, http://edition.cnn.com/.
[6] Cormen, T. H., Leiserson C .E., and Rivest R. L. (1989) Introduction to Algorithms. The MIT Press.
[7] Docol©c,http://www.docoloc.de/.
[8] Dierderich, J. (2006). Computational Methods to Detect Plagiarism in Assessment. Information Technology Based Higher Education and Training, pp. 147–154. Sydney, Australia.
[9] Google AJAX Search API, http://code.google.com/intl/en/apis/ajax/.
[10] Lin, C.-Y. (2004) ROUGE: A Package for Automatic Evaluation of Summaries. In Proceedings of Workshop on Text Summarization Branches Out, Post-Conference Workshop of ACL 2004, pp. 74-81. Barcelona, Spain.
[11] Manber, U. (1994) Finding Similar Files in a Large File System. In Proceedings of the USENIX Winter 1994 Technical Conference, pp. 2-2. San Francisco, California.
[12] McCuen,R.H. (2008)The Plagiarism Decision Process:The Role of Pressure and Rationalization. IEEE Transactions on Education, vol. 51, no. 2, 152–156.
[13] Papineni, K., Roukos, S., Ward, T., and Zhu, W. -J. (2002) BLEU: A Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311--318. Philadephia, USA.
[14] Plagiarism.org, http://www.plagiarism.org/
[15] Rabin, M. O. (1981) Fingerprinting by Random Polynomials. Center for Research in Computing Technology, Harvard University, Report TR-15-81.
[16] Shivakumar, N., and Garcia-Molina, H. (1995) SCAM: A copy detection mechanism for digital documents. In Proceedings of the Second International Conference in Theory and Practice of Digital Libraries, Austin, Texas.
[17] Stein, B., and Meyer Zu Eissen, S. (2006) Near Similarity Search and Plagiarism Analysis. Data and Information Analysis to Knowledge Engineering, vol. 10, 430 –437.
[18] Sun, X. M., Chen, H. W., Yang, L. H., and Tang, Y. Y. (2002)Mathematical Representation of a Chinese Character and its Applications. International Journal of Pattern Recognition and Artificial Intelligence, pp.735--747.
[19] Stepchyshyn, Vera, and Nelson, Robert S. (2007) Library plagiarism policies. Association of College and Research Libraries, p. 65.
[20] TurnItIn, http://www.turnitin.com/.
[21] 中學生網站, http://www.shs.edu.tw/essay/。
[22] 中文斷詞系統,http://ckipsvr.iis.sinica.edu.tw/。
[23] 王偉全,“文件抄襲偵測",元智大學資訊管理研究所,碩士論文,2006年。
[24] 陳建穎,”以ROUGE和WordNet為基礎的N-gram共現於剽竊偵測”,國立交通大學資訊管理研究所,碩士論文,2009年。
[25] 資策會,2009年12月底止台灣上網人口,http://www.find.org.tw/find/home.aspx?page=many&id=219。
[26] 劉奕廷,“以搜尋引擎進行剽竊模式之評估",國立成功大學工程科學研究所,碩士論文,2007年。

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔