跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.137) 您好!臺灣時間:2026/06/14 09:47
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:何應承
研究生(外文):He, Ying-Cheng
論文名稱:基於檢索生成式架構之電影討論語料庫開發
論文名稱(外文):Development of the film discussion corpus based on retrieval generative architecture
指導教授:鄭朝榮
指導教授(外文):Cheng, Chao-Jung
口試委員:盧文祥黃慶祥
口試委員(外文):Lu, Wen-HsiangHwang, Ching-Shine
口試日期:2019-06-12
學位類別:碩士
校院名稱:崑山科技大學
系所名稱:資訊工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2019
畢業學年度:107
語文別:中文
論文頁數:66
中文關鍵詞:序列到序列深度學習檢索式模型生成式模型聊天機器人
外文關鍵詞:Seq2SeqDeep LearningRetrieval-Based ModelGenerative ModelChatbot
相關次數:
  • 被引用被引用:0
  • 點閱點閱:723
  • 評分評分:
  • 下載下載:8
  • 收藏至我的研究室書目清單書目收藏:0
目前聊天機器人的對話設計,因為成本因素大多無使用語料庫,而直接套用預設的問答對話,當使用者詢問相關的關鍵字,聊天機器人才會回應,對消費者來說較無吸引力及實用性。若能結合用戶常用的通訊軟體,與顧客24小時隨時互動,店家將可以透過聊天機器人與顧客聊天並探知使用者的喜好。因此,本論文將開發基於自然語言處理(Natural Language Processing)的電影語料庫及電影知識庫,以PTT電影看板為例,使用網路爬蟲程式,將網友們討論電影主題的內容爬取下來,先以Jieba斷詞演算法處理後,電影語料庫部份採用Seq2Seq模型訓練,訓練好的Seq2Seq模型即為聊天機器人的電影問答模組。為了提高系統的精確性,本論文結合檢索式與生成式架構所組成的語料庫,有兩種模式,預設先進入檢索模式,當使用者詢問PTT電影看板討論的相關電影主題,經過檢索式模型問答配對,使用BM25適用性判斷是否輸出檢索式電影知識庫中對應的詞句。若沒有達到BM25判斷的條件,則系統進入Seq2Seq模式,直接讀取訓練好的電影問答模組,生成回答給使用者。檢索生成式架構的聊天機器人能與使用者以互動方式討論更多的電影知識話題,相較於舊版聊天機器人使用Dialogflow、wit.ai自訂模組的Q&A問答,本論文可減少設定意圖(Intents)和關鍵字(Entities)規則等的繁複性工作。
Most of the current chatbot's dialogue design do not use a corpus because the cost is very high. When the user asks the chatbot some kind of related keywords, the chatbot usually directly responds with a dialogue answer which has existed in the database even if it is less attractive to consumers. In fact, if the stores can provide the customer service software to chat with the customers in anytime, they will be able to find out the user's preferences. In this paper, PTT movie bulletin board is used as a resource to carry out Natural Language Processing to obtain a film corpus. The web crawler is used to crawl the contents of the movie themes discussed by the netizens. The contents were first processed by the Jieba word-breaking algorithm to produce the film corpus. In order to improve the accuracy of the system, this paper combines the corpus of search and generative architecture. There are two modes. The search model is the default mode. When the user asks about the related movie theme derived from the PTT movie board discussion, the model question-and-answer pairing uses the BM25 applicability judgment method to determine whether to output the corresponding words in the search model corpus. If the condition of BM25 judgment is not met, the Seq2Seq model is adopted and the trained movie question answering module will provide the sentence derived from the generated corpus. In brief, the search-generation architecture dialogue system allows chatbots and users to discuss more movie knowledge topics interactively. Furthermore, compared to the old version of the chatbot in which Dialogflow and wit.ai custom modules are required to produce Q&A, this paper can reduce the setting process about the tedious work of intents and entities rules.
摘要 i
Abstract ii
致謝 iii
目錄 iv
圖目錄 vi
表目錄 viii
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 2
1.4 研究架構 3
第二章 相關研究 4
2.1 檢索式的技術 4
2.1.1 BM25演算法 9
2.2 遞迴神經網路 10
2.3 長短期記憶網路 12
2.4 序列到序列 13
2.5 深度學習框架 15
2.5.1 TensorFlow 15
2.5.2 Keras 18
2.5.3 PyTorch 19
2.6 網路爬蟲框架 19
2.6.1 Scrapy專案架構 20
第三章 系統設計 22
3.1 系統架構 22
3.1.1 檢索式模型 22
3.1.2 生成式模型 23
3.2 使用檢索式模型產生電影知識庫 24
3.3 Jieba斷詞電影討論串 29
3.4 使用Seq2Seq模型訓練電影語料庫 32
第四章 系統實現 39
4.1 硬體設備介紹 42
4.1.1 PC規格 42
4.1.2 使用GPU顯卡 42
4.2 實作成果 46
4.2.1 PTT Movie語料庫 46
4.2.2 Cornell Movie Dialogs語料庫 48
4.2.3 結合檢索生成式架構的電影語料庫 49
4.3 MovieBot系統效能評估公式 53
4.4 MovieBot系統人工評估規則 55
第五章 結論及未來展望 63
5.1 結論 63
5.2 未來展望 63
參考文獻 65
[1]Ilya Sutskever,Oriol Vinyals,and Quoc V. Le, “Sequence to Sequence Learning with Neural Networks,”Google,‎2014.
[2]Zongcheng Ji, Zhengdong Lu, Hang Li,”An Information Retrieval Approach to Short Text Conversation,” Beijing China and Hong Kong China,2014.
[3]Minghui Qiu, Feng-Lin Li, Siyu Wang, Xing Gao, Yan Chen,Weipeng Zhao, et al. , “AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine, ”Alibaba Group and Hangzhou and China,2017.
[4]游哲誠,"使用深度學習Seq2Seq方法處理短文本對話生成",碩士論文,朝陽科技大學,2017。
[5]彭昱傑,"聊天機器人系統設計與實作",碩士論文,國立中正大學,2017。
[6]Mikolov, Martin Karafiat, et al. , “Recurrent neural network based language model,”USA,2010, pp. 1045-1048.
[7]S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Computation, 9(8):1735–1780, 1997.
[8]jieba中文分詞, https://github.com/fxsjy/jieba
[9]Okapi BM25, https://en.wikipedia.org/wiki/Okapi_BM25
[10]OKapi BM25算法, https://read01.com/zh-tw/kG8RON.html#.XNPo3Y4zbIU
[11]RNN Architecture, https://www.youtube.com/watch?v=ifD1kXkK1LQ&t=144s
[12]Basic Learning Algorithm of RNN Model, https://www.youtube.com/watch?v=d3IzcabWhMU
[13]【算法】循環神經網絡RNN, https://cloud.tencent.com/developer/article/1102046
[14]Understanding LSTM Networks,
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
[15]Google AI Blog Seq2Seq序列到序列, https://ai.googleblog.com/2015/11/computer-respond-to-this-email.html
[16]Seq2Seq有哪些不為人知的有趣應用?, https://zhuanlan.zhihu.com/p/26753131
[17]TensorFlow開源框架, https://github.com/tensorflow/tensorflow
[18]PyTorch開源框架, https://github.com/pytorch/pytorch
[19]Keras開源框架, https://github.com/keras-team/keras
[20]Scrapy原理, https://doc.scrapy.org/en/latest/topics/architecture.html
[21]檢索式問答系統的語義匹配模型(神經網絡篇),
https://www.jiqizhixin.com/articles/2017-08-30-30
[22]從零開始的 Sequence to Sequence,
http://zake7749.github.io/2017/09/28/Sequence-to-Sequence-tutorial/
[23]檢索式系統, https://github.com/zake7749/PTT-Chat-Generator
[24]生成式系統, https://github.com/thisray/PTTChatBot_DL2017
[25]Chia-Wei Liu, Ryan Lowe, Iulian V. Serban, et al. ,”How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation,” School of Computer Science and McGill University,2017.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊