跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.163) 您好!臺灣時間:2025/11/25 16:32
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:李致緯
研究生(外文):Chih-Wei Lee
論文名稱:任務導向及非任務導向對話系統之改進:以華語教學系統與聊天機器人為例
論文名稱(外文):Improved Task-Oriented and Non-Task-Oriented Dialogue Systems: Language Learning Dialogue Game and Chatbot as Examples
指導教授:李琳山李琳山引用關係
口試委員:李宏毅王小川陳信宏鄭秋豫
口試日期:2018-07-09
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:電信工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2018
畢業學年度:106
語文別:中文
論文頁數:70
中文關鍵詞:對話機器人
相關次數:
  • 被引用被引用:4
  • 點閱點閱:776
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:4
本論文之主軸在改進任務導向(Task-Oriented)與非任務導向(Non-Task- Oriented)之對話系統(Dialouge System)。隨著機器學習技術的日新月異,深層類神經網路(Deep Neural Network)已經在許多領域中取得非常優良的成績,而本論文的目標是挑戰深層類神經網路下的對話系統。對話系統是能夠與人類進行對話的機器人,並且依照其目的分成任務導向以及非任務導向兩種,而本論文對這兩類對話機器人都會進行探討。
論文的第一大方向是以電腦輔助華語學習系統作為任務導向對話機器人的範例。華語學習機器人的目的是幫助外國人學習華語發音,並讓學習者藉由不斷的練習語句使得學習者能夠在華語中不同的發音單位上進步。此方向的重點為使用了新的深層強化學習演算法(Deep Reinforcement Learning)取代了舊的演算法用以訓練語言學習系統中的對話管理者(Dialogue Manager),同時提出了新的獎勵函數(Reward Function)以增進整體效益。實驗結果也證明了新的深層強化學習演算法以及獎勵函數能夠有效的減少學習者學習華語所花費的時間。
論文第二大方向以非任務導向對話系統,又稱聊天機器人為主軸。聊天機器人的任務是與使用者漫無目的的聊天,而本論文提出了四種不同的模型以嘗試更改聊天機器人輸出回應語句的情緒,使之更正面,其分別為個人化模型、強化學習模型、即插即用模型以及循環式生成對抗網路。同時為了驗證各種模型的表現,本論文提出了四種機器評分機制以三種不同的角度評估聊天機器人的表現,也以人工評分結果驗證了機器評分機制的可信度。
口試委員會審定書.................................. i
誌謝.......................................... ii
中文摘要 ....................................... v
一、導論 ....................................... 1
1.1 研究動機.................................. 1
1.2 研究方向.................................. 4
1.3 章節安排.................................. 5
二、背景知識 .................................... 6
2.1 對話系統.................................. 6
2.1.1 簡介 ................................ 6
2.1.2 任務導向(Task-Oriented)對話機器人............... 6
2.1.3 非任務導向(Non Task-Oriented)對話機器人 . . . . . . . . . . . 8
2.2 序列至序列(Sequence-to-Sequence)模型 ................. 9
2.2.1 類神經網路(NeuralNetwork) ................... 9
2.2.2 遞迴式類神經網路(Recurrent Neural Network, RNN) . . . . . . 12
2.2.3 序列至序列模型(Sequence-to-Sequence Model) . . . . . . . . . 14
2.2.4 變分自編碼器(Variational Autoencoder) . . . . . . . . . . . . . 16
2.3 強化學習(ReinforcementLearning) .................... 19
2.3.1 簡介 ................................ 19
2.3.2 QLearning演算法......................... 19
2.3.3 策略梯度(PolicyGradient)演算法................. 21
2.4 本章總結.................................. 22
三、電腦輔助華語教學系統 ............................ 23
3.1 簡介..................................... 23
3.1.1 系統概觀.............................. 24
3.2 對話管理者................................. 29
3.2.1 狀態(State)............................. 29
3.2.2 動作(Action) ............................ 31
3.2.3 獎勵函數(RewardFunction).................... 31
3.3 強化學習演算法 .............................. 33
3.3.1 貼合值迭代演算法 ........................ 34
3.3.2 深層Q網路 ............................ 36
3.4 系統評估.................................. 38
3.4.1 實驗設定.............................. 38
3.4.2 實驗結果.............................. 38
3.5 本章結論.................................. 42
四、可更改情緒之聊天機器人 ........................... 43
4.1 簡介..................................... 43
4.1.1 研究動機.............................. 43
4.1.2 模型概觀.............................. 44
4.2 本論文所提出之模型 ........................... 45
4.2.1 個人化模型(Persona-BasedModel)................ 46
4.2.2 強化學習模型(Reinforcement Learning) . . . . . . . . . . . . . 47
4.2.3 即插即用模型(PlugandPlayModel) ............... 49
4.2.4 循 環 式 生 成 對 抗 網 路(Cycle Generative Adversarial Network,
cycleGAN)............................. 50
4.3 本章總結.................................. 52
五、聊天機器人之訓練資料、實驗結果及效能分析 ............... 53
5.1 訓練語料庫................................. 53
5.1.1 推特對話語料庫(Twitter Dialogue Corpus) . . . . . . . . . . . . 53
5.1.2 推特情緒語料庫(Twitter Sentiment Dataset) . . . . . . . . . . . 55
5.2 聊天機器人所產生之語句......................... 56
5.3 模型表現評估 ............................... 58
5.3.1 人工評分機制 ........................... 58
5.3.2 機器評分機制 ........................... 59
5.4 實驗結果及分析 .............................. 61
5.4.1 評分結果.............................. 62
5.4.2 實驗分析.............................. 63
5.5 本章總結.................................. 65
六、結論與展望 ................................... 66
6.1 研究貢獻.................................. 66
6.1.1 提出並改進電腦輔助華語學習系統 ............... 66
6.1.2 更改聊天機器人輸出之情緒 ................... 66
6.2 未來展望.................................. 67
6.2.1 電腦輔助華語學習系統...................... 67
6.2.2 可調控情緒之聊天機器人 .................... 67
參考文獻....................................... 69
[1] Marti A. Hearst, Susan T Dumais, Edgar Osuna, John Platt, and Bernhard Scholkopf, “Support vector machines,” IEEE Intelligent Systems and their ap- plications, vol. 13, no. 4, pp. 18–28, 1998.
[2] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al., “Human-level control through deep reinforcement learning,” Na- ture, vol. 518, no. 7540, pp. 529, 2015.
[3] Pei-hao Su, Tien-han Yu, Ya-Yunn Su, and Lin-shan Lee, “Ntu chinese 2.0: A personalized recursive dialogue game for computer-assisted learning of mandarin chinese,” in Speech and Language Technology in Education, 2013.
[4] Jiwei Li, Will Monroe, Alan Ritter, Michel Galley, Jianfeng Gao, and Dan Ju-rafsky, “Deep reinforcement learning for dialogue generation,” arXiv preprint arXiv:1606.01541, 2016.
[5] Jiwei Li, Michel Galley, Chris Brockett, Georgios P Spithourakis, Jianfeng Gao, and Bill Dolan, “A persona-based neural conversation model,” arXiv preprint arXiv:1603.06155, 2016.
[6] Anh Nguyen, Jason Yosinski, Yoshua Bengio, Alexey Dosovitskiy, and Jeff Clune, “Plug & play generative networks: Conditional iterative generation of images in latent space,” arXiv preprint, 2017.
[7] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros, “Unpaired image- to-image translation using cycle-consistent adversarial networks,” arXiv preprint, 2017.
[8] Tsung-Hsien Wen, David Vandyke, Nikola Mrksic, Milica Gasic, Lina M Rojas- Barahona, Pei-Hao Su, Stefan Ultes, and Steve Young, “A network-based end-to-end trainable task-oriented dialogue system,” arXiv preprint arXiv:1604.04562, 2016.
[9] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, “Neural machine trans- lation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014.
[10] Sepp Hochreiter and Ju ̈rgen Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[11] Diederik P Kingma and Max Welling, “Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013.
[12] Richard S Sutton, Andrew G Barto, et al., Reinforcement learning: An introduction, MIT press, 1998.
[13] Christopher JCH Watkins and Peter Dayan, “Q-learning,” Machine learning, vol. 8, no. 3-4, pp. 279–292, 1992.
[14] Richard S Sutton, David A McAllester, Satinder P Singh, and Yishay Mansour, “Policy gradient methods for reinforcement learning with function approximation,” in Advances in neural information processing systems, 2000, pp. 1057–1063.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top