# 臺灣博碩士論文加值系統

(100.28.0.143) 您好！臺灣時間：2024/07/23 10:59

:::

### 詳目顯示

:

• 被引用:0
• 點閱:46
• 評分:
• 下載:1
• 書目收藏:0
 六貫棋是一款雙人對局遊戲，起初在1942年於丹麥的報紙中出現，被稱為Polygon。1948年時，被美國數學家John Forbes Nash Jr.重新獨立發明，並稱為Nash。最後在1952年由製造商Parker Brothers發行，且將其命名為Hex。在此遊戲中，上下及左右的對邊各以一個顏色表示，雙方玩家需要在棋盤上落子並將自己顏色的對邊連接以取得勝利。此遊戲為零和遊戲，且不會有平手的情況發生。在以前的研究中，六貫棋在9路以下的盤面已經被破解。 由於AlphaZero的問世，現今電腦對局遊戲的程式有更進一步的發展，以該方法研發的對局程式都有不錯的棋力。而在六貫棋遊戲中，不得不提由加拿大Alberta大學研發的Mohex程式，該程式一直都在競賽中得到優異的成績，至今也持續進行改良。 本研究試圖以AlphaZero的訓練框架進行強化學習，並以Mohex破解的盤面資料為輔助。在訓練大盤面的模型時需要較多的成本，因此嘗試結合遷移學習的方式，運用已經破解的小盤面資料，使初期的自我對下階段就能產生較好的棋譜，而不是從完全的零知識開始訓練，藉此提升大盤面模型的訓練成果。並且比較在進行遷移學習時，使用不同參數轉移方法的影響。
 Hex is a two-player board game that first appeared in a Denmark newspaper in 1942 and was called Polygon. In 1948, American mathematician John Forbes Nash Jr. reinvented the game independently and called it Nash. Finally, in 1952, it was published by the manufacturer Parker Brothers and renamed Hex. In the game board, each of the opposite sides (vertically and horizontally) is represented by a different color. Players take turns placing their pieces on the board to connect opposite sides that marked by their colors to win. This game is a zero-sum game, and a tie is impossible. In previous research, the game has been solved for board sizes smaller than 9×9. With the advent of AlphaZero, programs for board games have been further investigation, and programs developed using this method have also shown good performance. In the game of Hex, the program “Mohex” developed by the University of Alberta is noteworthy. It already had excellent results in competitions and is continuously improving its strength. This thesis attempts to use the framework of AlphaZero for reinforcement learning and uses the solved board data from Mohex for assistance. Since training a model for larger board sizes require more resources, so we aim to combine transfer learning with solved games for smaller board sizes to get better gameplay in the early stages of self-play, rather than starting from zero knowledge. By the above approach, we try to improve the training results of the model for larger board sizes. Additionally, we compare the effects of using different ways to transfer parameters during transfer learning.
 第一章 緒論 11.1 研究背景 11.2 研究目的 3第二章 文獻探討 42.1 六貫棋遊戲策略 42.2 AlphaZero 52.3 遷移學習 72.4 Mohex 92.5 卷積神經網路 112.5.1 卷積層 112.5.2 池化層 122.5.3 全連接層 132.6 alpha-zero-general開源碼 15第三章 方法與步驟 163.1 將六貫棋實作於alpha-zero-general 163.1.1 盤面設計與勝負判斷 163.1.2 對稱盤面 173.2 神經網路架構 183.3 藉由Mohex 產生訓練資料 193.3.1 將最佳走步轉換為訓練資料 213.3.2 沒有必勝走步的情況 223.3.3 將盤面進行翻轉得到更多訓練資料 233.4 原版AlphaZero的訓練 243.5 模型的預訓練及Layer transfer 253.6 Layer transfer時參數的對應與處理 263.6.1 將參數量不同的網路層直接進行初始化 273.6.2 將參數對應至相似的位置 273.7 將完成參數轉移的模型放入alpha-zero-general 32第四章 實驗結果 334.1 實驗環境 334.2 將最佳解資訊轉為訓練資料的方法驗證 344.3 使用預訓練參數模型進行AlphaZero框架訓練 364.3.1 不使用所有預訓練參數版本與原版之比較 364.3.2 使用所有預訓練參數版本與原版之比較 384.3.3 方法一和方法二之比較 394.4 參數轉移時使用不同對應方式 424.5 與Mohex進行對戰 43第五章 結論與未來方向 44參考文獻 45
 [1] DeepMind, https://www.deepmind.com/.[2] Wikipedia: Hex, https://en.wikipedia.org/wiki/Hex_(board_game).[3] Jakub Pawlewicz, Ryan Hayward, Philip Henderson, Broderick Arneson, “Stronger Virtual Connections in Hex”, IEEE Trans. on Computational Intelligence and AI in Games, vol. 7, no. 2, June 2015, pp. 156-166.[4] David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel, Demis Hassabis, “Mastering the Game of Go without Human Knowledge”, Nature, vol. 550, Oct. 2017, pp. 354-359.[5] Lisa Torrey, Jude Shavlik, “Transfer learning”, in Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques. Hershey, PA: IGI global, 2010, pp. 242-264.[6] cgao3/benzene-vanilla-cmake, https://github.com/cgao3/benzene-vanilla-cmake.[7] Broderick Arneson, Ryan B. Hayward, Philip Henderson, “Monte Carlo Tree Search in Hex”, IEEE Trans. on Computational Intelligence and AI in Games (special issue: Monte Carlo Techniques and Computer Go), vol. 2, no. 4, Dec. 2010, pp. 251-257.[8] Broderick Arneson, Ryan B. Hayward, Philip Henderson, “Solving Hex: Beyond Humans”, Computers and Games, CG 2010, Lecture Notes in Computer Science, vol. 6515, Springer Berlin/Heidelberg, 2011, pp. 1-10. https://doi.org/10.1007/978-3-642-17928-0_1.[9] Shih-Chieh Huang, Broderick Arneson, Ryan B. Hayward, Martin Müller, Jakub Pawlewicz, “MOHEX 2.0: A Pattern-Based MCTS Hex Player”, In: van den Herik, H., Iida, H., Plaat, A. (eds) Computers and Games. CG 2013. Lecture Notes in Computer Science, vol. 8427. Springer, Cham. https://doi.org/10.1007/978-3-319-09165-5_6.[10] Ryan Hayward, Noah Weninger, “Hex 2017: MoHex Wins the 11x11 and 13x13 Tournaments”, ICGA Journal, vol. 39, no. 3-4, Jan. 2017, pp. 222-227.[11] Yann LeCun, Leon Bottou, Yoshua Bengio,Patrick Haffner, “Gradient-Based Learning Applied to Document Recognition,” in Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324, Nov. 1998, https://doi.org/10.1109/5.726791.[12] suragnair/alpha-zero-general, https://github.com/suragnair/alpha-zero-general.[13] Shantanu Thakoor, Surag Nair, Megha Jhunjhunwala, “Learning to Play Othello without Human Knowledge,” Stanford University CS238 Final Project Report, 2017.[14] PyTorch, https://pytorch.org/.[15] 王鈞平，六貫棋遊戲實作與強化學習應用，國立臺灣師範大學資訊工程所碩士論文，2019。[16] Dennis J.N.J. Soemers, Vegard Mella, Eric Piette, Matthew Stephenson, Cameron Browne, Olivier Teytaud, “Transfer of Fully Convolutional Policy-Value Networks between Games and Game Variants,” arXiv preprint, https://arxiv.org/abs/2102.12375, 2021.
 電子全文
 連結至畢業學校之論文網頁點我開啟連結註: 此連結為研究生畢業學校所提供，不一定有電子全文可供下載，若連結有誤，請點選上方之〝勘誤回報〞功能，我們會盡快修正，謝謝！
 推文當script無法執行時可按︰推文 網路書籤當script無法執行時可按︰網路書籤 推薦當script無法執行時可按︰推薦 評分當script無法執行時可按︰評分 引用網址當script無法執行時可按︰引用網址 轉寄當script無法執行時可按︰轉寄

 1 六貫棋遊戲實作與強化學習應用 2 基於深度學習應用於塑膠紋理表面缺陷合成之檢測系統 3 利用學習方法解決社群網絡的競爭影響力最大化 4 強化學習與遞移強化學習的比較-以排序問題為例 5 基於對抗式訓練生成跨域影像描述 6 在增強式學習中以拉普拉斯運算為基礎做離散狀態值函式轉換

 無相關期刊

 1 以棋型分數、開局庫、平行化方法改良 MCTS 外圍開局五子棋程式 2 基於物理算圖的肥皂泡色彩模擬 3 使用KataGo方法及迫著空間搜尋提升AlphaZero在六子棋的訓練成效 4 利用 Unity 於數位化數學遊戲之開發與教學應用 5 遊戲烏托邦：數位遊戲與當代烏托邦主義 6 數位遊戲結合 NFT 融入專題導向實作活動對學生基本心理需求、學習動機、學習表現及學習行為之影響 7 蜜月橋牌程式叫牌與換牌階段的策略改進 8 運用人工智慧設計與 實作桌上型咖啡豆挑選系統 9 財務比率與盈餘管理：利息覆蓋率是否導致盈利操縱行為 10 六軸並聯式機械臂之接觸力量控制 11 探討台灣發展創新金融之契機 —以台灣某公營銀行為例 12 降低水耕萵苣中硝酸鹽含量分析研究 13 留存繪畫 - 解框之身 14 以衰弱預測台灣中老年人跌倒及住院分析：13年世代追蹤研究 15 臺灣身心障礙機構植物人住民的法定代理人對病人自主權利法的認知與態度

 簡易查詢 | 進階查詢 | 熱門排行 | 我的研究室