跳到主要內容

臺灣博碩士論文加值系統

(44.211.117.197) 您好!臺灣時間:2024/05/21 03:38
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:王銘譽
研究生(外文):Ming-Yu Wang
論文名稱:基於深度強化學習之自動停車
論文名稱(外文):Automatic Parking Using Deep Reinforcement Learning
指導教授:魏家博李立李立引用關係
指導教授(外文):Chia-Po WeiLi Lee
學位類別:碩士
校院名稱:國立中山大學
系所名稱:電機工程學系研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2021
畢業學年度:109
語文別:中文
論文頁數:47
中文關鍵詞:強化學習深度學習自動駕駛路徑規劃自動停車
外文關鍵詞:Reinforcement LearningPath PlanningAutonomous DrivingAuto ParkingDeep Learning
相關次數:
  • 被引用被引用:0
  • 點閱點閱:224
  • 評分評分:
  • 下載下載:36
  • 收藏至我的研究室書目清單書目收藏:0
本論文基於強化學習方法 (Reinforcement Learning) 來實現自動停車,根據數位化之停車場資訊及車輛位置可自動規劃出最佳停車路徑。傳統之路徑規劃領域大多容易陷入局部最佳解,較適用於矩距離任務,在環境較複雜之情況下,長距離路徑規劃往往需要龐大計算量。本研究利用強化學習之特性來規劃自動停車的路徑,無需環境模型之狀態方程式,因此可以大量地降低設計控制器所須人力與時間成本,並利用其自我學習特性,規劃出比人類更優秀之停車路徑。研究貢獻主要分為兩個部分,1.設計環境模型之獎勵函數 (Reward Function) 使車輛可以到達目標停車格而不會通過違規區域。2.設計類神經網路架構及調整超參數提高訓練成功率,達到最佳之自動停車結果。
This thesis proposes the use of reinforcement learning (RL) for automatic parking. Given the information of parking lots and the initial position of the car, our method can automatically plan the optimal path for parking. Traditional approaches for path planning often have the problem of getting stuck in local optima. For complex environments, long-distance path planning would require a tremendous effort to achieve satisfactory results. We use the advantage of reinforcement learning for path planning of automatic parking. Since RL does not require the state equations of environments, it can save labor costs and time costs needed for designing the controller. Due to the self-learning property of RL, it is possible to achieve better-than-human performance.

The contribution of this thesis is two-fold. First, we design the reward function such that the car will not enter the restricted area before reaching the target parking space. Second, we design the architecture of neural networks and finetune hyperparameters so as to increase the success rate, achieving the optimal result for automatic parking.
目錄
論文審定書i
誌謝ii
中文摘要iii
英文摘要iv
目錄v
圖目錄vii
表目錄viii
第一章緒論1
1.1 問題簡介與動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 文獻回顧. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 研究目標與貢獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
第二章強化學習簡介5
2.1 強化學習與馬可夫決策過程. . . . . . . . . . . . . . . . . . . . . . . 5
2.2 價值函數(Value function) 與Q-learning. . . . . . . . . . . . . . . . . 7
第三章環境設置、運動模型、主要演算法10
3.1 環境設置. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 車輛(agent) 與停車場之基本資訊. . . . . . . . . . . . . . . . 10
3.1.2 環境之狀態資訊(state) . . . . . . . . . . . . . . . . . . . . . . 11
3.1.3 主體可決定之動作資訊(action) . . . . . . . . . . . . . . . . . 12
3.1.4 獎勵函數R (reward function) 設計. . . . . . . . . . . . . . . . 12
3.1.5 任務成功與結束條件. . . . . . . . . . . . . . . . . . . . . . . 13
3.2 運動模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Hindsight Experience Replay (HER) . . . . . . . . . . . . . . . . . . . . 15
3.4 Soft Actor Critic (SAC) . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.5 類神經網路模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
第四章實驗與結果23
4.1 不同演算法比較及參數設定. . . . . . . . . . . . . . . . . . . . . . . 23
4.2 可視化停車路徑. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
第五章結論與未來展望35
參考文獻36
圖目錄
1.1 停車場基本資訊. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 馬可夫決策過程示意圖. . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 強化學習問題架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1 車輛與停車場詳細資訊. . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 完整環境資訊. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 違規行為. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.4 車輛動力學模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.5 SAC 演算法架構與環境關係. . . . . . . . . . . . . . . . . . . . . . . 17
3.6 actor 網路模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.7 critic 網路模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.1 短距離路徑規劃. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 長距離路徑規劃. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 倒車進入目標停車格. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.4 迴轉進入目標停車格. . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.5 違規1 次或2 次. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.6 違規3 次以上. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.7 失敗(參數權重為[1, 0.3, 0, 0, 0.02, 0.02]) . . . . . . . . . . . . . . . . 31
4.8 失敗(參數權重為[1, 1, 0, 0, 0.02, 0.02]) . . . . . . . . . . . . . . . . . 34
表目錄
4.1 演算法與環境之可行性驗證(單位: 百分比) . . . . . . . . . . . . . . . 23
4.2 加入違規次數統計之測試結果(單位: 百分比) . . . . . . . . . . . . . . 24
4.3 加入違規懲罰之測試結果(單位: 百分比) . . . . . . . . . . . . . . . . 24
4.4 對於不同違規懲罰值之環境,以SAC 演算法進行訓練與測試結果
(單位: 百分比) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.5 提高任務之每回合最大步數,以SAC 演算法進行訓練與測試結果
(單位: 百分比) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.6 提高神經網路之隱藏層數,以SAC 演算法進行訓練與測試結果
(單位: 百分比) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.7 最終實驗結果(單位: 百分比) . . . . . . . . . . . . . . . . . . . . . . . 26
4.8 圖(4.3) 任務軌跡資訊. . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.9 圖(4.4) 任務軌跡資訊. . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.10 圖(4.7) 任務軌跡資訊. . . . . . . . . . . . . . . . . . . . . . . . . . . 33
[1] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, and D. Hassabis, “Mastering the game of go with deep neural networks and tree search,” Nature, vol. 529, pp. 484–503, 2016.
[2] O. Vinyals, I. Babuschkin, D. Silver, and et al, “Grandmaster level in StarCraft II using multi-agent reinforcement learning,” Nature, vol. 575, p. 350–354, 2019.
[3] Y. huang, Q. Gu, B. Wang, J. Luo, H. Zhang, and W. Liu, “Robust auto-parking: Reinforcement learning based real-time planning approach with domain template,” in Neural Information Processing Systems (NIPS), 2018.
[4] P. Zhang, L. Xiong, Z. Yu, P. Fang, S. Yan, J. Yao, and Y. Zhou, “Reinforcement learning-based end-to-end parking for automatic parking system,” Sensors, vol. 19, no. 18, p. 3996, 2019.
[5] Z. Du, Q. Miao, and C. Zong, “Trajectory planning for automated parking systems using deep reinforcement learning,” International Journal of Automotive Technology, vol. 21, no. 4, pp. 881–887, 2020.
[6] J. Zhang, H. Chen, S. Song, and F. Hu, “Reinforcement learning-based motion planning for automatic parking system,” IEEE Access, vol. 8, pp. 154485–154501, 2020.
[7] O. Montiel, U. OrozcoRosas, and R. Sepúlveda, “Path planning for mobile robots using bacterial potential field for avoiding static and dynamic obstacles,” Expert Systems with Applications, pp. 5177–5191, 2015.
[8] J. Borenstein and Y. Koren, “The vector field histogram-fast obstacle avoidance for mobile robots,” IEEE Trans. Robotics and Automation, vol. 7, pp. 278–288, 1991.
[9] S. Sedighi, D. Nguyen, and K. Kuhnert, “Guided hybrid A-star path planning algorithm for valet parking applications,” in International Conference on Control, Automation and Robotics (ICCAR), pp. 570–575, 2019.
[10] A. V. Le, V. Prabakaran, V. Sivanantham, and R. E. Mohan, “Modified A-star algorithm for efficient coverage path planning in tetris inspired self-reconfigurable robot with integrated laser sensor,” Sensors, vol. 18, no. 8, p. 2585, 2018.
[11] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Riedmiller, “Playing atari with deep reinforcement learning,” in Neural Information Processing Systems (NIPS), 2013.
[12] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, “Continuous control with deep reinforcement learning,” arXiv preprint arXiv: 1509.02971, 2015.
[13] T. Haarnoja, A. Zhou, P.Abbeel, and S. Levine, “Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor,” arXiv preprint arXiv: 1801.01290, 2018.
[14] T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan, V. Kumar, H. Zhu, A. Gupta, P. Abbeel, and S. Levine, “Soft actor-critic algorithms and applications,” arXiv preprint arXiv:1812.05905, 2018.
[15] M. Andrychowicz, F. Wolski, A. Ray, J. Schneider, R. Fong, P. Welinder, B. McGrew, J. Tobin, P. Abbeel, and W. Zaremba, “Hindsight experience replay,” in Neural Information Processing Systems (NIPS), 2017.
[16] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. MIT press, 2018.
[17] R. E. Bellman and S. E. Dreyfus, Applied Dynamic Programming. Princeton university press, 2015.
[18] G. Brockman, V. Cheung, L. Pettersson, J. Schneider, J. Schulman, J. Tang, and W. Zaremba, “OpenAI gym,” arXiv preprint arXiv: 1606.01540, 2016.
[19] R. Rajamani, Vehicle Dynamics And Control. Springer Science & Business Media, 2011.
[20] T. Degris, M. White, and R. S. Sutton, “Off-policy actor-critic,” arXiv preprint arXiv:1205.4839, 2012.
[21] B. Ziebart, “Modeling purposeful adaptive behavior with the principle of maximum causal entropy,” PhD thesis, Carnegie Mellon University, 2010.
[22] H. v. Hasselt, A. Guez, and D. Silver, “Deep reinforcement learning with double Q-learning,” arXiv preprint arXiv:1509.06461, 2015.
[23] S.Fujimoto, H. V. Hoof, and D. Meger, “Addressing function approximation error in actor-critic methods,” arXiv preprint arXiv:1802.09477, 2018.
[24] L. Baird, “Residual algorithms: Reinforcement learning with function approximation,” in Proc. Int. Conf. Machine Learning (ICML), pp. 30–37, 1995.
[25] R. A. Howard, Dynamic Programming and Markov Processes. MIT Press, 1960.
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊