跳到主要內容

臺灣博碩士論文加值系統

(44.200.171.156) 您好!臺灣時間:2023/03/22 01:28
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:莊凱丞
研究生(外文):CHUANG, KAI-CHENG
論文名稱:一個用於偵測可行駛區域與前車三維位置的多任務學習框架
論文名稱(外文):A Multi-task Learning Framework for Detecting Drivable Areas and Vehicle 3D Positions
指導教授:蘇志文蘇志文引用關係
指導教授(外文):SU,CHIH-WEN
口試委員:朱守禮林學億
口試委員(外文):CHU, SLO-LILIN, HSUEH-YI
口試日期:2022-07-21
學位類別:碩士
校院名稱:中原大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2022
畢業學年度:110
語文別:中文
論文頁數:43
中文關鍵詞:多任務網路目標偵測語意分割先進駕駛輔助系統
外文關鍵詞:Multitask NetworkObject DetectionSemantic SegmentationAdvanced Driver Assistance Systems
相關次數:
  • 被引用被引用:0
  • 點閱點閱:69
  • 評分評分:
  • 下載下載:7
  • 收藏至我的研究室書目清單書目收藏:0
由於一般行車攝影機無法取得前方車輛深度資訊,因此許多高級車輛會配備光達以取得周遭的深度資訊,但也造成了許多車輛礙於光達的昂貴成本而無法受惠。本論文希望透過純視覺的影像偵測資料,配合光達的深度資料來進行多任務訓練,以同時估測前車在影像上的二維位置與深度距離,以及不包含對向車道下的可行駛路面區域分割。我們採用的多目標任務模型,主要是基於由經典物件辨識方法YOLOv3所延伸的無錨框檢測方法YOLOX,透過區隔迴歸任務與分類任務採用的特徵圖,降低多任務採用同樣特徵圖下的可能干擾。
Many advanced vehicles are equipped with radar to obtain depth information of the surrounding area which is not available from general cameras. However, many vehicles are unable to benefit from the expensive cost of radar. This thesis aims to use purely visual image detection techniques with depth data from the radar for multi-task training. Both the 2D position and depth distance of the vehicle in front on the image are estimated, as well as the segmentation of the drivable road area. Our multi-task model is based on the anchor-free detection method YOLOX, which is an extension of the classical object detection architecture YOLOv3. By separating the feature maps used for regression and classification tasks, the potential interference of different tasks is reduced.
摘要 I
Abstract II
致謝 III
目次 IV
圖目次 VI
表目次 VII
第一章 緒論 1
1.1 研究動機 1
1.2 論文架構 2
第二章 相關文獻 3
2.1 交通物體偵測 4
2-1-1 二階段(Two-stage)物體檢測 4
2-1-2 單階段(One-stage)物體檢測 5
2.2 路面分割偵測 7
2.3 多任務學習網路 9
2-3-1 Multinet模型[3] 9
2-3-2 DLT-Net模型[4] 10
2-3-3 YOLOP模型[6] 12
第三章 研究方法 13
3-1 物體偵測 14
3-2 深度偵測 16
3-3 可行駛路面分割偵測 18
3-4 基於YOLOX的多任務模型 19
第四章 實驗方法 21
4-1 實驗環境 21
4-2 實驗資料 21
4-3 實驗結果 26
第五章 結論與未來方向 33
參考文獻 34

圖 2-1 RCNN流程圖 [7] 5
圖 2-2 YOLO流程圖 [11] 6
圖 2-3 FCN網路圖 [14] 7
圖 2-4 跳躍連結流程 [14] 7
圖 2-5 左圖 為正常卷積,右空洞[18] 8
圖 2-6 Multinet架構流程圖 [3] 10
圖 2-7 DLT-Net架構流程圖 架構流程圖 [4] 11
圖 2-8 YOLOP架構流程圖 架構流程圖 [6] 12
圖 3-1 本方法訓練及測試流程圖。 13
圖 3-2 YOLOX與其他精簡模型的平均度比較[2] 15
圖 3-3 解耦頭與合的收斂速度比較 [2] 16
圖 3-4 傳統 YOLO、YOLOX[2]以及本論文的預測層比較 以及本論文的預測層比較 17
圖 3-5 預測邊界框的參數 17
圖 3-6 頸部網路圖 18
圖 3-7 本方法的網路結構圖 19
圖 4-1 物體邊界框的標註 21
圖 4-2 路面分割的標註 21
圖 4-3 BDD100K之物體分類統計[25] 22
圖 4-4 採集數據的車輛示意圖 [26] 22
圖 4-5 點雲的示意圖 [27] 23
圖 4-6 坐標系的轉換 23
圖 4-7 駕駛車輛 座標以及目 24
圖 4-8 深度值的標註 24
圖 4-9 白天場景的偵測成果 28
圖 4-10 晚上場景的偵測結果 28
圖 4-11 偵測錯誤的情況 29
圖 4-12 以白色遮罩填補失偵車輛後的訓練影像 30
圖 4-13 左為車輛失偵數 0~1的偵測結果 ,右為使用白色遮罩 31

表 4-1 失偵車輛數的統計表 25
表 4-2 三種不同網路的深度與寬比例 26
表 4-3 不同模型深度以及解析的實驗結果 27
表 4-4 不同訓練資料量下的實驗結果 30
表 4-5 消融實驗 32
[1] Redmon, J., & Farhadi, A. (2018). YOLOv3: An Incremental Improvement. ArXiv, abs/1804.02767.
[2] Ge, Z., Liu, S., Wang, F., Li, Z., & Sun, J. (2021). YOLOX: Exceeding YOLO Series in 2021. ArXiv, abs/2107.08430.
[3] Teichmann, M., Weber, M., Zöllner, J.M., Cipolla, R., & Urtasun, R. (2018). MultiNet: Real-time Joint Semantic Reasoning for Autonomous Driving. 2018 IEEE Intelligent Vehicles Symposium (IV), pages 1013-1020.
[4] Qian, Y., Dolan, J.M., & Yang, M. (2020). DLT-Net: Joint Detection of Drivable Areas, Lane Lines, and Traffic Objects. IEEE Transactions on Intelligent Transportation Systems, 21, pages 4670-4679.
[5] Glenn Jocher et al. yolov5. https://github.com/ultralytics/yolov5, 2021.
[6] Wu, D., Liao, M., Zhang, W., & Wang, X. (2021). YOLOP: You Only Look Once for Panoptic Driving Perception. ArXiv, abs/2108.11250.
[7] Girshick, R.B., Donahue, J., Darrell, T., & Malik, J. (2014). Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, pages 580-587.
[8] Uijlings, J.R., Sande, K.E., Gevers, T., & Smeulders, A.W. (2013). Selective Search for Object Recognition. International Journal of Computer Vision, 104, pages 154-171.
[9] Girshick, R.B. (2015). Fast R-CNN. 2015 IEEE International Conference on Computer Vision (ICCV), pages 1440-1448.
[10] Ren, S., He, K., Girshick, R.B., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, pages 1137-1149.
[11] Redmon, J., Divvala, S.K., Girshick, R.B., & Farhadi, A. (2016). You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 779-788.
[12] Redmon, J., & Farhadi, A. (2017). YOLO9000: Better, Faster, Stronger. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6517-6525.
[13] Lin, T., Dollár, P., Girshick, R.B., He, K., Hariharan, B., & Belongie, S.J. (2017). Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 936-944.
[14] Shelhamer, E., Long, J., & Darrell, T. (2017). Fully Convolutional Networks for Semantic Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, pages 640-651.
[15] Chen, L., Papandreou, G., Kokkinos, I., Murphy, K.P., & Yuille, A.L. (2015). Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs. CoRR, abs/1412.7062.
[16] Chen, L., Papandreou, G., Kokkinos, I., Murphy, K.P., & Yuille, A.L. (2018). DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40, pages 834-848.
[17] Chen, L., Papandreou, G., Schroff, F., & Adam, H. (2017). Rethinking Atrous Convolution for Semantic Image Segmentation. ArXiv, abs/1706.05587.
[18] Dumoulin, V., & Visin, F. (2016). A guide to convolution arithmetic for deep learning. ArXiv, abs/1603.07285.
[19] Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR, abs/1409.1556.
[20] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770-778.
[21] Lin, T., Goyal, P., Girshick, R.B., He, K., & Dollár, P. (2020). Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42, pages 318-327.
[22] He, K., Zhang, X., Ren, S., & Sun, J. (2015). Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, pages 1904-1916.
[23] Bochkovskiy, A., Wang, C., & Liao, H.M. (2020). YOLOv4: Optimal Speed and Accuracy of Object Detection. ArXiv, abs/2004.10934.
[24] Liu, S., Qi, L., Qin, H., Shi, J., & Jia, J. (2018). Path Aggregation Network for Instance Segmentation. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8759-8768.

[25] Yu, F., Xian, W., Chen, Y., Liu, F., Liao, M., Madhavan, V., & Darrell, T. (2018). BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling. ArXiv, abs/1805.04687.
[26] Geiger, A., Lenz, P., Stiller, C., & Urtasun, R. (2013). Vision meets robotics: The KITTI dataset. The International Journal of Robotics Research, 32, pages 1231-1237.
[27] Kui Xu. kitti_object_vis. https://github.com/kuixu/kitti_object_vis, 2021.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊