跳到主要內容

臺灣博碩士論文加值系統

(44.200.82.149) 您好!臺灣時間:2023/06/03 22:46
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:顏郁霖
研究生(外文):Yu Lin Yen
論文名稱:分群剪枝與支援稀疏性之預測閥值動態量化的節能深度神經網路加速器晶片設計
論文名稱(外文):Cluster Pruning and Dynamic Quantization of Sparsity-Supported Prediction Threshold Energy-Efficient Accelerator Chip Design for Deep Neural Networks
指導教授:魏一勤
指導教授(外文):I. C. Wey
口試委員:魏一勤林文彥李宇軒
口試委員(外文):I. C. WeyW. Y. LinY. H. Lee
口試日期:2022-11-05
學位類別:碩士
校院名稱:長庚大學
系所名稱:電機工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2022
畢業學年度:111
語文別:中文
論文頁數:124
中文關鍵詞:卷積神經網路加速器模型壓縮量化稀疏性混合精度
外文關鍵詞:Convolutional Neural Network acceleratormodel compressionsparsitymixed-precision
相關次數:
  • 被引用被引用:0
  • 點閱點閱:13
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
目錄
摘要 i
ABSTRACT ii
目錄 iv
圖目錄 vii
表目錄 x
第一章 緒論 1
1. 1 研究背景 1
1. 2 研究目的及動機 2
1. 3 論文架構 6
第二章 文獻回顧 7
2.1 深度神經網路Deep Neural Network(DNN)背景 7
2.1.1 DNN運作 7
2.1.2 訓練與推論 9
2.1.3 卷積神經網路與其核心網路層 10
2.2 模型壓縮 14
2.2.1 模型架構優化 14
2.2.1.1 高效模型結構 14
2.2.1.2 神經網路架構搜索(Neural Network Search, NAS) 16
2.2.1.3 知識蒸餾 17
2.2.5 參數分解 17
2.2.5 剪枝 19
2.2.6 量化 20
2.3 節能硬體設計 22
2.3.1 節能硬體加速器介紹 22
2.3.2 文獻[22] 24
2.3.3 文獻[23] 25
2.3.4 文獻[24] 26
2.3.5 文獻[25] 27
2.3.6 文獻[26] 29
2.4 量化方法特性比較 30
第三章 分群剪枝與支援稀疏性之預測閥值動態量化的節能加速器設計 34
3.1 分群剪枝演算法 35
3.1.1 分群剪枝之動機一:權重分佈特性 35
3.1.2 分群剪枝之動機二:結構性剪枝之相對運算優勢 37
3.1.3 分群剪枝之動機三:卷積核平均值趨勢特性 38
3.1.4 分群剪枝原理、絕對值與相對值做法比較以及區間3之權重小值敏感性問題 41
3.1.5 分群剪枝具體做法 49
3.2 支援分群剪枝稀疏性之預測閥值動態量化硬體設計 51
3.2.1 支援分群剪枝稀疏性之硬體設計動機 51
3.2.2 支援分群剪枝稀疏性之硬體設計之方法概念 56
3.2.3 預測閥值動態量化之硬體設計:動機與方法 59
3.3 硬體架構 62
3.3.1 架構概述 62
3.3.2 緩衝區與輸入im2col轉換 63
3.3.3 變速PE陣列與混合精度乘法運算 64
3.3.4 累加單元與池化單元 67
第四章 實驗方法與結果 69
4.1 實驗環境與設計 69
4.1.1 整體開發流程 69
4.1.2 影像辨識指標資料集與模型 71
4.2演算法效能分析 72
4.2.1剪枝數量與權重分佈因子N之軟體分析 72
4.2.2權重分佈因子N與預測閥值因子th rate之軟體分析 77
4.3 硬體分析 81
4.3.1 關鍵電路分析1:資料流分析 81
4.3.2 關鍵電路分析2:時序分析 89
4.3.3 關鍵電路分析3:硬體資源消耗分析 92
4.3.4 關鍵電路分析4:分群剪枝之硬體分析 94
4.3.5 關鍵電路分析5:預測閥值因子之硬體分析 96
4.4、整體定量分析 98
4.5 現有文獻定量比較 103
第五章 結論與未來展望 105
5. 1 結論 105
5. 2 未來展望 105
參考文獻 106

圖目錄
圖1. 1、經典CNN架構圖 2
圖2. 1、深度神經網路 8
圖2. 2、神經元與激化函數 8
圖2. 3、CNN模型架構 12
圖2. 4、全連接層 12
圖2. 5、卷積層 13
圖2. 6、全連接層與卷積層的比較 13
圖2. 7、池化層 14
圖2. 8、INCEPTION 網路層架構[18] 15
圖2. 9、殘差網路層[19] 16
圖2. 10、NAS的演算法示意圖[20] 17
圖2. 11、老師與學生模型架構[21] 17
圖2. 12、原始全連接層運算示意圖 18
圖2. 13、矩陣分解後運算示意圖 19
圖2. 14、文獻[24]的剪枝步驟 20
圖2. 15、量化基本操作 21
圖2. 16、文獻[5]的效能比較表 22
圖2. 17、經典CNN加速器架構 23
圖2. 18、文獻[26]當中所介紹的不同資料流示意圖 24
圖2. 19、EYERISS[6]的硬體架構圖 25
圖2. 20、OLACCEL[7]的關鍵硬體架構 26
圖2. 21、BITFUSION[8]的關鍵硬體架構 27
圖2. 22、OLACCEL[9]的量化權重分析 28
圖2. 23、OLACCEL[9]的硬體架構圖 29
圖2. 24、DRQ[10]的關鍵硬體架構 30
圖3. 1、權重分佈圖 36
圖3. 2、絕對值與分群剪枝差異圖 38
圖3. 3、GLOBAL AVERAGE POOLING演算法示意圖 40
圖3. 4、權重分佈與卷積核平均值分佈圖 40
圖3. 5分群運算差異圖 41
圖3. 6、不同剪枝策略與平均值標準差關係 43
圖3. 7、區間1示意圖 44
圖3. 8、區間2示意圖 44
圖3. 9、區間3示意圖 45
圖3. 10、區間1、區間2、區間3數量百分比 46
圖3. 11、PN10、PN01、PN11、PN00數量百分比 46
圖3. 12、第二閥值示意圖 47
圖3. 13、不同做法精準度比較圖 49
圖3. 14、分群剪枝方法示意圖 50
圖3. 15、文獻[10]之演算法比較 53
圖3. 16、非結構與結構剪枝差異 54
圖3. 17、節能資料流示意圖 56
圖3. 18、DRQ與本論文PE運算差異 58
圖3. 19、混合精度乘法原理 58
圖3. 20、DRQ與本論文演算法差異 61
圖3. 21、DRQ[26]與本論文時序理論分析 61
圖3. 22、本論文硬體架概念圖 62
圖3. 23、GEMM原理 64
圖3. 24、GEMM運算 64
圖3. 25、變速PE運作原理與時序圖 66
圖3. 26、混合精度乘法電路 66
圖3. 27、池化單元 68
圖4. 1、AI建模與模型壓縮流程圖 70
圖4. 2、硬體模擬驗證流程 70
圖4. 3、剪枝數量與N值比較圖(CIFAR10 VGG16) 73
圖4. 4、剪枝數量與N值比較圖 (MNIST VGGNET) 74
圖4. 5、剪枝數量與N值比較圖 (MNIST RNET) 74
圖4. 6、N值與預測閥值因子TH RATE比較圖 (CIFAR10 VGG16) 77
圖4. 7、N值與預測閥值因子TH RATE比較圖 (MNIST VGGNET) 78
圖4. 8、N值與預測閥值因子TH RATE比較圖 (MNIST RNET) 78
圖4. 9、傳統動態量化與本論文硬體架構圖 82
圖4. 10、傳統動態量化之資料流1 83
圖4. 11、傳統動態量化之資料流2-1:卷積層運算 85
圖4. 12、傳統動態量化之資料流2-2:卷積層+池化層運算 86
圖4. 13、本論文之資料流:VGG BLOCK運算 89
圖4. 14、時序分析比較圖 92
圖4. 15、剪枝數量與硬體PPA比較圖 95
圖4. 16、TH RATE之運算時間與精準度損失比較圖 97
圖4. 17、DRQ與本論文之VGG16不同網路層的執行時間圖 100
圖4. 18、DRQ與本論文之VGG16不同網路層的能量圖 100
圖4. 19、本論文加速器晶片佈局圖 102

表目錄
表2. 1、量化與節能硬體特性表 33
表2. 2、量化方法特性比較表 33
表3. 1、不同做法列表 48
表3. 2、不同做法精準度比較表 49
表3. 3、MAC運算週期比較 59
表4. 1、模型規格 72
表4. 2、剪枝數量與精準度比較表 76
表4. 3、預測閥值因子TH RATE與精準度的比較表 80
表4. 4、卷積層之MAC數量與運算時間分析表 94
表4. 5、卷積層之儲存空間與讀取次數分析表 94
表4. 6、剪枝數量與硬體PPA比較表 96
表4. 7、TH RATE之運算時間與精準度損失比較表 98
表4. 8、整體硬體效能比較 101
表4. 9、本論文加速器晶片規格 103
表4. 10、現有文獻定量比較表 104
[1] S. Grigorescu, B. Trasnea, T. Cocias, and G. Macesanu, “A survey of deep learning techniques for autonomous driving,” Journal of Field Robotics, Nov 2019.
[2] Abdel-Hamid, O., Mohamed, A.r., Jiang, H., Deng, L., Penn, G., Yu, D., 2014. Convolutional Neural Networks for Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing 22, 1533–1545. http://ieeexplore.ieee.org/document/6857341/, 10.1109/TASLP.2014.2339736.
[3] A. K. Arslan, ¸S. Ya¸sar, and C. Çolak, “An intelligent system for the classification of lung cancer based on deep learning strategy,” in 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), pp. 1–4, 2019.
[4] R. Zanc, T. Cioara, and I. Anghel, “Forecasting financial markets using deep learning,” in 2019 IEEE 15th International Conference on Intelligent Computer Communication and Processing (ICCP), pp. 459–466, 2019
[5] R. Mohammad, O. Vicente, R. Joseph, and F. Ali. 2016. Xnor-net: Imagenet classification using binary convolutional neural networks. In European Conference on Computer Vision. Springer, 525–542.
[6] Y.-H. Chen, T. Krishna, J. S. Emer, and V. Sze,“Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks,” IEEE J. Solid-State Circuits, vol. 52, no. 1, pp. 127–138, Jan. 2017.
[7] D. Kim, J. Ahn, and S. Yoo, “Zena: Zero-aware neural network accelerator,” Design & Test, 2018.
[8] Hardik Sharma, Jongse Park, Naveen Suda, Liangzhen Lai, Benson Chau, Vikas Chandra, and Hadi Esmaeilzadeh. Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural networks. In Proceedings of the 45th Annual International Symposium on Computer Architecture, pages 764–775, 2018.
[9] Eunhyeok Park, Dongyoung Kim, and Sungjoo Yoo. Energy-efficient neural network accelerator based on outlier-aware low-precision computation. In ACM/IEEE 45th Annual International Symposium on Computer Architecture (ISCA), pages 688–698, 2018
[10] Z. Song, B. Fu, F. Wu, Z. Jiang, L. Jiang, N. Jing, and X. Liang. 2020. DRQ: Dynamic region-based quantization for deep neural network acceleration. In ACM/IEEE 47th International Symposium on Computer Architecture (ISCA). 1010–1021.
[11] H. Li, A. Kadav, I. Durdanovic, H. Samet, H.P. Graf, Pruning Filters for Efficient ConvNets, in: International Conference on Learning Representations (ICLR), 2017, https://doi.org/10.1029/2009GL038531.
[12] Bengio, Y. Learning Deep Architectures for AI. Found. Trends Mach. Learn. 2009, 2, 1–127. [CrossRef]
[13] Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. Gradient-Based Learning Applie.d to Document Recognition.Proc. IEEE 1998, 86, 2278–2324.
[14] D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” in 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, Y. Bengio and Y. LeCun, Eds., 2015.
[15] Krizhevsky, A.; Sutskever, I.; Hinton, G.E. ImageNet Classification with Deep Convolutional Neural Networks. In Proceedings of the 25th International Conference on Neural Information Processing Systems—Volume 1; Curran Associates Inc.: Red Hook, NY, USA, 2012; pp. 1097–1105.
[16] Russakovsky, O.; Deng, J.; Su, H.; Krause, J.; Satheesh, S.; Ma, S.; Huang, Z.; Karpathy, A.; Khosla, A.; Bernstein, M.; et al. ImageNet Large Scale Visual Recognition Challenge. Int. J. Comput. Vis. 2015, 115, 211–252.
[17] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings (Y. Bengio and Y. LeCun, eds.), 2015.
[18] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, Going deeper with convolutions, in: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, IEEE, 2015, pp. 1–9, https://doi.org/10.1109/
[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition.
[20] T. Elsken, J.H. Metzen, F. Hutter, Neural Architecture Search, J. Mach. Learn. Res. 20 (2019) 63–77, http://link.springer.com/10.1007/978-3-030-05318- 5_3
[21] Wang, Junpeng, et al. “DeepVID: Deep Visual Interpretation and Diagnosis for Image Classifiers via Knowledge Distillation.” IEEE transactions on visualization and computer graphics 25.6 (2019): 2168–2180. CVPR.2015.7298594.
[22] A. Novikov, D. Podoprikhin, A. Osokin, and D. P. Vetrov. 2015. Tensorizing neural networks. In Advances in Neural Information Processing Systems. 442–450. [23] C. Deng, F. Sun, X. Qian, J. Lin, Z. Wang, and B. Yuan, “TIE: Energy-efficient tensor train-based inference engine for deep neural network,” in Proc. 46th Int. Symp. Comput. Archit., 2019, pp. 264–278.
[24] S. Han, H. Mao, W.J. Dally, Deep compression: Compressing deep neural networks with pruning, trained quantization and Huffman coding, in: International Conference on Learning Representations(ICLR), 2016, pp. 199–203.
[25] S. Migacz, “NVIDIA 8-bit inference width TensorRT,” GPU Technology Conference, 2017.
[26] Deng, B.L.; Li, G.; Han, S.; Shi, L.; Xie, Y. Model Compression and Hardware Acceleration for Neural Networks: A Comprehensive Survey. Proc. IEEE 2020, 108, 485–532.
[27] S. Han, J. Pool, J. Tran, and W. J. Dally, “Learning both weights and
connections for efficient neural networks,” in Proceedings of the 28th
International Conference on Neural Information Processing Systems -
Volume 1, NIPS’15, (Cambridge, MA, USA), p. 1135–1143, MIT Press,
2015.
[28] Michael Zhu and Suyog Gupta. To prune, or not to prune: exploring the efficacy of pruning for model compression. ICLR Workshop, 2018.
[29] Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. The cifar-10 dataset. online: http://www. cs. toronto. edu/kriz/cifar. html, 55, 2014.
[30] Mart´ın Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al. Tensorflow: A system for large-scale machine learning. In 12th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 16), pages 265–283, 2016.
[31] Li Deng. The mnist database of handwritten digit images for machine learning research [best of the web]. IEEE Signal Processing Magazine, 29(6):141–142, 2012.
電子全文 電子全文(網際網路公開日期:20271108)
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊