研究生(外文):Yu-Cheng Wang
論文名稱(外文):Robot Grasping of Unknown Objects in Clutter Using Category-Agnostic Instance Segmentation
指導教授(外文):Jyh-Jone Lee
外文關鍵詞:Robot Grasping of Unknown Objects in ClutterCategory-Agnostic Instance SegmentationCurriculum LearningGrasping Point Generative
近年來,深度學習被大量應用於物件識別與機器手臂夾取物件上,如自動化工廠的上下料。然而,隨著現今工廠少量多樣的生產模式,深度學習在面對新的物件時,通常無法直接應用,需針對新的物件重新蒐集資料以訓練模型。為因應此問題,本研究提出一套能針對未知新物件在堆疊場景中的夾取流程。本研究的夾取流程分為兩步驟,第一步驟會先透過與類別無關之實例切割模型(Mask R-CNN),將物件的遮罩由堆疊場景中辨識出來。其中,為了訓練與類別無關之實例切割模型,本研究透過Blender建立虛擬環境,生成虛擬堆疊資料集;此外,也結合課程學習(Curriculum Learning),將虛擬堆疊資料集,根據場景中物件的密集程度,分成三種難易度不同的資料集來訓練與類別無關之實例切割模型。而在第二步驟中,會將第一步驟所得到的物件遮罩,擷取其深度資訊輸入夾取點生成卷積類神經網路(Generative Grasping Convolutional Neural Network , GG-CNN2),得到夾取點。本研究最後透過實際實驗來驗證夾取流程,在5種未知新物件所形成的堆疊場景中,達到92.94%的平均夾取成功率。實驗結果證明了本研究之夾取流程,應用於未知堆疊物件夾取的可行性。
In recent years, methods using deep learning have been widely applied in object recognition and robot grasping, such as loading and unloading in automated factories. However, the deep learning-based model needs to be retrained for new objects due to the low-volume, high-variety production environments in today's factories. In response to this problem, a grasping pipeline containing two steps has been proposed for grasping novel objects in cluttered scenes. In the first step of the grasping pipeline, an object’s mask is identified through a category-agnostic instance segmentation model. A virtual environment is also created using Blender to generate a synthetic dataset for training the instance segmentation model. Furthermore, by using Curriculum Learning to train the instance segmentation model, we generate 3 kinds of synthetic dataset with different density of cluttering. In the second step, the Generative Grasping Convolutional Neural Network (GG-CNN2) which uses the depth information of the object mask obtained in the first step is used to get the grasping points. Finally, we demonstrate the system's ability by using a real robot to grasp 5 unknown new objects in a cluttered environment and achieve a grasp success rate up to 92.94%.
誌謝 i
摘要 ii
Abstract iii
目錄 iv
圖目錄 vii
表目錄 x
緒論 1
1.1 研究背景 1
1.2 文獻回顧 1
1.2.1 未知單一物件抓取-傳統方法 4
1.2.2 未知單一物件抓取-學習方法 7
1.2.3 未知多重物件抓取 8
1.3 研究目的 11
1.4 本文架構 12
第二章 實例切割 13
2.1 Mask-RCNN 13
2.1.1 特徵提取網路 14
2.1.2 區域提案網路 15
2.1.3 感興趣區域對齊 16
2.1.4 類別、邊界框與遮罩預測 17
2.2 資料蒐集與標註 17
2.2.1 渲染軟體 Blender 17
2.2.2 課程學習 19
2.2.3 資料蒐集方法 22
2.2.4 資料標註方法 24
2.3 模型訓練 25
2.3.1 泛化物件訓練 26
2.4 模型預測結果 27
2.4.1 評判標準 28
2.4.2 Wisdom資料集 29
2.4.3 量化結果 30
第三章 夾取點生成與判定 32
3.1 夾取點生成卷積類神經網路 32
3.1.1 夾取點定義 32
3.1.2 模型架構 34
3.2 模型訓練 35
3.2.1 訓練資料 35
3.2.2 訓練流程 38
3.3 模型預測結果 39
3.3.1 Cornell 夾取資料集 39
3.3.2 Jacquard 資料集 40
3.3.3 深度影像處理 41
3.4 夾取點選擇與干涉判斷 43
3.4.1 夾取點干涉判斷 43
3.4.2 夾取點擴增 45
第四章 實驗系統與驗證 46
4.1 系統 46
4.1.1 系統架構 46
4.1.2 實驗環境 46
4.1.3 夾取系統坐標系 49
4.2 夾取流程驗證 50
4.2.1 夾取流程 50
4.2.2 夾取成功率 51
4.2.3 夾取流程運算時間 52
4.2.4 課程學習驗證 52
4.2.5 GG-CNN2 訓練資料集驗證 53
4.2.6 深度影像處理驗證 55
第五章 結論與未來展望 56
5.1 結論 56
5.2 未來展望 57
參考文獻 58
