跳到主要內容

臺灣博碩士論文加值系統

(3.95.131.146) 您好!臺灣時間:2021/07/29 01:53
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳育修
研究生(外文):Yu-Hsiu Chen
論文名稱:藉由孿生網路進行不受濾鏡影響之社群網路圖片分類
論文名稱(外文):Filter-Invariant Image Classification on Social Media Photos by Using Siamese Network
指導教授:徐宏民
指導教授(外文):Winston H. Hsu
口試委員:陳文進李宏毅孫民
口試委員(外文):Wen-Chin ChenHung-Yi LeeMin Sun
口試日期:2015-07-21
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2015
畢業學年度:103
語文別:英文
論文頁數:15
中文關鍵詞:深度學習圖片分類類神經網路
外文關鍵詞:Deep learningConvolutional Neural NetworkImage Classificaiton
相關次數:
  • 被引用被引用:2
  • 點閱點閱:278
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
隨著社群網路的蓬勃發展,不只是文字,同時也有愈來愈多的多媒體資料透過使用者上傳到社群網路,根據統計,每天至少有三億多張照片被上傳到Facebook上,而如何去分析這些多媒體資料去了解背後的故事,創造出更進一步的價值就成了相當重要的一項議題,於是能做出正確圖片分類(Image classification)的演算法便是個相當迫切的需求。現今有許多使用卷積神經網路(Convolutional Neural Network)的研究在圖片分類上取得了不小的進展,然而,目前這些使用卷積神經網路去進行圖片分類的方法們都忽略了一件事情──也就是社群網路上的相片常常是套過濾鏡的。根據Instagram的統計,Instagram上有54\%的照片都是有套過濾鏡的,可說濾鏡在社群網路上的照片中扮演著重要的角色;然而之前的研究方法通常都忽略了套過濾鏡的圖片對圖片分類演算法所造成的影響,讓相片在套過濾鏡後就容易被分類成完全不同的錯誤類別,使得分類的準確率會劇烈的下降。這些事實再再的顯示出考慮濾鏡帶來的影響是件無可避免的事情。

所以我們提出了一個獨特的卷積神經網路架構,是基於連體神經網路(Siamese network)加上兩個我們設計的正規化損失函數去學到較富有濾鏡不變性(Filter-Invariant)的特徵值。根據我們所設計的正規化損失函數,我們會將相似的成對資料(同樣類別的圖片但套上不同的濾鏡)的特徵值距離拉近,再將不相似的成對資料(不同類別的圖片但套上相同的濾鏡)距離拉開至一定的距離。結合分類函數與此正規化損失函數,我們可以同時學到具有語意一致性與濾鏡不變性的特徵值,從而達到更高的分類準確度。

經過實驗,我們的研究方法在套過濾鏡的資料集上所訓練出的結果擊敗了所有其他的研究方法,成為目前最先進的研究之一。

With the popularity of social media nowadays, tons of photos are uploaded everyday.
To understand the image content, image classification becomes a very essential technique for plenty of applications (e.g., object detection, image caption generation).
Convolutional Neural Network (CNN) has been shown as the state-of-the-art approach for image classification.
However, one of the characteristics in social media photos is that they are often applied with photo filters, especially on Instagram.
We find that prior works do not aware of this trend in social media photos and fail on filtered images.
Thus, we propose a novel CNN architecture that utilizes the power of pairwise constraint by combining Siamese network and the proposed adaptive margin contrastive loss with our discriminative pair sampling method to solve the problem of filter bias.
To the best of our knowledge, this is the first work to tackle filter bias on CNN and achieve state-of-the-art performance on a filtered subset of ILSVRC2012.

Contents
口試委員會審定書 i
誌謝 ii
Acknowledgements iii
摘要 iv
Abstract vi
1 Introduction 1
2 Related Work 3
3 Proposed Method 5
3.1 CNN Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Pairwise Definition For Siamese Network . . . . . . . . . . . . . . . . . 6
3.3 Adaptive Margin Contrastive Loss . . . . . . . . . . . . . . . . . . . . . 7
3.4 Discriminative Pair Sampling . . . . . . . . . . . . . . . . . . . . . . . . 8
4 Experiment Results 10
4.1 Filter100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 Experiment Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3 Experiment Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5 Conclusion 13
Bibliography 13


[1] J. Bromley, J. W. Bentz, L. Bottou, I. Guyon, Y. LeCun, C. Moore, E. Säckinger,
and R. Shah. Signature verification using a “siamese” time delay neural network.
IJPRAI, 1993.
[2] I. J. Goodfellow, J. Shlens, and C. Szegedy. Explaining and harnessing adversarial
examples. ICLR, 2015.
[3] Z. Guo and Z. J. Wang. An adaptive descriptor design for object recognition in the wild. In ICCV, 2013.
[4] R. Hadsell, S. Chopra, and Y. LeCun. Dimensionality reduction by learning an invariant mapping. In CVPR, 2006.
[5] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In
ACM MM, 2014.
[6] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
[7] J. Lin, O. Morère, V. Chandrasekhar, A. Veillard, and H. Goh. Deephash: Getting regularization, depth and fine-tuning right. CoRR, abs/1501.04711, 2015.
[8] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
[9] K. Saenko, B. Kulis, M. Fritz, and T. Darrell. Adapting visual category models to new domains. In ECCV. 2010.
[10] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. ICLR, 2015.
[11] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CVPR, 2015.
[12] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus. Intriguing properties of neural networks. ICLR, 2014.
[13] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. In CVPR, 2014.
[14] E. Tzeng, J. Hoffman, N. Zhang, K. Saenko, and T. Darrell. Deep domain confusion: Maximizing for domain invariance. CoRR, abs/1412.3474, 2014.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top