跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.59) 您好!臺灣時間:2025/10/12 08:45
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:高煒翔
研究生(外文):Kao, Wei-Hsiang
論文名稱:電影轉換為漫畫之自動化系統
論文名稱(外文):Automatic movie comicization
指導教授:陳玲慧陳玲慧引用關係
指導教授(外文):Chen, Ling-Hwei
口試委員:石昭玲李建興
口試委員(外文):shih, Jau-LingLee, Chang-Hsing
口試日期:2015-11-13
學位類別:碩士
校院名稱:國立交通大學
系所名稱:多媒體工程研究所
學門:電算機學門
學類:軟體發展學類
論文種類:學術論文
論文出版年:2015
畢業學年度:104
語文別:中文
論文頁數:34
中文關鍵詞:關鍵畫面說話者辨識卡通化
外文關鍵詞:keyframespeaker identificationcartoonization
相關次數:
  • 被引用被引用:0
  • 點閱點閱:272
  • 評分評分:
  • 下載下載:37
  • 收藏至我的研究室書目清單書目收藏:0
隨著資訊科技蓬勃發展,行動裝置的使用日漸普及,人們也在不知不覺中養成了在這些裝置上欣賞"故事"的習慣,這些"故事"的形式主要分為影片、漫畫及小說,而其中以裝置的限制與效率來說,漫畫算是比較適合使用這些裝置觀賞的瀏覽方式。
然而漫畫的製作過程相當繁雜,且需要人力介入的部份非常的多,因此自動化產生一部漫畫的需求便逐漸增加,而在上述的另外兩種形式中,影片的結構跟漫畫比較相近,所以本論文研製如何將一部影片轉換成漫畫的形式呈現。
影片和漫畫主要的差別在於內容以及視覺效果的呈現,影片中一句話可能有數十個畫面,而漫畫一格通常只含一句話,且一頁大概只有五到六個畫格,因此如何用有限的畫格來傳達影片中的訊息是第一個課題;另外,由於影片中有聲音及字幕來做輔助,觀眾們藉此可以很輕易地知道目前對話的內容及身分,然而,在漫畫的形式中,這樣的資訊需要用對話方塊(俗稱氣球)包覆著對話的內容並放置在說話者的附近來傳遞,所以對話內容與說話者身分之間的對映便成了第二個課題;最後一個需要解決的課題是影片及漫畫中視覺呈現上的差異,這之中包含了氣球的製作及放置、畫面風格的轉換以及畫格的編排。
本論文致力研究上述三個課題:(1)關鍵畫面的擷取(2)台詞與人臉的對映(3)視覺呈現的風格轉換。本篇使用了影片結合文字(劇本及字幕)的資訊來解決前兩個問題,並研究了一些有關視覺風格及漫畫設計的準則來解決第三個問題,以一些影片的片段來做測試,提供了一套自動化地將影片轉換為漫畫形式來做呈現的系統。


With Booming development of information technology, the using rate of mobile devices are getting higher and higher. People unknowingly get used to tasting "story" on these devices. The presentation of story is in the following ways, video, novel and comic. From the perspective of efficiency and limit on devices, "comic" is the most suitable way on these devices.
However, the creation of comics is quite complicated and m needs many manual works. The demand for automatic production of comics is increasing gradually. Since "video" is similar with "comic" in structure, we study how to turn a video into comic in this work.
The main difference between a video and a comic is the presentation of contents and visual effects. In a video, there may be dozens of frames to convey a sentence. But in a comic, there is usually only a sentence in a panel, and there are about five or six panels in a page. So how to convey the information in the video with limited panels is the first issue. In addition, the audience can obtain the content of conversation and the identity of the speaker easily with sound and subtitle when watching video. But in comic, the information is expressed with "balloon". Therefore, how to match the content of conversation with the speaker is the second issue. The last issue is to solve the difference in visual effects which consist of the generation and placement of balloon, frame stylization and panel layout.
This work will dedicate to study the above three issues in, (1) key-frame extraction; (2) speaker identification; (3) catoonization. The first and second issues will solved by combining the information of video with text (containing script and subtitle), and the third issue will be handled based on some principles of comic design. Some video clips are taken as testing data to show the effectiveness of the proposed system, which turns a video into a comic automatically.

中文摘要••••••••••••••••••••••••••••••••••••••••••••••••••i
英文摘要••••••••••••••••••••••••••••••••••••••••••••••••iii
誌謝 ••••••••••••••••••••••••••••••••••••••••••••••••••v
目錄 •••••••••••••••••••••••••••••••••••••••••••••••••vi
表目錄 •••••••••••••••••••••••••••••••••••••••••••••••viii
圖目錄 •••••••••••••••••••••••••••••••••••••••••••••••••ix
一、 緒論••••••••••••••••••••••••••••••••••••••••••••••1
1.1 研究動機••••••••••••••••••••••••••••••••••••••••••1
1.2 研究議題••••••••••••••••••••••••••••••••••••••••••2
1.3 相關研究••••••••••••••••••••••••••••••••••••••••••3
1.4 論文架構••••••••••••••••••••••••••••••••••••••••••8
二、 研究方法••••••••••••••••••••••••••••••••••••••••••9
2.1 關鍵畫面擷取•••••••••••••••••••••••••••••••••••••10
2.1.1 對話畫面片段擷取•••••••••••••••••••••••••••••••••10
2.1.2 片段中人臉追蹤•••••••••••••••••••••••••••••••••••10
2.1.3 關鍵畫面擷取•••••••••••••••••••••••••••••••••••••11
2.2 說話者辨別•••••••••••••••••••••••••••••••••••••••12
2.2.1 取得各對話片段身分•••••••••••••••••••••••••••••••12
2.2.2 畫面中說話者辨識•••••••••••••••••••••••••••••••••14
2.2.2.1 賦予說話者身分•••••••••••••••••••••••••••••••••••14
2.2.2.2 分群••••••••••••••••••••••••••••••••••••••••••••16
2.2.2.3 同身分群組比較•••••••••••••••••••••••••••••••••••19
2.2.2.4 未知群組身分賦予•••••••••••••••••••••••••••••••••20
2.2.2.5 時空規則••••••••••••••••••••••••••••••••••••••••20
2.3 卡通化處理•••••••••••••••••••••••••••••••••••••••23
2.3.1 視覺卡通化•••••••••••••••••••••••••••••••••••••••23
2.3.2 對話氣球的產生與放置•••••••••••••••••••••••••••••24
2.3.2.1 氣球的產生•••••••••••••••••••••••••••••••••••••••24
2.3.2.2 氣球的放置•••••••••••••••••••••••••••••••••••••••25
2.3.3 版面配置•••••••••••••••••••••••••••••••••••••••••26
三、 實驗結果•••••••••••••••••••••••••••••••••••••••••28
3.1 身份辨識•••••••••••••••••••••••••••••••••••••••••28
3.2 漫畫結果圖•••••••••••••••••••••••••••••••••••••••31
四、 結論與未來展望•••••••••••••••••••••••••••••••••••33
4.1 結論•••••••••••••••••••••••••••••••••••••••••••••33
4.2 未來展望•••••••••••••••••••••••••••••••••••••••••33
參考文獻•••••••••••••••••••••••••••••••••••••••••••••••••34

[1] B. Chun, D. Ryu, W. Hwang, and H. Cho. "Cinema comics: cartoon generation from video stream." In Proceedings of GRAPP, pp. 299 -304, 2006.
[2] J. Preu, and J. Loviscach. “From movie to comics, informed by the screenplay,” in Proceedings of SIGGRAPH, 2007 posters.
[3] R. Hong, M. Wang, M. Xu, S. Yan, and T.-S. Chua. "Video accessibility enhancement for hearing impaired users." ACM transactions on
Multimedia Computing, Communications, and Applications, pp. 24 - 42,
2011.
[4] M. Wang, R. Hong, X. Yuan, S. Yan, and T. Chua. "Movie2Comics:
Towards a lively video content presentation," IEEE Transactions on
Multimedia, vol.14, no. 3, pp. 858 - 870, 2012.
[5] D. G. Lowe. "Object recognition from local scale-invariant features," In Proceedings of the seventh IEEE International Conference on Computer Vision, vol. 2, pp. 1150 -1157, 1999.
[6] P. Viola and M. Jones. “Rapid object detection using a boosted cascade of simple features,” in Proceedings of IEEE International Conference on Computer Vision and Pattern.Recognition, pp. 511 - 518, 2001.
[7] Dynamic Programming, [Online]. Available:
http://www.csie.ntnu.edu.tw/~u91029/DynamicProgramming.html.
[8] Hierarchical clustering, [Online]. Available:
http://mirlab.org/jang/books/dcpr/dcHierClustering.asp.
[9] K.Dade, "Toonify: Cartoon Photo Effect Application", [Online]. Available:
https://stacks.stanford.edu/file/druid:yt916dh6570/Dade_Toonify.pdf.
[10] C. Tomasi and R. Manduchi. "Bilateral filtering for gray and color images." In Proceedings of the IEEE Sixth Internatinal Conference on Computer Vision, pp. 836 – 846, 1998.
[11] C. Elkan," Nearest Neighbor Classification", 2011, [Online].Available:
http://www.researchgate.net/publication/228749196 .
[12] J. Wright, A. Ganesh, A. Y. Yang, and Y. Ma. "Robust face recognition via sparse representation." In Proceedings of the IEEE transactions on Pattern Analysis and Machine intelligence vol. 30, no. 2, pp. 210 - 227, 2009.

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top