(3.238.96.184) 您好!臺灣時間:2021/05/08 03:44
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:周士成
研究生(外文):CHOU,SHR-CHENG
論文名稱:應用Doc2vec的專利權文件分類系統
論文名稱(外文):A Patent Document Category System by Using Doc2vec
指導教授:黃文楨黃文楨引用關係
指導教授(外文):HUANG,WEN-CHEN
口試委員:李嘉紘黃承龍殷堂凱
口試委員(外文):Lee,JIA-HONGHUNG,CHENG-LUNGYIN,TANG-KAI
口試日期:2017-06-23
學位類別:碩士
校院名稱:國立高雄第一科技大學
系所名稱:資訊管理系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:65
中文關鍵詞:專利權分類
外文關鍵詞:Doc2vecWIPOPatent
相關次數:
  • 被引用被引用:0
  • 點閱點閱:1148
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
近年來,隨著資訊化的發展,現今電子檔或數位化類型的文件較過去來的多。專利申請的國家和文件也日漸增多,人們開始減少採用人工的分類的方式進行分類,並提出關於文件自動分類的相關研究方法,以便能幫助管理者或使用者快速分類和找到資料。本研究希望針對由世界知識產權組織(World Intellectual Property Organization)所提供的開放資料,來幫助專利權資料文件分類,並提出一種準確率高於過去的新方法。在本研究中,嘗試使用摘要、全文、全文前三百字在去除停用詞後,並使用過去在WIPO專利文件中還沒有人實驗過的Doc2vec進行段落向量的訓練,在調整參數找出模型最佳化的結果後,結果發現利用Doc2vec的Distributed Memory(DM)訓練的文章向量做為特徵值優於Distributed Bag of Words (DBOW),並以多層感知器(MLP)等分類器進行訓練並將各個方法的實驗結果作比較,在WIPO-Alpha資料集的Section(第一層)、Class(第二層) 、 SubClass(第三層) 、 Main Group(第四層)的各層中,準確率為73%、85%、95%和94%,在實驗結果中亦表現的比其他方法穩定,各層都有優異的分類結果,並且在研究中,也發現使用全文作為特徵值的分類結果優於摘要和全文前300字,在各個分類器中(SVM、Logistic Regression、MLP、Random Forest),本研究提出的方法中,全文的平均準確率皆高於其他的分類器。
There are more digital files than ever before in recent years. The proposed method (TXT-MLP) introduces an automatic classification method to help managers quickly sort and find the data. This study uses the data from World Intellectual Property Organization (WIPO) to test and improve patent documents automatic classification.
Our research data use three kinds of features: (1) abstract; (2) full text; (3) the full text of the first 300 words. Doc2vec to train the model and turn the paragraph to vector for patent classification. After adjusting parameters, we found the best of parameters in the Doc2vec’s model.
In the experimental result, the Distributed Memory (DM) method in Doc2vec is better the Distributed Bag of Words (DBOW) method in the WIPO. Multilayer Perceptron (MLP) is used to be a classifier. The average accuracy of WIPD -Alpha data set of the Section (first layer), Class (second layer), SubClass (third layer), Main Group (the fourth layer) is 73%、85%、95%和94%. The MLP method’s accuracy are better than other methods(SVM、Logistic Regression、MLP、Random Forest). The best feature is full text based on our experiment.

摘要 I
ABSTRACT II
致謝 III
目錄 IV
表目錄 VI
圖目錄 VII
壹、 緒論 1
一、研究背景 1
二、研究動機和目的 2
三、研究貢獻與重要性 3
貳、 文獻探討 4
一、文件分類相關研究 4
二、國外WIPO專利文件分類相關研究: 5
三、國內WIPO專利文件分類相關研究 6
四、其它WIPO專利權相關研究: 7
五、WORD2VEC & DOC2VEC相關研究: 7
六、多層感知器(MULTILAYER PERCEPTRON) 12
參、 研究方法 14
一、研究架構 14
3.1.1 文件前處理方法 14
3.1.2 GoogleNews-vectors-negative模型訓練Doc2vec模型 18
3.1.3 利用Doc2vec做文章向量的訓練 19
3.1.4 MLP分類器參數調整 24
二、實驗限制 25
3.2.1 空白摘要和內文: 25
3.2.2 GoogleNews-vectors-negative的維度 26
3.2.3 Logistic Regression 和SVM 在訓練時問題 26
三、實驗資料集 27
四、系統環境 32
五、研究步驟 33
肆、 實驗結果 36
一、評估方法 36
二、分類結果 37
三、實驗探討 43
4.3.1 Doc2vec相似度問題 43
伍、結論與未來研究 45
陸、參考文獻 46
附錄 50


Aung, W. T., Myanmar, Y., & Hla, K. H. M. S. (2009, December). Random forest classifier for multi-category classification of web pages. In Services Computing Conference, 2009. APSCC 2009. IEEE Asia-Pacific (pp. 372-376). IEEE.
Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media, Inc..
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
Borko, H., & Bernick, M. (1963). Automatic document classification. Journal of the ACM (JACM), 10(2), 151-162.
Brücher, H., Knolmayer, G., & Mittermayer, M. A. (2002). Document classification methods for organizing explicit knowledge.
Chris McCormick (2016). Google's trained Word2Vec model in Python.
Available at: http://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/
Fall, C. J., Törcsvári, A., Benzineb, K., & Karetka, G. (2003, April). Automated categorization in the international patent classification. In ACM SIGIR Forum (Vol. 37, No. 1, pp. 10-25). ACM.
Fall, C. J., Törcsvári, A., Fiévet, P., & Karetka, G. (2004). Automated categorization of German-language patent documents. Expert Systems with Applications, 26(2), 269-277.
Gensim Doc2vec, (2017) models.doc2vec – Deep learning with paragraph2vec. Available at: https://radimrehurek.com/gensim/models/doc2vec.html
Gensim Word2vec, (2017) models.word2vec – Deep learning with word2vec. Available at: https://radimrehurek.com/gensim/models/word2vec.html
Geva, S., & De Vries, C. M. (2011, October). Topsig: Topology preserving document signatures. In Proceedings of the 20th ACM international conference on Information and knowledge management (pp. 333-338). ACM.
Isa, D., Lee, L. H., Kallimani, V. P., & Rajkumar, R. (2008). Text document preprocessing with the Bayes formula for classification using the support vector machine. IEEE Transactions on Knowledge and Data engineering, 20(9), 1264-1272.
Lau, J. H., & Baldwin, T. (2016). An empirical evaluation of doc2vec with practical insights into document embedding generation. arXiv preprint arXiv:1607.05368.
Le, Q. V., & Mikolov, T. (2014, June). Distributed Representations of Sentences and Documents. In ICML (Vol. 14, pp. 1188-1196).
Lins, A. P. S., & Ludermir, T. B. (2005, November). Hybrid optimization algorithm for the definition of mlp neural network architectures and weights. In Hybrid Intelligent Systems, 2005. HIS'05. Fifth International Conference on (pp. 6-pp). IEEE.
Nakai, Y. (2013, July). Electric vehicle (EV) manufacturers' challenge: R&D strategy of battery safety units seen in WIPO data. In Innovation Conference (SIIC), 2013 Suzhou-Silicon Valley-Beijing International (pp. 53-55). IEEE.
Neural network models (supervised),(2017) Available at: http://scikit-learn.org/stable/modules/neural_networks_supervised.html
Ramchoun, H., Amine, M., Idrissi, J., Ghanou, Y., & Ettaouil, M. (2016). Multilayer Perceptron: Architecture Optimization and Training. IJIMAI, 4(1), 26-30.
Reuters-21578 text classification with Gensim and Keras
Available at: https://www.bonaccorso.eu/2016/08/02/reuters-21578-text-classification-with-gensim-and-keras/
Seneviratne, D., Geva, S., Zuccon, G., Ferraro, G., Chappell, T., & Meireles, M. (2015, December). A signature approach to patent classification. In Asia Information Retrieval Symposium (pp. 413-419). Springer International Publishing.
Tikk, D., & Biró, G. (2003, September). Experiment with a hierarchical text categorization method on the WIPO-alpha patent collection. In Uncertainty Modeling and Analysis, 2003. ISUMA 2003. Fourth International Symposium on (pp. 104-109). IEEE.
Wu, F., Tang, M., & Huang, L. (2010, December). Analysis on the technologies' trend of R&D industry based on WIPO patent and SCI documents. In Information Science and Engineering (ICISE), 2010 2nd International Conference on (pp. 117-120). IEEE.
Xing, C., Wang, D., Zhang, X., & Liu, C. (2014, December). Document classification with distributions of word vectors. In Asia-Pacific Signal and Information Processing Association, 2014 Annual Summit and Conference (APSIPA) (pp. 1-5). IEEE.
李庭峻,(2016,06) 應用Gensim 與相似度排行的專利權文件分類系統的類系統.,國立高雄第一科技大學.
李詩敏, 白明弘,吳鑑城, 黃淑齡, & 林慶隆. (2016)中文近義詞的偵測與判別.
林延璉,( 2011).使用句構分析模型與向量支持機的自動文件分類架構.,國立高雄第一科技大學.
陳力豪,(2012,06) 應用Google N-gram與PTFICF的專利權分類系統.,國立高雄第一科技大學.
溫品竹,蔡易霖, & 蔡宗翰. (2015). 基於 Word2Vec 詞向量的網路情緒文和流行音樂媒合方法之研究. on Computational Linguistics and Speech Processing ROCLING XXVII (2015), 167.
盧文啟,(2014,06) 應用句法分析與粗糙集理論的專利權文件分類系統.,國立高雄第一科技大學.

電子全文 電子全文(網際網路公開日期:20221231)
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關論文
 
無相關期刊
 
無相關點閱論文
 
系統版面圖檔 系統版面圖檔