跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.88) 您好!臺灣時間:2026/02/15 19:05
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:葉諺謙
研究生(外文):YEH,YEN-CHIEN
論文名稱:泛用型網路口碑擷取系統之研製
論文名稱(外文):Development of a General Purpose eWOM Extraction System
指導教授:曾秋蓉曾秋蓉引用關係
指導教授(外文):TSENG,CHIOU-RUNG
口試委員:許乃斌楊喨智張欽智
口試委員(外文):Hsu, Nai-BinYang, Liang-ChihChang, Chin-Chih
口試日期:2017-06-22
學位類別:碩士
校院名稱:中華大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:61
中文關鍵詞:網路口碑網頁資料擷取網頁探勘
外文關鍵詞:eWOMWeb data extractionWeb mining
相關次數:
  • 被引用被引用:0
  • 點閱點閱:185
  • 評分評分:
  • 下載下載:2
  • 收藏至我的研究室書目清單書目收藏:0
隨著網際網路的發達,現代人在購物前已不再完全依賴傳統的電視媒體或是紙本文宣來了解商品的資訊與評比,而是逐漸的依賴廣大使用者在網路上所發表的網路口碑。網路口碑是使用者在網路上所發表的商品評論,它可以讓消費者了解商品的詳細資訊,也可以了解使用者親身使用過後所了解到的商品優點及缺點。網路口碑的資料可以應用在許多領域,它既可以影響消費者購買的決策,又可以用來分析挖掘消費市場的趨勢,所以蒐集網路口碑資料變成許多網路行銷公司的重要課題。
以往網路口碑資料大多透過人力來做蒐集,耗力又費時。而透過現有的網頁資料擷取系統擷取網路口碑,又常會擷取到多餘的資料,或是發生擷取到的資料格式不ㄧ致的情況,導致無法立即對資料進行分析及研究。此外,當發表網路口碑的網頁設計變更時,擷取程式也必須做修改才能擷取到新網頁的資料,通用性低。
為了解決上述問題,本論文研製一套泛用型網路口碑擷取系統,用來擷取論壇網站中的網路口碑資料,希望能解決現有擷取系統應用在論壇網站上的不足。這套系統可以在擷取資料的同時做資料的處理,使擷取到的資料格式一致,能夠直接用來應用或是分析。此外,這套系統也可以針對網頁設計各不相同的各種論壇網站來擷取網路口碑;而且當論壇網站改版時,不需修改程式,只需調整設定即可擷取新網站上的口碑資料,通用性高。
根據效能分析的結果,本系統在各種論壇中擷取網路口碑的表現良好;資料的正確性高,擷取效率也非常好。本系統讓網路行銷業者在論壇網站改版時不需要花費額外的心力和經費去重新設計網路口碑擷取程式,也可以省去對擷取到的網路口碑資料進行二次處理,使其資料格式一致化的過程。此系統的開發,可望能大幅提高網路口碑擷取的效益和效率。

With the development of the internet, people no longer rely entirely on the traditional TV media or DM to evaluation of product information, but gradually rely on the majority of users published on the electronic word of mouth. electronic word of mouth is the user published on the Internet product reviews, it allows consumers to understand the details of the product, users can also understand another user after use of the product the advantages and disadvantages. Electronic word of mouth data can be applied in many areas, it can affect the decision of consumers to buy, but also can be used to analyze the trend of mining consumer market, so, the collection of electronic word of mouth data is many network marketing company an important issue.
In the past, most of the electronic word of mouth data through human resources to do the collection, requiring much time and effort . And existing web page data extraction system to extraction the electronic word of mouth often capture the excess information, or the the data format is not same, then data cannot immediately analyze and study the data. In addition, when the webpage design is changed, the program need revision, after revision, that system can retrieve the data of the electronic word of mouth the new page.
In order to solve the above problems, this paper developed a general-purpose electronic word-of-mouth extraction system to retrieve the electronic word-of-mouth information in the forum website, hoping to solve the existing extraction system applications in the forum site deficiencies. This system can extract the data at the same time to do the data processing, so that the data obtained by the same format, can be used directly to the application or analysis. In addition, the system can also be used for web design different forum sites to extraction the electronic word-of-mouth of the network; and when the forum site revision, don't need to revision the program, just adjust the rule to extraction the new site on the electronic word of mouth , High versatility.
According to the results of the performance analysis, the system in a variety of forums to extraction the good performance of electronic word of mouth.The development of this system is expected to significantly improve the efficiency and efficiency of electronic word-of-mouth extraction.

摘要 I
ABSTRACT II
致謝 III
目錄 IV
圖目錄 VI
表目錄 VIII
第一章 簡介 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 3
1.4 論文架構 4
第二章 相關研究 5
2.1 網頁資料擷取技術 5
2.1.1 簡介 5
2.1.2 XML路徑語言(XML Path Language) 6
2.1.3 正規表示法 8
2.2 網頁資料擷取系統 9
2.2.1 Mozenda 9
2.2.2 Diggernaut 13
2.2.3 Octoparse 17
2.3 小結 21
第三章 研究方法 22
3.1 XR-表示法 22
3.2 擷取規則庫 26
第四章 泛用型網路口碑擷取系統 31
4.1 系統開發平台 31
4.2 資料庫規劃 31
4.3 系統架構 32
4.4 模組說明 34
4.4.1 排程模組 34
4.4.2 網址分析模組 35
4.4.3 登入判斷模組 36
4.4.4 分頁分析模組 37
4.4.5 資料定位模組 38
4.4.6 規則分析模組 39
4.4.7 時間擷取模組 40
4.4.8 作者擷取模組 41
4.4.9 內文擷取模組 42
4.4.10 資料整合模組 43
4.5 使用案例 44
4.5.1 網路口碑初次擷取 44
4.5.2 網路口碑接續擷取 47
第五章 效能分析 49
5.1 擷取效能 49
5.2 擷取正確率 51
第六章 結論與未來研究方向 53
6.1 結論 53
6.2 未來研究方向 54
參考文獻 55
附錄 57

Crescenzi, V., & Mecca, G. (2004). Automatic information extraction from large websites. Journal of the ACM (JACM), 51(5), 731-779.
Dalvi, N., Bohannon, P., & Sha, F. (2009, June). Robust web extraction: an approach based on a probabilistic tree-edit model. In Proceedings of the 2009 ACM SIGMOD International Conference on Management of data (pp. 335-348). ACM.
Dalvi, N., Kumar, R., & Soliman, M. (2011). Automatic wrappers for large scale web extraction. Proceedings of the VLDB Endowment, 4(4), 219-230.
Ferrara, E., & Baumgartner, R. (2011). Automatic wrapper adaptation by tree edit distance matching. In Combinations of Intelligent Methods and Applications(pp. 41-54). Springer Berlin Heidelberg.
Gottlob, G., & Koch, C. (2004). Logic-based web information extraction. ACM SIGMOD Record, 33(2), 87-94.
Jansen, B. J., Zhang, M., Sobel, K., & Chowdury, A. (2009). Twitter power: Tweets as electronic word of mouth. Journal of the American society for information science and technology, 60(11), 2169-2188.
Kaiser, K., & Miksch, S. (2005). Information extraction. A Survey. Vienna University of Technology. Asgaard-TR-2005-6.
Kietzmann, J., & Canhoto, A. (2013). Bittersweet! Understanding and managing electronic word of mouth. Journal of Public Affairs, 13(2), 146-159.
Kushmerick, N., Weld, D. S., & Doorenbos, R. (1997). Wrapper induction for information extraction.
Liu, B. (2011). Structured data extraction: Wrapper generation. Web Data Mining, 363-423.
Phan, X. H., Horiguchi, S., & Ho, T. B. (2005). Automated data extraction from the web with conditional models. International Journal of Business Intelligence and Data Mining, 1(2), 194-209.
Reis, D. C., Golgher, P. B., Silva, A. S., & Laender, A. (2004, May). Automatic web news extraction using tree edit distance. In Proceedings of the 13th international conference on World Wide Web (pp. 502-511). ACM
Sahuguet, A., & Azavant, F. (1999, September). Building light-weight wrappers for legacy web data-sources using W4F. In VLDB (Vol. 99, pp. 738-741).

Sarawagi, S. (2008). Information extraction. Foundations and Trends® in Databases, 1(3), 261-377.
Turmo, J., Ageno, A., & Català, N. (2006). Adaptive information extraction. ACM Computing Surveys (CSUR), 38(2), 4.
Zhai, Y., & Liu, B. (2005, May). Web data extraction based on partial tree alignment. In Proceedings of the 14th international conference on World Wide Web (pp. 76-85). ACM.
Zhai, Y., & Liu, B. (2006). Structured data extraction from the web based on partial tree alignment. IEEE Transactions on Knowledge and Data Engineering, 18(12), 1614-1628.
Zhang, K., Statman, R., & Shasha, D. (1992). On the editing distance between unordered labeled trees. Information processing letters, 42(3), 133-139.
陳思懿. (2004). 網路口碑來源可信度對訊息信任之影響. PhD Thesis.
鄭凱元. (2005). 網路口碑傳播媒介之比較. PhD Thesis.
蘇怡倫. (2016). 探討用戶產製內容於餐旅產品評估指標之研究

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top