研究生(外文):Liang-Heng Liao
論文名稱(外文):Estimating Google’s Ranking Factors and Their Weights Using a Genetic Algorithm Approach
外文關鍵詞:Web SearchSearch Results RankingSearch Engine OptimizationRanking Factors
本研究旨在以機器學習方法來找出逼近Google搜尋引擎排名的可操作性排序因素以及其權重。所謂可操作性,指的是網站擁有者或者網路行銷業者可以據以來做搜尋引擎最佳化 (Search Engine Optimization, SEO),亦即適度調整網頁的內部或外部品質,以便在特定關鍵字的搜尋結果中獲得排名的提昇。我們關心的是那些可以從搜尋引擎提供的管理者工具或者客觀的第三方取得公開數據的排序因素,而非所有可能的排序因素。本研究以四類工業產品的關鍵詞 (query) ,蒐集 Google 搜尋結果前20筆網頁,且以不同排序因素分成三個階段進行實驗: (1) 外部連結與PageRank之間的關聯、 (2) Authority與PageRank之間的關聯、 (3) 綜合實驗。本研究實驗結果顯示在不同關鍵詞與多種因素組合下計算出的權重值,一致地呈現 PageRank 的權重值遠比其他因素來得高,增加外部連結或Authority等因素對排名預測結果的影響很少。

The study aims to approximate Google’s ranking factors and their weights by a genetic algorithm based method. The factors we are interested in are those whose data are publicly available from webmasters tools provided by search engines or other third-party providers, rather than all possible ranking factors. We collect the top 20 results from Google search results and divided three parts into ranking factors for four categories of industrial products'' keywords as our dataset. Three experiments were conducted to find the : (1) Correlation between the External links and PageRank ; (2) Correlation between the Authority and PageRank ; (3) the weights of all factors considered. Experimental results indicated that, in all combinations of factors, PageRank consistently dominates the search results ranking in our experiment and adding other factors such as number of links and authority had little effect on the precision improvement of the new ranking results.

書名頁 i
論文口試委員審定書 ii
授權書 iii
中文摘要 iv
英文摘要 v
誌謝 vi
目錄 vii
表目錄 ix
圖目錄 x
第一章、 緒論 1
1.1 研究動機 1
1.2 研究目的 2
1.3 論文架構 2
第二章、 文獻探討 3
2.1 搜尋引擎之使用者行為 3
2.2 Search Engine Optimization 4
2.2.1. 搜尋引擎的五項過程 4
2.2.2. 搜尋引擎排名的因素 5
2.3 Ranking Factors 的資料來源 9
2.4 權重值的計算 10
第三章、 研究方法 13
3.1 系統架構 13
3.2 網頁擷取與網頁剖析 13
3.3 排序因素的選擇 14
3.4 排序因素計算 18
3.4.1 Keyword in Title 18
3.4.2 Authority of Domain/Page 21
3.4.3 Keyword in URL 21
3.5 網頁分數的計算 24
3.5.1 Sum of squared rank error (SSRE) 的數值最小化 25
第四章、 實驗評估 26
4.1 排序因素的選擇 26
4.2 資料搜集及實驗資料集 26
4.3 效能評估指標 27
4.4 實驗過程 27
4.4.1 Evolver設定範圍 27
4.4.2 實驗條件 28
4.5 實驗步驟 29
4.6 實驗結果 29
4.6.1 外部連結與PageRank之間的關聯 29 R-Precision結果與分析 30 ANOVA驗證 35
4.6.2 Authority與PageRank之間的關聯 35 R-Precision結果與分析 36
4.6.3 綜合實驗 43 R-Precision結果與分析 44 ANOVA驗證 49
第五章、 結論與未來展望 50
5.1 結論 50
5.2 未來展望 51
參考文獻 52

