跳到主要內容

臺灣博碩士論文加值系統

訪客IP:216.73.216.240
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:麥肇剛
研究生(外文):MAI, ZHAO-GANG
論文名稱:政府開放資料預測模型建立:時間序列分析與機器學習方法之比較
論文名稱(外文):Construction of Government Open Data Forecasting Models: A Comparison of Time Series Analysis and Machine Learning Approaches
指導教授:楊錦生楊錦生引用關係
指導教授(外文):YANG, CHIN-SHENG
口試委員:陳志成李彥賢
口試委員(外文):Chen, Chih-ChengLee, Yen-Hsien
口試日期:2023-07-05
學位類別:碩士
校院名稱:元智大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2023
畢業學年度:111
語文別:中文
論文頁數:39
中文關鍵詞:政府開放資料時間序列機器學習深度學習回歸預測
外文關鍵詞:Government Open DataTime SeriesMachine LearningDeep LearningRegression Analysis Prediction Method
相關次數:
  • 被引用被引用:0
  • 點閱點閱:455
  • 評分評分:
  • 下載下載:72
  • 收藏至我的研究室書目清單書目收藏:1
本研究之主要目的,是透過“政府資料開放平臺”網站取得“臺鐵進出站人數統計”、“行政區人口統計”、“綜稅所得總額統計”,藉由三個不同面向的時序性資料,使用時間序列方法(簡單移動平均SMA、加權移動平均WMA、一次指數平滑SES、二次指數平滑DES)、機器學習模型(線性回歸LR、決策樹DT、隨機森林RF、K-近鄰KNN、支持向量機SVM、極限梯度提升XGBoost)、深度學習模型(長短期記憶模型LSTM),來針對“台鐵進出站總人數”以及“行政區人口數”,作出未來的預測。接著藉由損失函數方法,來評估實驗模型的準確率,進而從中探討不同預測模型方法的比較。研究結果顯示,在考慮額外自變數的情境下的機器學習方法之預測結果,普遍優於不考慮額外自變數情境之下的機器學習以及時間序列方法之預測結果。另外LSTM深度學習方法在資料量不足情況下,與機器學習相比預測準確率並無優勢。
The main purpose of this study is to use different types of time-series data, including “daily passenger data for each station of Taiwan Railways Administration (TRA),” “population statistics by administrative district,” and “total amount of comprehensive income tax by administrative district,” from the Government Open Data Platform. Various time-series methods, machine learning models and deep learning models will be used to make predictions for the total number of passengers entering and exiting TRA stations and the population size by administrative district. The accuracy of the predictive models will be evaluated using loss function, and a comparison of different prediction model methods will be explored. The research results show that the predictive performance of machine learning methods, considering additional independent variables, is generally better than that of machine learning and time series methods that do not consider additional independent variables. Furthermore, deep learning method does not show any advantage in terms of predictive accuracy compared to machine learning when the data volume is insufficient.
目錄
中文摘要 iii
英文摘要 iv
誌謝 v
目錄 vi
表目錄 viii
圖目錄 ix
第一章、緒論 1
1.1 研究背景與動機 1
1.2 資料源介紹 3
1.3 研究架構 3
第二章、文獻探討 4
2.1 政府開放資料介紹 4
2.2 政府開放資料應用相關文獻 4
2.3 預測時間序列政府公開資料相關文獻 5
2.4 時間序列/機器學習/深度學習方法相關文獻 7
第三章、研究方法與資料說明 10
3.1 分析方法架構概述 10
3.2 時序性政府公開資料說明 11
3.2.1 臺鐵局每日各站之進出站人數統計 11
3.2.2 行政區人口統計 11
3.2.3 綜稅所得總額全國各縣市鄉鎮村里統計 12
3.3 時間序列方法 13
3.3.1 簡單移動平均法(Simple Moving Average, SMA) 13
3.3.2 加權移動平均法(Weighted Moving Average, WMA) 14
3.3.3 一次指数平滑法(Single Exponential Smoothing, SES) 15
3.3.4 二次指数平滑法(Double Exponential Smoothing, DES) 17
3.4 機器學習方法 18
3.4.1 線性回歸(Linear Regression) 18
3.4.2 決策樹(Decision Tree) 19
3.4.3 隨機森林(Random Forest) 20
3.4.4 支援向量機(Support Vector Machine, SVM) 22
3.4.5 K-近鄰演算法(K Nearest Neighbor, KNN) 23
3.4.6 極限梯度提升 (eXtreme Gradient Boosting, XGboost) 24
3.5 深度學習方法 25
第四章、研究結果 27
4.1 資料整合 27
4.2 模型評估流程與評估指標介紹 29
4.2.1 相關係數(Correlation Coefficient, CC) 30
4.2.2 平均絕對誤差(Mean Absolute Error, MAE) 30
4.2.3 相對絕對誤差(Relative Absolute Error, RAE) 30
4.2.4 均方根誤差(Root Mean Squared Error, RMSE) 31
4.2.5 相對方根誤差(Root Relative Squared Error, RRSE) 31
4.3 模型評估結果比較 31
4.3.1 預測行政區人口總數模型評估結果比較 31
4.3.2 預測臺鐵進出站總人數模型評估結果比較 33
第五章、結論與未來方向 36
參考文獻 37


表目錄
表 1 臺鐵局每日各站之進出站人數統計 11
表 2 行政區人口統計 12
表 3 綜稅所得總額全國各縣市鄉鎮村里統計 12
表 4 臺鐵進出站人數、行政區人口數、綜稅所得額整合統計表 27
表 5 臺鐵進出站人數、行政區人口數、綜稅所得額整合敘述統計表 27
表 6 不考慮額外自變數-時間序列預測行政區人口總數比較表 32
表 7 不考慮額外自變數-機器學習預測行政區人口比較表 32
表 8 考慮額外自變數-機器學習預測行政區人口比較表 33
表 9 考慮額外自變數-深度學習預測行政區人口總數評估表 33
表 10 預測行政區人口總數最佳方法比較表 33
表 11 不考慮額外自變數-時間序列預測臺鐵進出站總人數比較表 34
表 12 不考慮額外自變數-機器學習預測臺鐵進出站總人數比較表 34
表 13 考慮額外自變數-機器學習預測臺鐵進出站總人數比較表 34
表 14 考慮額外自變數-深度學習預測臺鐵進出站總人數評估表 35
表 15 預測臺鐵進出站總人數最佳方法比較表 35


圖目錄
圖 1 研究架構 3
圖 2 分析方法架構 10
圖 3 WMA示意圖 14
圖 4 一次指数平滑法示意圖 16
圖 5 SES & DES比較圖 17
圖 6 決策樹示意圖 19
圖 7 隨機森林示意圖 21
圖 8 SVM示意圖 22
圖 9 KNN示意圖 23
圖 10 LSTM示意圖 25
圖 11 臺鐵進出站人數、行政區人口數、綜稅所得額相關係數熱力圖 28
圖 12 新竹縣新豐鄉2012~2018歷年人口數&進出站人數折線圖 28
圖 13 苗栗縣造橋鄉2012~2018歷年人口數&進出站人數折線圖 29
圖 14 桃園市桃園區2012~2018歷年人口數&進出站人數折線圖 29
文獻
1.甘依立(2013),利用人口模型分析國內人口政策調整之研究,康寧大學資產管理與城市規劃學系碩士論文
2.李宇哲(2017),以機器學習分析與預測大數據時間序列資料,國立中山大學資訊工程學系碩士論文
3.宋羿勳(2017),以資料探勘分析台灣社會、經濟與環境的政府效率之影響-以台灣地方政府開放資料為例,東海大學資訊管理研究所碩士學位論文
4.林志玟(2020),應用深度學習建構臺北捷運客運量預測模型之研究,輔仁大學統計資訊學系碩士論文
5.陳俊宏(2016),應用線上機器學習演算法於財務時間序列預測問題-以美國S&P500成分股為例,臺北市立大學資訊科學系碩士論文
6.郭品彤(2022),通勤交通建設與臺灣北部鄉鎮層級地區人口的變動,逢甲大學財稅學系碩士論文
7.孫曉筠(2020),由臺北捷運客運量解析商圈人流變化,臺北市政府捷運工程局會計室統計應用分析報告
8.張俊鴻(2014),影響大眾運輸系統運量之社會經濟因素灰預測模式之研究,運輸科技與物流管理學系碩士論文
9.黃喬永(2022),用資料探勘方法預測人口流動之變化-以金門地區為例,東吳大學巨量資料管理學院碩士學位學程碩士論文
10.詹雲喬(2020),應用動態回歸分析預測台灣人口總量及財務因應策略,健行科技大學財務金融系碩士班碩士論文
11.廖思閔(2023),應用機器學習於預測桃園市房價,元智大學工業工程與管理研究所碩士論文
12.黎華(2014),運用貝氏方法預測中華民國 103 年至123年死亡率、生育率、遷徒及人口數,國立陽明大學公共衛生研究所生物統計組碩士論文
13.蔡項如(2022),以機器學習與時間序列來探討零售資料的分析,元智大學資訊工程學系碩士論文
14.Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273-297.
15.Gurin, J. (2014). Big Data and Open Data: How Open Will the Future Be? I/S: A Journal of Law and Policy for the Information Society, 10(3), 691-704.
16.Rengasamy, D., Jafari, M., Rothwell, B., Chen, X., & Figueredo, G. P. (2020). Deep learning with dynamically weighted loss function for sensor-based prognostics and health management. Sensors, 20(3), 723.

網路資料
1.沈欣蓓(2012),走向開放資料願景 Open Data蔚為政府資訊趨勢,網管人專題報導(https://www.netadmin.com.tw/netadmin/zh-tw/feature/19344AAD43A746F99C93F3E23EB22C5A)
2.高振源(2018),近年我國政府大數據政策與經費執行之探討,立法院預算中心專題研究(https://www.ly.gov.tw/Pages/List.aspx?nodeid=20958)
3.張佑丞(2013),政府開放資料(Open Data)加值應用之趨勢,管理知識中心經營管理文章(https://mymkc.com/article/content/21822)
4.開放政府資料服務平台(2021),政府開放資料應用(https://data.gov.tw/about)
5.Brandon Rohrer (2017), How Recurrent Neural Networks and Long Short-Term Memory Work (https://e2eml.school/blog.html#193)
6.Brett Grossfeld (2017), A simple way to understand machine learning vs deep learning (https://www.zendesk.tw/blog/machine-learning-and-deep-learning/#georedirect)
7.Explorium (2019), The Complete Guide to Decision Tree Analysis (https://www.explorium.ai/blog/the-complete-guide-to-decision-trees/)
8.Fortune Business Insights (2023), The global big data analytics market size was valued at $271.83 billion in 2022 & is projected to grow from $307.52 billion in 2023 to $745.15 billion by 2030. (https://www.fortunebusinessinsights.com/big-data-analytics-market-106179)
9.iThome (2019), TesorFlow.js MobileNet+KNN (https://ithelp.ithome.com.tw/articles/10224036)
10.iThome (2020), CIO大調查(下) 各產業七大IT重點投資力道多強?多少錢?(分析版),iThome專題報導(https://www.ithome.com.tw/article/136359)
11.iThome (2021),核模型-支持向量機(SVM) (https://ithelp.ithome.com.tw/articles/10270447)
12.Joshua Emmanuel (2015), Forecasting: Exponential Smoothing, MSE (https://www.youtube.com/watch?v=k_HN0wOKDd0)
13.Joshua Emmanuel (2015), Forecasting: Weighted Moving Averages, MAD (https://www.youtube.com/watch?v=DipOB2H6ick)
14.National Institute of Standards and Technology (NIST), Forecasting with Double Exponential Smoothing (LASP) (https://www.itl.nist.gov/div898/handbook/pmc/section4/pmc434.htm)
15.TIBCO, What is a Random Forest? (https://www.tibco.com/reference-center/what-is-a-random-forest)
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊