跳到主要內容

臺灣博碩士論文加值系統

(100.28.0.143) 您好!臺灣時間:2024/07/19 17:21
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:陳淑惠
研究生(外文):CHEN, SHU-HUI
論文名稱:以監督式學習探討北捷旅運量
論文名稱(外文):A Study of the Taipei MRT Ridership by Supervised Learning Methods
指導教授:王曉玫王曉玫引用關係
指導教授(外文):WANG, HSIAO-MEI
口試委員:林麗芬倪克明
口試委員(外文):LIN, LIE-FENNEE, KER-MING
口試日期:2020-06-18
學位類別:碩士
校院名稱:嶺東科技大學
系所名稱:資訊管理系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2020
畢業學年度:108
語文別:中文
論文頁數:56
中文關鍵詞:旅運量複迴歸分析CART 迴歸樹Cubist 迴歸樹
外文關鍵詞:RidershipRegression AnalysisCART Regression TreeCubist Regression Tree
ORCID或ResearchGate:0000-0002-3927-4573
相關次數:
  • 被引用被引用:7
  • 點閱點閱:239
  • 評分評分:
  • 下載下載:39
  • 收藏至我的研究室書目清單書目收藏:0
旅客運量預測是興建及規劃運輸系統一項重要因素,也是對各項的運輸設備之新建和擴展的需求計畫之基本依據。以往大多數預測旅運量的研究多選取北捷月或年總運量作為預測資料。但需要注意的是,很少研究嘗試建立在所有捷運線之日旅運量。為進行更精細的預測旅運量預測,本研究使用2015年8月1日至2019年7月31日期間台北捷運108個捷運站之日旅運量,總計154,318筆資料,探討捷運線、月份、景點、雨量、紫外線、氣溫、以及日期狀態(平、假日)等變項對出站旅客運量之影響。
本研究目的在探討以監督式學習中三種演算法(複迴歸分析、CART迴歸樹、以及Cubist 迴歸樹)在北捷旅運量預測模式的運用,以四種衡量指標:判定係數(R2)、調整後判定係數(Adj- R2)、最小最大準確率(Min Max Accuracy)、以及絕對平均百分誤差(MAPE)作為演算法之評估指標。結果顯示,複迴歸模型僅在解釋變異上表現最佳(R2及Adj- R2均為99.39%),此乃因複迴歸模型在預測中之解釋變項高達10個以上,不符實際上使用的效益;因此,建議以Cubist迴歸樹演算法(Min Max Accuracy為95.5%及MAPE為4.7 %)作為推估旅運量,Cubist迴歸樹之片段式迴歸式中景點(100%)、捷運線(98%)、以及平假日(79~82%)為主要影響旅運量之三個變項。

The forecast of ridership is an important factor in the construction and project of the transportation system. It is the fundamental basic for building and expanding plan of various transportation equipments. In recent years, the majority of researches in the prediction of MRT ridership has focused on monthly datasets or annual ridership. It should be noted, however, that there have been few attempts to establish a direct relationship on daily ridership of whole MRT lines. For the specific predicted ridership, the proposed prediction model has been evaluated in total of 154,318 observations which covers totally 108 stations and 6 lines during the period from Aug. 1, 2015 to July 31, 2019. The influenced factors studied here including MRT lines, month, sight, rain, UVI, temperature, and status (working day, holiday) for passengers.
In this research we perform a comparison of three supervised learning methods (multiple linear regression, CART regression tree, and Cubist regression models) to estimate ridership of MRT. Coefficient of determinant (R2), adjusted coefficient of determinant (Adj-R2), Min Max Accuracy, and mean absolute percentage error (MAPE) are used as four of the measurements. The results show that multiple regression model only performs best in R2 and Adj- R2 (99.39%, 99.39%) due to more than 10 explanatory variables in the prediction, which does not match the effectiveness. Therefore, Cubist regression method is suggested in the present study to predict ridership of MRT. In addition, sight (100%), MRTLine (98%), and status of working or holidays (79~82%) are three major influential variables with the piecewise regression of Cubist regression model.

摘要 i
Abstract ii
誌謝 iii
目錄 iv
表目錄 vi
圖目錄 vii
第一章 緒論 1
第一節 研究動機 1
第二節 研究目的 2
一、研究變項 2
二、預測模型建立 4
第二章 文獻回顧探討 6
第一節 影響因素探討 6
第二節 演算法探討 7
第三章 研究方法 9
第一節 研究流程 9
第二節 研究資料來源 10
一、台北捷運 10
二、日期狀態 11
三、景點 11
四、中央氣象局觀測資料 13
第三節 監督式學習 14
一、複迴歸分析 15
二、決策樹 17
第四節 衡量指標 20
一、判定係數 21
二、調整後判定係數 21
三、最小最大準確率 21
四、絕對平均百分誤差 21
第四章 研究結果 22
第一節 研究資料 22
第二節 模型建立 25
一、複迴歸模型 25
二、CART迴歸樹模型 31
三、Cubist 迴歸樹模型 34
第三節 模型驗證與比較 40
第五章 結論與建議 42
參考文獻 44
附錄A電腦程式碼 47

吳明隆、張毓仁(2017)。R軟體在決策樹的實務應用。 台北市: 五南。
李文勳(2020)。 天氣預測對捷運搭乘者影響之研究。台灣師範大學文學院地理學研究所未出版之碩士論文。
杜強、賈麗艷(2012)。SPSS統計分析完全學習手冊。台北市: 佳魁資訊。
林君宜(2015)。運用M5’模式樹分析放款發生逾期因子。成功大學高階管理研究所未出版之碩士論文。
林楨家、黃至豪(2003)。台北捷運營運前後沿線房地屬性特徵價格之變化.。運輸計畫季刊,32(4),777-800。
林楨家、楊恩捷(2006)。都市型態對旅運需求影響之結構化分析。運輸學刊(18),391-416。
林楨家、 施亭伃(2007)。大眾運輸導向發展之建成環境對捷運運量之影響–臺北捷運系統之實證研究。運輸計畫季刊,36(4),451-476.
邱皓政(2005)。量化研究法(二): 統計原理與分析。台北市: 雙葉書廊.
邱皓政(2010)。量化研究與統計分析:SPSS(PASW)資料分析範例解析。台北市: 五南。
郝沛毅、李御璽、黃嘉彥(譯)(2017)。資料探勘(原作者:Han, J. Kamber, M.)。台北市:高立圖書。
陳尚宏(2016)。台北捷運旅客運量預測模式之研究。華夏科技大學資訊管理研究所未出版之碩士論文。
陳怡靜(2014)。影響捷運運量因素之探討-以高雄捷運為例。 國立中山大學經濟學研究所未出版之碩士論文。
陳樹衡、郭子文、棗厥庸 (2007)。以決策樹之迴歸樹建構住宅價格模型–台灣地區之實證分析。 住宅學報 ,16(1),1-20。
曾婉菁(2018)。 機器學習探究。 印刷科技,34(2),1-32。
黃士鴻 (2010)。 大眾運輸需求因素之探討–以台北捷運為例。東海大學經濟研究所未出版之碩士論文。
黃柏崴、李童宇 (2019)。不懂程式也能學會的大數據分析數–使用RapidMiner。 台北市: 旗標。
楊立勤(2018)。大數據分析–天氣對捷運、台鐵與高鐵搭乘率之影響。 文化大學資訊工程學研究所未出版之碩士論文。
溫福星(2013)。 社會科學研究中使用迴歸分析的五個重要概念。 管理學報,30, (2),169-190。
葉奕新(2016)。台北捷運乘客動態行為分析。 主計月刊,735。
葉奕新(2017)。 台北捷運系統之人潮移動分析。 中國統計學報,55,69-95。
廖述賢、溫志皓 (2019)。 資料探勘:人工智慧與機器學習發展以SPSS Modeler為範例。 新北市: 碩博文化。
歐強新、李海奎、雷相東、楊英 (2018)。基於清查數據的福建省馬尾松生物量轉換和擴展因子估算差異解析–3種集成學習決策術模型的比較。 應用生態學報,29(6),2007-2016。
蕭文龍(2009)。多變量分析最佳入門實用書 (第二版)。台北市: 碁峰。
賴宗裕、張軒瑄、陳芊灼(2009)。 外籍旅客使用台北捷運之影響因素分析。 台灣土地研究,12(1),153-186。
簡禎富、許嘉裕(2018)。大數據分析與資料挖掘。 新北市: 前程文化。
顏家芝(2004)都會交通系統之改變對居民遊憩行為與遊憩活動參與之影響-以大台北捷運系統營運為例。戶外遊憩研究,17(1),77-92。
顏家芝、許創福、吳世昌、陳雅芬、簡欣盈、許興銘(1999)。 捷運淡水線之營運對都會居民遊憩方式之影響。台漕大學園藝系(主編),1999休閒遊憩觀光研究成果研討會(頁169-1860)。台北:戶外遊憩學會。
魏夢麗、呂秀英(1999)。決定係數(R2)在迴歸分析中的解釋及正確使用。 科學農業,47(11,12),341-345。
新北市主計處(2019)。從捷運旅運量探索新北市人流變化的秘密。專題統計分析。新北市:羅珮玲。
Brieman, L., Friedman, J. H. , Olshen, R. A. , C. J. (1984). Classification and regression trees. CA: Wadsworth: Belmont.
Draper, N. R. & Smith, H. (1981) Applied Regression Analysis. 2nd Edition. New York: John Wiley & Sons.
Field, A. (2009). Discovering statistics using SPSS (3rd edition). London: SAGE.
Garcia, H., Filzmoser, & P. (2015, 2015). Multivariate statistical analysis using the R package chemometrics.
Kass, & G. V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 29, 119-127.
Li, X., Wong, W., Lamoureux, E. L., & Wong, T. Y. (2012). Are Linear Regression Techniques Appropriate for Analysis When the Dependent (Outcome) Variable Is Not Normally Distributed?, Investigative Ophthalmology & Visual Science, Vol. 53, 3082-3083.
O'Brien, R. M. (2007). A Caution Regrading Rules of Thumb for Variance Inflation Factors. Quality & Quantity, 41:673-690.
Quinlan, J. R. (1986). "Introduction of Decision Tree, ". Machine Learning., 1, 81-106.
Quinlan, J. R. (1992). Learning with continuous classes. In 5th Australian J. Conf. on Artif. Intel., 343-348.
Quinlan, J. R. (1993). Combining instance-based and model-based learning. In Proc. Intl. Conf. on March, 236-243.
Quinlan, J. R. (1993). C4.5: Programs for Machine Learing. CA: Morgan Kaufmann.
Quinlan, J. R. (1996). "Improved Use of Contimuous Attributes in C4.5 ", Journal of Artivicial Intelligence Research.(4), 77-90.
Ogawa, R. Kido, T. & Mochizuki T. (2019). Effect of augmented datasets on deep convolutional neural networks applied to chest radiographs. Clinical Radiology 74, 697-701.
Renaud, O. & Victoria-Feser, M. (2010). A robust coefficient of determination for regression. Journal of Statistical Planning and Inference (140), 1852-1862.
Therneau, TM. (1997) An introduction to recursive partitioning using the RPART routine.
(Technical report 61). Rochester (MN): Mayo Clinic, Section of Statistics.
Atkinson, E. J. (2000). An introduction to recursive partitioning using the RPART routines. (Technical report 61). Rochester (MN): Mayo Clinic, Section of Statistics.
Chen, T. J. Zheng, W. L. Liu, C. H. Huang, I. Lai, H. H. & Liu, M. (2019 ). Using Deep Learning with Large Dataset of Microscope Images to Develop an Automated Embryo Grading System. Fertility & Reproduction, 51-56.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊