(54.236.58.220) 您好!臺灣時間:2021/03/01 18:50
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:許慶安
研究生(外文):Ching-An Hsu
論文名稱:運用探勘技術於社會輿情以預測新竹市房地產市場之研究
論文名稱(外文):A Study of Applying Mining Technologies in Social Public Opinion to Predict the Hsinchu City Housing Market
指導教授:張定原張定原引用關係
指導教授(外文):Ting-Yuan Chang
學位類別:碩士
校院名稱:國立勤益科技大學
系所名稱:資訊管理系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:82
中文關鍵詞:房地產資料探勘文字探勘支援向量迴歸
外文關鍵詞:Real estateData miningText miningSVR
相關次數:
  • 被引用被引用:1
  • 點閱點閱:180
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
網路新聞的即時與便利性,成為社會大眾獲取新聞資訊的重要管道之一。隨著時間推移,所累積的大量新聞可反映出社會輿論對某些特定議題之情緒走向。本研究透過機器人針對新竹市地區,蒐集實價登錄網及聯合知識庫從2012年8月至2017年1月,其中包含30,819件房地產交易資料與15,195筆新聞內容,運用資料探勘與文字探勘等技術,從特定領域新聞中挖掘有價值的關聯,並結合機器學習建立房地產市場的預測模型。
本研究之實驗結果,可得知輿情的正向情緒及情緒總和與房市價量之間具有中高度相關性,其中以情緒總和與房市交易量的相關係數0.81為最高,而在半年二次移動平均圖中,亦可觀察到新竹市的輿情與房市成交價量之波動具有週期和相關性,關鍵轉折點可作為房市進場時機點之參考依據。
本研究將經濟因素與輿情變數輸入支援向量迴歸,所建立之預測模型進行比較,在加入輿情變數後,其預測月平均交易價格時,在模型的解釋能力與準確率上皆有所提升,尤其住宅大樓和綜合建物型態的模型中最佳準確率約為95%。另外,預測月交易量時,透天厝與華夏的模型中最佳準確率分別為93%與96%,表示加入輿情變數作為輸入變數可有效提升模型在房市價量的預測能力。
The network news have become an important channel for people to get news and information. Over time, the cumulative amount of news can reflect the mood of social opinion on certain issues. In this study, through the robot for Hsinchu city area, to collect the actual selling price website of real estate and the Udndata website from August 2012 to January 2017, which contains 30,819 real estate transactions with 15,195 news content, by means of data mining and text mining and other technologies, explored valuable relevance from particular areas of news, and combined with machine learning to establish the real estate market forecasting model.
In result of this study, the economic factors and public opinion variables input SVR, the establishment of the forecast model for comparison, after adding public opinion variables, the forecast monthly average transaction price, the model's ability to explain and accuracy are improved. In particular, the best accuracy rate for models of Residential building and complexes are about 95%. In addition, the forecast of the monthly trading volume, the best accuracy rate for models of Row house and Huaxia are 93% and 96%, indicated the addition of public opinion variables as input variables can effectively enhance the model in the housing market price forecasting ability.
摘要 I
ABSTRACT II
誌謝 III
圖目錄 VII
表目錄 IX
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 研究流程 3
第二章 文獻探討 4
2.1 資料探勘(Data Mining) 4
2.1.1 時間序列(Time Series) 5
2.2 房地產之相關研究 6
2.2.1 房市泡沫 8
2.2.2 實價登錄 9
2.2.3 景氣循環 9
2.3 文字探勘(Text Mining) 11
2.3.1 自然語言處理(Natural Language Processing) 12
2.3.2 情緒詞彙分析(Sentiment Word Analysis) 13
2.3.3 中文財務情緒詞彙字典 15
2.4 支援向量機(Support Vector Machine) 15
第三章 研究方法 18
3.1 本研究之整體架構 18
3.2 資料蒐集 20
3.2.1 房地產成交物件 20
3.2.2 新聞資料 20
3.2.3 意見詞庫 21
3.3 資料處理 21
3.4 新聞資料分群 25
3.4.1 新聞內容句段分詞 26
3.4.2 Word2vec訓練主題模型 28
3.4.3 K-means分群新聞資料 30
3.5 新聞情緒計算 31
3.5.1 意見詞萃取 31
3.5.2 意見詞極性判斷 32
3.5.3 新聞極性計算 33
3.6 房地產之相關性分析 34
3.6.1 探索式數據分析 34
3.6.2 皮爾森相關係數 35
3.6.3 移動平均 35
3.6.4 二次移動平均 35
3.7 支援向量機預測模型 36
3.7.1 核心函數 37
3.7.2 參數設定 37
3.7.3 交叉驗證 38
第四章 實驗結果 39
4.1 房地產數據之箱型圖 39
4.2 房市價量與新聞情緒之相關性 43
4.3 SVR預測模型結果 46
4.3.1 預測模型之輸入變數 46
4.3.2 SVR預測房市價格之結果 48
4.3.3 SVR預測房市交易量之結果 52
第五章 結論 57
5.1 結論與建議 57
5.1.1 理論意涵 58
5.1.2 管理意涵 59
5.2 研究限制與未來研究 60
5.2.1 資料來源的多元化 60
5.2.2 針對不同新聞類別進行研究 60
5.2.3 探討房市影響因素 61
5.2.4 擴增研究範圍 61
參考文獻 62
附錄1 ICTCLAS 漢語詞性標注集 68
英文文獻
[1]B. F. Green Jr, et al., 1961, “Baseball: An Automatic Question-Answerer”, Proceedings of the 19th Western Joint IRE-AIEE-ACM Computer Conference, 219-224.
[2]B. Pang, L. Lee, S. Vaithyanathan, 2002, “Thumbs up? : sentiment classification using machine learning techniques”, Proceedings of the ACL-02 conference on Empirical methods in natural language processing, 10:79-86.
[3]B. O’Connor, 2010, “From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series”, Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media,122-129.
[4]C. Cortes, and V. Vapnik, 1995, “Support-Vector Networks”, Journal of Machine Learning, 20(3):273-297.
[5]D. Sullivan, 2001, “Document Warehousing and Text Mining: Techniques for Improving Business Operations, Marketing, and Sales”, John Wiley & Sons, Inc., New York.
[6]D. Ferrucci, et al.,2010, “Building Watson: An Overview of the DeepQA Project”, Journal of AI magazine, 31(3):59-79.
[7]D. Gräbner, et al., 2012, “Classification of Customer Reviews Based on Sentiment Analysis”, Conference of Information and communication technologies in tourism.
[8]G. W. Brown, and M. T. Cliff, 2004, “Investor Sentiment and the Near-Term Stock Market”, Journal of Empirical Finance, 11(1):1-27.
[9]J. MacQueen, 1967, “Some methods for classification and analysis of multivariate observations”, Berkeley Symp. on Math. Statist. and Prob., 1: 281-297.
[10]J. B. Lovins, 1968, “Development of a Stemming Algorithm”, Journal of Mechanical Translation and Computational Linguistics, 11(1&2):22-31.
[11]J. Han, J. Pei, and M. Kamber, 2011, “Data Mining: Concepts and Techniques”, Elsevier.
[12]K. W. Church, and P. Hanks, 1990, “Word Association Norms, Mutual Information, and Lexicography”, Journal of Computational Linguistics, 16(1):22-29.
[13]M. J. A. Berry, and G. S. Linoff, 1997, “Data Mining Techniques : For Marketing, Sales, and Customer Support”, John Wiley & Sons, Inc., New York.
[14]M. Joshi, et al., 2010, “Movie Reviews and Rev- enues: An Experiment in Text Regression”, Proceedings of HLT’10: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, 293-296.
[15]P. D. Turney, 2002, “Thumbs Up or Thumbs Down?: Semantic Orientation Applied to Unsupervised Classification of Reviews”, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 417-424.
[16]S. Bird, E. Klein, and E. Loper, 2009, “Natural Language Processing with Python”, O'Reilly Media, Inc.
[17]Shih-Ming Wang, and Lun-Wei Ku, 2016, “ANTUSD: A Large Chinese Sentiment Dictionary”, Proceedings of the Tenth International Conference on Language Resources and Evaluation, 2697-2702.
[18]T. Loughran, and B. McDonald, 2011, “When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks”, Journal of Finance, 66(1).
[19]T. Mikolov, Wen-Tau Yih, G. Zweig, 2013, “Linguistic Regularities in Continuous Space Word Representations”,Proceedings of NAACL-HLT, 746-751.
[20]T. Mikolov,et al., 2013, “Distributed representations of words and phrases and their compositionality”, NIPS'13 Proceedings of the 26th International Conference on Neural Information Processing Systems, 3111-3119.
[21]T. Mikolov,et al., 2013, “Efficient Estimation of Word Representations in Vector Space”, Journal of Computation and Language.
[22]U. Fayyad, G. P. Shapiro, and P. Smyth, 1996, “From Data Mining to Knowledge Discovery in Databases”,Journal of AI Magazine, 17(3):37-54.
[23]W. J. Wilbu, and K. Sirotkin, 1992, “The Automatic Identification of Stop Words”, Journal of Information Science, 18(1):45–55.
[24]W. J. Frawley, G. P. Shapiro, and C. J. Matheus, 1996, “Knowledge Discovery in Databases: An Overview”, Journal of AI Magazine, 13(3):57-70.
[25]Y. Bengio,et al., 2003, “A neural probabilistic language model”, Journal of Machine Learning Reseach, 3(6): 1137-1155.
[26]Y. XIA, L. WANG, and KAM-FAI WONG, 2008, “Sentiment Vector Space Model for Lyric-Based Song Sentiment Classification”, Journal of Computer Processing of Languages, 21(4):309-330.

中文文獻
[1]王聰仁,2014,不動產交易實價登錄制度之研究,淡江大學,碩士論文。
[2]何智明,1998,消費者住屋購買行為關鍵因素之研究-以台北都會區為例,國立中興大學,碩士論文。
[3]邱鴻達,2011,意見探勘在中文電影評論之應用,國立交通大學,碩士論文。
[4]邱司杰,2014,基於實價登錄的房價模型研究,國立交通大學,碩士論文。
[5]吳佳芸,2015,應用探勘技術於社會輿情以預測捷運週邊房地產市場之研究,國立政治大學,碩士論文。
[6]林建宇,2010,以資料採礦方法探討國內數位落差之現象,國立政治大學,碩士論文。
[7]林承蓁,2011,大臺北地區房地產與房貸利率變動之探討,銘傳大學,碩士論文。
[8]林宜萱,2013,財經領域情緒辭典之建置與其有效性之驗證-以財經新聞為元件,國立臺灣大學,碩士論文。
[9]周紹文,2016,探討文字指標對於企業績效的影響,國立中山大學,碩士論文。
[10]陳彥甫,2013,使用時間序列模型分析與預測大海氣象,南台科技大學,碩士論文。
[11]陳瑋薇,2014,台灣房市泡沫價格研究-兼論擴散與蔓延效果,國立中央大學,碩士論文。
[12]陳珍華,2014,巨量資料:公開資料與房仲網的房價分析,國立交通大學,碩士論文。
[13]張嘉純,2009,台灣房地產價格與房屋貸款之關聯性研究,國立台灣大學,碩士論文。
[14]張金鶚,2013,房地產是一輩子的事:張金鶚的買房、賺屋65問,金尉出版社,台北。
[15]張日威,2014,應用LDA進行Plurk主題分類及使用者情緒分析,國立雲林科技大學,碩士論文。
[16]張津挺,2015,中文財務情緒字典建構與其在財務新聞分析之應用,臺北市立大學,碩士論文。
[17]張修維,2016,運用資料探勘分析社會輿情與廣告影響房地產行情短期波動行為之研究,國立政治大學,碩士論文。
[18]游和正,2012,領域相關詞彙極性分析及文件情緒分類之研究,國立臺灣大學,碩士論文。
[19]賀安平,2016,從新聞文章預測股票走勢:使用SVM與LDA演算法,國立高雄應用科技大學,碩士論文。
[20]黃博羣,2014,房價指數、房仲類股與房市臉書粉絲專頁之關鍵字關聯性探討,世新大學,碩士論文。
[21]黃燕萍,2007,以概念階層為導向之時間序列模式資料探勘-以財務資料庫為例,國立雲林科技大學,博士論文。
[22]黃虹荏,2016,房價與少子化因果關係之研究-以台灣六大都市為例,國立政治大學,博士論文。
[23]楊勝凱,2004,媒體資訊、品牌態度與住宅偏好對購屋意圖影響之研究,國立成功大學,碩士論文。
[24]詹配楟,2012,優惠房貸政策、消費者信心指數與房價:VAR 模型,世新大學,碩士論文。
[25]鄒函升,2013,新聞輿情與民意偵測追蹤之研究-大資料之研究取向,國立政治大學,碩士論文。
[26]董呈煌等編著,2016,“SVR與OLS在住宅價格預測正確率的比較”,住宅學報,25卷,2期,頁31~55,十二月。
[27]蔡爾逸,2012,應用支撐向量機(SVM)於都市不動產價格預測之研究,國立中央大學,碩士論文。
[28]蔡鎮宇,2012,「社群情緒指標」於房地產市場價格關聯之研究,國立交通大學,碩士論文。
[29]魏如龍,2003,類神經網路於不動產價格預估效果之研究,國立政治大學,碩士論文。
[30]薛弘業,2013,應用文字探勘文件分類分群技術於股價走勢預測之研究-以台灣股票市場為例,國立政治大學,碩士論文。
[31]羅意淳,2014,房價高漲薪水不漲,現代人如何完成首次購屋之夢想,元智大學,碩士論文。
電子全文 電子全文(網際網路公開日期:20220726)
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔