跳到主要內容

臺灣博碩士論文加值系統

(44.213.60.33) 您好!臺灣時間:2024/07/18 10:01
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:陳慧如
研究生(外文):CHEN,HUI-JU
論文名稱:採用Spark分散計算建置巨量資料探勘模型:以氣候資料為例
論文名稱(外文):Building a mining model for Big Data Based on Spark scheme: Take Climate Information as An Example
指導教授:陳志達陳志達引用關係
口試委員:李昇暾陳朝鈞陳志達
口試日期:2017-07-18
學位類別:碩士
校院名稱:南臺科技大學
系所名稱:資訊管理系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:68
中文關鍵詞:Apache Spark雲端運算巨量資料資料探勘氣候變遷
外文關鍵詞:Apache SparkMLlibBig DataData MiningClimate Change
相關次數:
  • 被引用被引用:2
  • 點閱點閱:290
  • 評分評分:
  • 下載下載:23
  • 收藏至我的研究室書目清單書目收藏:0
近年來,由於巨量資料呈現爆炸性的成長,資策會MIC表示,軟體市場趨勢將由「行動應用、巨量資料、社交媒體、雲端運算」等新興科技整合創新服務所驅動,展望未來,在巨量資料的時代裡,如何從龐大且雜亂的資料中,找出有效的隱藏資訊來提升組織營運或是應用的效率是相當重要的。因此本研究提出基於Apache Spark分散式計算平台的建置,藉由叢集運算的技術整合HDFS、RDDs等相關元件,使用Apache Spark內建的Machine Learning Library (MLlib) 建構出氣候資訊分析架構的模型,最後建立模型預測未來一週天氣狀況以台南為例,之後在一週過後來驗證其預測之結果是否吻合,並且產出淺顯易懂的資訊、圖表,提供給使用者作為氣候災害預防之依據及使用,達到快速處理與分析巨量資料之目的。
In recent years, due to the explosive growth of huge amounts of data, MIC(Taiwan) has shown that the software market trend will be driven by emerging integration and innovation of technologies such as mobile applications, Big Data, social media and cloud computing. Looking forward to the future, in the era of Big Data, how to find valuable information from large and cluttered data, and how to enhance the efficient operation for various applications, is very important for most organizations. Therefore, this paper proposes the construction of distributed computing platform based on Apache Spark and extended research about climate change. This paper provides cluster computing scheme to integrate HDFS, RDDs and other related components, and uses Apache Spark's built-in Machine Learning Library (MLlib) to construct the climate information analysis framework. Finally, output of system gives information and charts to users as a reference for prevention of climate disasters. We Enter the information after seven days to the model we create, and check whether the output is correct or not with future weather. According to above experiment, we can make improvement of the model. Finally, the system validated the use of distributed computing of Spark structure achieves rapid processing and analysis of the huge climate data for real-time response to deal with emergency of climate change.
摘 要
ABSTRACT
致 謝
目 次
表目錄
圖目錄
第一章 緒論
1.1 研究背景
1.2 研究動機
1.3 研究目的
1.4 研究問題
1.5 研究限制
1.6 論文架構
第二章 文獻探討
2.1 Hadoop
2.1.1 HDFS (Hadoop Distributed File System)
2.1.2 MapReduce
2.2 HBase (Hadoop Database)
2.3 Spark
2.3.1 RDD
2.3.2 Spark MLlib
2.4 Big Data
2.5 決策樹演算法
2.5.2 CART (Classification And Regression Tree)
2.6 氣候變遷調適
第三章 研究方法
3.1 研究範圍與對象
3.1.1 研究範圍
3.1.2 研究對象
3.2 系統架構
3.3 系統規劃
3.3.1 Pre-Processing Module
3.3.2 Database Cluster
3.3.3 Information Processing Subsystem
3.3.4 VM Management Module
3.4 系統流程
第四章 系統實作
4.1 系統開發工具與實作環境
4.2 前置處理模組實作
4.3 建置資料分析模組
4.3.1 實驗設計
4.3.2 分析前置環境建置
4.3.3 資料探勘模型建置
4.3.4 資料預測說明
4.3.5 Spark RDD處理流程
4.4 兩種分類模型的比較與建議
第五章 系統分析與比較
5.1 成效分析
第六章 結論與未來研究
6.1 研究結果與討論
6.2 未來工作與方向
參考文獻 6

丁一賢、蘇豐凱,“運用分類技術於線上遊戲勝負因素之分析”,國立高雄大學資訊管理系碩士在職專班碩士論文,2013年,10月。
王建興,“分散式計算的新角色Spark”, http://www.ithome.com.tw/voice/9413。
行政院經濟建設委員會,國家氣候變遷調適政策綱領,
http://www.climate-edu.tw/。
林大貴,“Hadoop+Spark大數據巨量分析與機器學習整合開發實戰”碩博文化,2015年。
余志浩、曾嘉影,“使用動態HDFS/MapReduce排成的高效能資料處理”,大同大學資訊工程系碩士論文,2010年7月。
柳中明,“全球氣候變遷之衝擊與調適策略探討” ,http://goo.gl/bGxZuT。
周建成、楊貴安,“Hadoop雲端平台在工程應用之探討研究”,國立中央大學土木工程學系碩士論文,2012年,6月。
胡毓志、吳欣儒,“資料探勘技術於病人疼痛自控裝置之應用與分析”,國立交通大學資訊科學系碩士論文,2011年,7月。
陳輝煌、陳世智、曾瑞智,“應用資料探勘技術建構整合型目標客戶選擇模式”,大同大學資訊經營研究所碩士論文,2013年,7月。
陸嘉恒,Hadoop實戰技術手冊(第二版),佳魁資訊出版公司,民103年。
秦秉達、陳弘明、陳世穎,“基於Hadoop MapReduce 叢集設計平行化二元分類演算法”,國立臺中科技大學資訊工程系碩士論文,2015年7月。 
張軒彬、簡玠忠,“基於Hadoop框架建立巨量資料分析處理模型研究”,國立中興大學資訊科學與工程學系碩士學位論文,2013年,1月。
許育瑋、鄧有光,“以CART分析五大人格與金手獎得獎選手關係之研究”,聖約翰科技大學資訊工程系碩士論文,2013年,1月。
黃登源、鄒濟民,“智慧型資料分析研究”,智慧科技與應用統計學報,3卷2期,P67-76,民94年12月。
馮光立、胡建勳,“應用資料探勘技術於通識課程學習成效對畢業成績影響之研究”,玄奘大學資訊管理學系碩士論文,2013年,1月。
鄭允中,“AI - Ch15 機器學習(3), 樸素貝葉斯分類器 Naive Bayes classifier”,
http://mropengate.blogspot.tw/2015/06/ai-ch14-3-naive-bayes-classifier.html。
簡玠忠、張軒彬,“基於Hadoop框架建立巨量資料分析處理模型研究”,國立中興大學資訊科學與工程學系碩士學位論文,民102。
鐘志明、韓欽銓,“模型以資料萃取技術探索天氣、汙染、氣喘病發作的關連性-以類神經網路BPN為例”,南華大學資訊管理學系碩士學位論文,民100。
Aditya Bhardwaj., et al., “Big data emerging technologies: A CaseStudy with analyzing twitter data using apache hive”, 2015 2nd International Conference on Recent Advances in Engineering & Computational Sciences (RAECS), Chandigarh, Dec 2015, pp. 21-22.
Apache HBase. (2015). “Apache HBase ™ Reference Guide,” Apache HBase.
(Available online at http://hbase.apache.org/book.html#faq).

Apache.org. Apache Foundation “Cluster Mode Overview - Spark 1.2.0 Documentation - Cluster Manager Types” 2014
2Bob Corson. (2014). “Stop Targeted Email Attacks: Removing the Path of Least Resistance for Attackers,” TREND MICROTM.
(Available online at http://blog.trendmicro.com/stop-targeted-email-attacks-removing-path-least-resistance-attackers/).
Borthakur, D. (2013). “HDFS Architecture Guide,” Apache.
(Available online at http://hadoop.apache.org/docs/r1.2.1/hdfs_design.pdf).
Farag Azzedin., “Towards a scalable HDFS architecture”, IEEE International Conference on Collaboration Technologies and Systems (CTS), San Diego, CA, May 2013, pp. 155 - 161.
Lars George, HBase:The Dfinitive Guide, O'Reilly Media, 2012.
Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia. (2016). “Learning Spark,” O'Reilly & Associates.
Kotiyal, B., et al., “Big data: Mining of log file through Hadoop”, IEEE International Conference on Human Computer Interactions (ICHCI), Chennai, Aug 2013, pp. 1-7.
Katukuri, J., et al. (2014), “Recommending similar items in large-scale online marketplaces”, IEEE International Conference on Big Data (Big Data), Washington, DC, Oct 2014, pp. 27-30.
Manikandan S.G., and Ravi S., “Big Data Analysis using Apache Hadoop”, IEEE International Conference on IT Convergence and Security (ICITCS), Beijing, Oct 2014, pp. 1-4. 
Matei Zaharia. (2011), “Spark: In-Memory Cluster Computing for Iterative and Interactive Applications,”. NIPS “Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale”.
Patel, A.B., Birla, M., Nair, U. (2012). Addressing big data problem using Hadoop and Map Reduce. Engineering (NUiCONE), 2012 Nirma University International Conference on. IEEE, pp.1-5.
Tom White, Hadoop: The Definitive Guide, Oreilly Media, 2015.
Vora, M.N., “Hadoop-HBase for large-scale data”, IEEE International Conference on Computer Science and Network Technology (ICCSNT), Harbin, Dec 2011, pp. 601-605.
White, T. (2015). “Hadoop: The definitive guide,” O'Reilly & Associates.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top