論文名稱(外文):Evaluation of Big Data Processing Efficiency and Selection criteria of Database Management System
指導教授(外文):Jia-Li Hou
外文關鍵詞:Big dataRDBMSNoSQL
因此,本研究比較NoSQL和關聯式資料庫,在不同資料規模下的效能,並提供資料庫評選準則,供使用者作為參考。本研究蒐集不同規模的資料集,並在MongoDB、SQL Server和MySQL上設計Query做函數運算。結果顯示在資料規模小於50G時,做聚合函數NoSQL效能不會比關聯式資料庫好。然而,NoSQL可以快速的完成資料前處理,並用來做運算,這是RDBMS無法達成的。另外,本研究還比較Hadoop單節點與雙節點的效能差異,結果顯示雙節點Query執行時間比單節點約快30%。
With the evolution of big data, the focus of big data analysis from can process huge amount of data into can analyze to the value of data. In this evolution ,this paper thinks that as long as you can find the value of data, then if the data size is not big, it means that use traditional analysis also can be completed, so do not have to use NoSQL platform. This study compared the performance of NoSQL and RDBMS under different data sizes.
Our experiment investigates big data analysis’s performance and provide database selection criteria. We use 1G、10G、25G、50G dataset to do function calculation on MongoDB、Hbase、SQL Server、MySQL. The results show that NoSQL in the data size below 50G, it’s performance not better than RDBMS but when data size more bigger, NoSQL’s import function is very fast than RDBMS. Another, this paper also compare Hbase that single node or two nodes. The results show that if add one node, Hbase is fast 30% approximately.
致謝 I
摘要 III
Abstract V
目錄 VII
圖目錄 XI
表目錄 XIII
第一章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的 3
一、 評估資料庫平台效能 4
二、 比較NoSQL資料庫和SQL關聯式資料庫 4
三、 提供資料庫選取準則 4
第三節 研究貢獻 4
一、 提供每個平台使用上的差異 4
二、 彙整資料庫選取準則 5
第四節 論文章節說明 5
第二章 文獻探討 7
第一節 大數據相關文獻 7
一、 大數據定義 7
二、 大數據特性 7
第二節 關聯式資料庫相關文獻 8
一、 關聯式資料庫介紹 8
二、 常用工具 9
第三節 NoSQL資料庫相關文獻 10
一、 NoSQL介紹 10
二、 NoSQL常用工具 11
第四節 NoSQL vs SQL相關研究 14
第三章 研究方法 17
第一節 研究架構與說明 17
一、 蒐集資料集 18
二、 篩選資料庫 20
三、 將資料匯入資料庫 22
四、 Query設計 25
第二節 研究工具 26
一、 軟體環境 26
二、 硬體環境 26
三、 虛擬機環境 27
第四章 實驗說明與結果 29
第一節 評估資料庫效能 29
一、 實驗一 NoSQL vs SQL 29
二、 實驗一 Query結果 35
三、 實驗二 Hadoop 單節點 VS 多節點 38
四、 實驗二 結果 38
第五章 結論與未來展望 41
第一節 結論與研究貢獻 41
第二節 研究限制與後續研究方向 42
參考文獻 43
附錄 47
附錄A SQL Server匯入步驟 47
附錄B MapReuce程式 51
讀取Hbase Table程式碼 51
Sum程式碼 52
Avg程式碼 53
Max程式碼 54
