研究生(外文):Shu-Shiuan Rong
論文名稱(外文):Using Machine Learning Techniques to Find the relationship between University Admission Score and Student Performance-Taking Department of Computer Science and Information Engineering of Tamkang University as an example
指導教授(外文):Chieh-Chang ChenCheng-Shian Lin
口試委員(外文):Chyuan-Huei YangChi-Yi LinChieh-Chang Chen
外文關鍵詞:Machine LearningStudent PerformancePerformance PredictionDeep Neural NetworksRandom ForestSupport Vector Machine
隨著少子化的影響,所有的高等教育機構都面臨了招生方面的挑戰,如何挑選適合的學生進入校系就讀需要經過各項數據的支持。本研究透過深度神經網路、隨機森林、支援向量機等機器學習技術,分析新生入學資料與大一學業表現的關聯性。實驗結果顯示,在總平均科目的 2 分類預測上,支援向量機法具有最佳的預測結果;在數學與程式類科目中,2 分類的隨機森林法具有最佳的預測結果;然而在基礎類科目中,各方法在二分類有最佳結果且表現同樣優異。在其他的分類上,包括 3 分類、5 分類、及 10 分類,三種方法的預測能力各有優劣。特徵中的高中 GPA 對預測結果影響重大。
With the impact of the declining birthrate, all higher education institutions are facing enrollment challenges. Collecting useful data can find appropriate students for university admission. In this study, we adopt machine learning techniques like Deep Neural Network (DNN), Random Forest (RF), and Support Vector Machine (SVM) to find the relationship between entrance score and freshman academic performance. Experimental results show that the SVM has the best prediction results on average of total courses in 2-category classification. The RF performs best on mathematical courses and programming courses in 2-category classification. However, on fundamental courses, all methods have the best prediction results in 2-category and perform equally well. Moreover, on other category classifications, like 3-category, 5-category, or 10-category classifications, we cannot find a universal best method. Another result shows that High school GPA has a significa
nt impact on results.
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 3
1.4 研究問題 3
1.5 研究架構 3
第二章 文獻探討 4
2.1 深度神經網路 4
2.2 隨機森林 8
2.3 支援向量機 10
第三章 實驗方法與資料集 12
3.1 實驗架構及流程 12
3.2 實驗之程式編譯環境設定、函數使用 15
3.3 資料集來源說明 17
3.4 資料前處理與遺失值處理 17
3.5 模型參數設定 20
第四章 資料分析與實驗結果 25
4.1 實驗結果 25
4.2 實驗之結果比較 35
第五章 結論與建議 40
5.1 結論 40
5.2 研究限制 40
5.3 未來研究方向 40
參考文獻 41
附錄一 英文論文 46

圖1、深度神經網路架構示意圖 5
圖2、深度神經網路流程 6
圖3、ReLU函數圖 7
圖4、決策樹架構示意圖 9
圖5、隨機森林架構示意圖[ 9
圖6、SVM示意圖 10
圖7、實驗架構圖 12
圖8、資料標籤分類 13
圖9、「10分類」成績人數分布圖 14
圖10、「5分類」成績人數分布圖 14
圖11、「3分類」成績人數分布圖 14
圖12、「2分類」成績人數分布圖 15
圖13、「10分類」深度神經網路模型架構 21
圖14、總平均DNN「10分類」訓練結果 26
圖15、總平均DNN「5分類」訓練結果 26
圖16、總平均DNN「3分類」訓練結果 26
圖17、總平均DNN「2分類」訓練結果 27
圖18、程式科DNN「10分類」訓練結果 28
圖19、程式科DNN「5分類」訓練結果 28
圖20、程式科DNN「3分類」訓練結果 28
圖21、程式科DNN「2分類」訓練結果 29
圖22、數學科DNN「10分類」訓練結果 30
圖23、數學科DNN「5分類」訓練結果 30
圖24、數學科DNN「3分類」訓練結果 30
圖25、數學科DNN「2分類」訓練結果 31
圖26、基礎科DNN「10分類」訓練結果 32
圖27、基礎科DNN「5分類」訓練結果 32
圖28、基礎科DNN「3分類」訓練結果 32
圖29、基礎科DNN「2分類」訓練結果 33
圖30、總平均預測正確率分布圖 35
圖31、程式科預測正確率分布圖 36
圖32、數學科預測正確率分布圖 36
圖33、基礎科預測正確率分布圖 37
圖34、特徵欄位重要性分布圖 37
圖35、總平均原始正確率與鄰近正確率分布圖 37
圖36、程式科原始正確率與鄰近正確率分布圖 38
圖37、數學科原始正確率與鄰近正確率分布圖 38
圖38、基礎科原始正確率與鄰近正確率分布圖 38

表1、各模型使用之函數清單與說明 16
表2、特徵與標籤清單 18
表3、必修科目分類表 19
表4、DNN決定參數過程 21
表5、RF決定參數過程 23
表6、SVM決定參數過程 23
表7、實驗簡表 25
表8、總平均DNN預測結果 27
表9、總平均RF預測結果 27
表10、總平均SVM預測結果 27
表11、程式科DNN預測結果 29
表12、程式科RF預測結果 29
表13、程式科SVM預測結果 29
表14、數學科DNN預測結果 31
表15、數學科RF預測結果 31
表16、數學科SVM預測結果 31
表17、基礎科DNN預測結果 33
表18、基礎科RF預測結果 33
表19、基礎科SVM預測結果 33
表20、總平均特徵重要性 34
表21、程式科特徵重要性 34
表22、數學科特徵重要性 34
表23、基礎科特徵重要性 35
表24、總平均實驗結果排名 39
表25、程式科實驗結果排名 39
表26、數學科實驗結果排名 39
表27、基礎科實驗結果排名 39
