研究生(外文):Chia-Chia Ho
論文名稱(外文):Analysis of Machine Learning Model Performance on Imbalanced Datasets: The Impact of Standardization, Feature Selection, and SMOTE Data Preprocessing Methods — Using Credit Card Fraud Detection Data
指導教授(外文):Chang-Yun Lin
口試委員(外文):Shin-Fu TsaiMing-Chung Chang
外文關鍵詞:Imbalanced DataCredit Card FraudData Preprocessing TechniquesMachine LearningSMOTE
Detecting minority samples in imbalanced datasets is a critical issue with significant academic and industrial applications. The credit card fraud dataset is a typical example of a highly imbalanced dataset, where fraudulent transactions constitute only a small fraction of the total transactions. However, these fraudulent transactions can cause substantial financial losses to banks and consumers. This study leverages the credit card fraud dataset to investigate the impact of current data preprocessing techniques (including standardization, feature selection, and SMOTE) on the predictive performance of models in highly imbalanced datasets. Additionally, the effectiveness of these preprocessing techniques when incorporating class weights was examined. We evaluated five machine learning models: Naive Bayes, Logistic Regression, Decision Tree, Random Forest, and XGBoost, comparing the performance and efficiency of each preprocessing technique on these models. The findings provide valuable insights into handling imbalanced datasets, contributing to enhanced detection performance in practical applications.
摘要 i
Abstract ii
目次 iii
圖目次 vi
表目次 viii
第1章 緒論 1
1.1 研究背景 1
1.2 問題陳述 1
1.3 研究目的與意義 2
1.4 論文大綱 2
第2章 文獻研討 4
第3章 研究方法 5
3.1 研究流程 5
3.2 數據集介紹 6
3.3 前處理方法 7
3.3.1 標準化 7
3.3.2 特徵選擇 11
3.3.3 SMOTE (Synthetic Minority Over-sampling Technique) 15
3.4 資料權重參數 17
3.5 機器學習模型 17
3.6 模型訓練與測試 18
3.6.1 模型預設值 19
3.7 評估方法 20
3.7.1 評估指標說明 20
3.8 實驗數據縮寫 23
3.9 實驗環境 25
第4章 實驗結果與分析 26
4.1 實驗數據 26
4.2 邏輯斯回歸 (Logistic Regression) 28
4.2.1 邏輯斯回歸所有前處理組合實驗結果 28
4.2.2 AUPRC、F1 分數及訓練時間的比較 29
4.2.3 各種前處理方法和權重設置對模型效能的詳細分析 32
4.3 貝氏分類器 (Naive Bayes) 33
4.3.1 貝氏分類器所有前處理組合實驗結果 33
4.3.2 AUPRC、F1 分數及訓練時間的比較 34
4.3.3 各種前處理方法和權重設置對模型效能的詳細分析 36
4.4 隨機森林 (Random Forest) 37
4.4.1 隨機森林所有前處理組合實驗結果 37
4.4.2 AUPRC、F1 分數及訓練時間的比較 39
4.4.3 各種前處理方法和權重設置對模型效能的詳細分析 40
4.5 決策樹 (Decision Tree) 41
4.5.1 決策樹所有前處理組合實驗結果 41
4.5.2 AUPRC、F1 分數及訓練時間的比較 44
4.5.3 各種前處理方法和權重設置對模型效能的詳細分析 44
4.6 XGBoost 45
4.6.1 XGBoost 所有前處理組合實驗結果 45
4.6.2 AUPRC、F1 分數及訓練時間的比較 48
4.6.3 各種前處理方法和權重設置對模型效能的詳細分析 48
4.7 閥值調整以優化預測 49
4.7.1 閥值設定 50
4.7.2 實驗結果與分析 52
4.8 總結 56
第5章 綜合討論 57
5.1 效能和訓練時間基礎上的前處理技術適配性分析 58
5.2 每個模型的最適配組合和最不適配組合 59
5.3 此研究的侷限 60
第6章 結論與未來工作 61
6.1 結論 61
6.2 未來工作 61
參考文獻 62
附錄 63
附錄一:實驗流程程式虛擬碼 63
