跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.91) 您好!臺灣時間:2024/12/11 01:22
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:何佳家
研究生(外文):Chia-Chia Ho
論文名稱:針對不平衡資料集的機器學習模型效能分析:標準化、特徵選擇與SMOTE資料前處理方法的影響——以信用卡詐欺資料集為例
論文名稱(外文):Analysis of Machine Learning Model Performance on Imbalanced Datasets: The Impact of Standardization, Feature Selection, and SMOTE Data Preprocessing Methods — Using Credit Card Fraud Detection Data
指導教授:林長鋆
指導教授(外文):Chang-Yun Lin
口試委員:蔡欣甫張明中
口試委員(外文):Shin-Fu TsaiMing-Chung Chang
口試日期:2024-07-12
學位類別:碩士
校院名稱:國立中興大學
系所名稱:人工智慧與資料科學碩士在職學位學程
學門:電算機學門
學類:電算機應用學類
論文種類:學術論文
論文出版年:2024
畢業學年度:112
語文別:中文
論文頁數:67
中文關鍵詞:不平衡資料信用卡詐欺資料前處理技術機器學習SMOTE
外文關鍵詞:Imbalanced DataCredit Card FraudData Preprocessing TechniquesMachine LearningSMOTE
相關次數:
  • 被引用被引用:0
  • 點閱點閱:19
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
在不平衡資料集中偵測少數樣本是一個亟待解決的問題,具有重大的學術和工業應用意義。信用卡詐欺資料集是一個高度不平衡的典型例子,其中詐欺交易僅佔總交易的一小部分。然而,這些詐欺交易的發生可能會給銀行和消費者帶來巨大的財務損失。本研究利用信用卡詐欺資料集來探討當前資料前處理技術(包括標準化、特徵選擇和SMOTE)在高度不平衡數據集上對模型預測效能的影響。此外,還研究了加入類別權重後這些前處理技術的有效性。我們評估了五種機器學習模型:貝氏分類器、邏輯斯回歸、決策樹、隨機森林和XGBoost,並比較了各前處理技術在這些模型上的效能和效率。研究結果為處理不平衡數據集提供了重要見解,有助於在實際應用中提升偵測效能。
Detecting minority samples in imbalanced datasets is a critical issue with significant academic and industrial applications. The credit card fraud dataset is a typical example of a highly imbalanced dataset, where fraudulent transactions constitute only a small fraction of the total transactions. However, these fraudulent transactions can cause substantial financial losses to banks and consumers. This study leverages the credit card fraud dataset to investigate the impact of current data preprocessing techniques (including standardization, feature selection, and SMOTE) on the predictive performance of models in highly imbalanced datasets. Additionally, the effectiveness of these preprocessing techniques when incorporating class weights was examined. We evaluated five machine learning models: Naive Bayes, Logistic Regression, Decision Tree, Random Forest, and XGBoost, comparing the performance and efficiency of each preprocessing technique on these models. The findings provide valuable insights into handling imbalanced datasets, contributing to enhanced detection performance in practical applications.
摘要 i
Abstract ii
目次 iii
圖目次 vi
表目次 viii
第1章 緒論 1
1.1 研究背景 1
1.2 問題陳述 1
1.3 研究目的與意義 2
1.4 論文大綱 2
第2章 文獻研討 4
第3章 研究方法 5
3.1 研究流程 5
3.2 數據集介紹 6
3.3 前處理方法 7
3.3.1 標準化 7
3.3.2 特徵選擇 11
3.3.3 SMOTE (Synthetic Minority Over-sampling Technique) 15
3.4 資料權重參數 17
3.5 機器學習模型 17
3.6 模型訓練與測試 18
3.6.1 模型預設值 19
3.7 評估方法 20
3.7.1 評估指標說明 20
3.8 實驗數據縮寫 23
3.9 實驗環境 25
第4章 實驗結果與分析 26
4.1 實驗數據 26
4.2 邏輯斯回歸 (Logistic Regression) 28
4.2.1 邏輯斯回歸所有前處理組合實驗結果 28
4.2.2 AUPRC、F1 分數及訓練時間的比較 29
4.2.3 各種前處理方法和權重設置對模型效能的詳細分析 32
4.3 貝氏分類器 (Naive Bayes) 33
4.3.1 貝氏分類器所有前處理組合實驗結果 33
4.3.2 AUPRC、F1 分數及訓練時間的比較 34
4.3.3 各種前處理方法和權重設置對模型效能的詳細分析 36
4.4 隨機森林 (Random Forest) 37
4.4.1 隨機森林所有前處理組合實驗結果 37
4.4.2 AUPRC、F1 分數及訓練時間的比較 39
4.4.3 各種前處理方法和權重設置對模型效能的詳細分析 40
4.5 決策樹 (Decision Tree) 41
4.5.1 決策樹所有前處理組合實驗結果 41
4.5.2 AUPRC、F1 分數及訓練時間的比較 44
4.5.3 各種前處理方法和權重設置對模型效能的詳細分析 44
4.6 XGBoost 45
4.6.1 XGBoost 所有前處理組合實驗結果 45
4.6.2 AUPRC、F1 分數及訓練時間的比較 48
4.6.3 各種前處理方法和權重設置對模型效能的詳細分析 48
4.7 閥值調整以優化預測 49
4.7.1 閥值設定 50
4.7.2 實驗結果與分析 52
4.8 總結 56
第5章 綜合討論 57
5.1 效能和訓練時間基礎上的前處理技術適配性分析 58
5.2 每個模型的最適配組合和最不適配組合 59
5.3 此研究的侷限 60
第6章 結論與未來工作 61
6.1 結論 61
6.2 未來工作 61
參考文獻 62
附錄 63
附錄一:實驗流程程式虛擬碼 63
[1] K. Boyd, K. H. Eng, and C. D. Page. Area under the precision-recall curve: point estimates and confidence intervals. In Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2013, Prague, Czech Republic, September 23-27, 2013, Proceedings, Part III 13, pages 451–466. Springer, 2013.
[2] I. Cohen, Y. Huang, J. Chen, J. Benesty, J. Benesty, J. Chen, Y. Huang, and I. Cohen. Pearson correlation coefficient. Noise reduction in speech processing, pages 1–4, 2009.
[3] H. He and E. A. Garcia. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9):1263–1284, 2009. doi: 10.1109/TKDE.2008.239.
[4] G. Menardi and N. Torelli. Training and assessing classification rules with imbalanced data. Data mining and knowledge discovery, 28:92–122, 2014.
[5] D. C. Montgomery, E. A. Peck, and G. G. Vining. Introduction to linear regression analysis. John Wiley & Sons, 2021.
[6] T. Saito and M. Rehmsmeier. The precision-recall plot is more informative than the roc plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3):e0118432, 2015.
[7] F. Thabtah, S. Hammoud, F. Kamalov, and A. Gonsalves. Data imbalance in classification: Experimental evaluation. Information Sciences, 513:429–441, 2020.
電子全文 電子全文(網際網路公開日期:20290623)
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊