本專案旨在利用大數據分析技術,針對信用卡詐欺檢測進行模型構建與特徵優化。 研究方法包括 SVM、XGBoost,以及基於 XGBoost 的特徵重要性結合貪婪算法的特徵選擇策略。 此專案旨在探索提升模型性能的可能性,並比較不同方法在處理不平衡數據上的效果。
此專案包含以下主要部分:
- 數據讀取與前處理:處理信用卡交易數據集,應用標準化與特徵組合。
- 模型構建與特徵選擇:基於 SVM 和 XGBoost 進行基礎建模,並使用三種貪婪算法(貪婪算法、Dijkstra、Prim)進行特徵篩選。
- 結果分析與比較:對不同算法的性能進行評估,包括 AUC-ROC、混淆矩陣及分類報告。
本專案的主要技術細節如下:
- 數據來源:信用卡詐欺檢測公開數據集。
- 算法應用:
- SVM (支持向量機):適用於高維數據和不平衡場景。
- XGBoost:利用特徵重要性進行特徵篩選,並進行初步模型構建。
- 貪婪算法、Dijkstra、Prim:基於 XGBoost 特徵重要性,進一步優化特徵選擇。
- 評估指標:AUC-ROC、精確率 (Precision)、召回率 (Recall)、F1-score。
此 Jupyter Notebook 包含以下內容:
- 確保已安裝必要的 Python 庫,包括
pandas
、numpy
、xgboost
、matplotlib
、seaborn
和scikit-learn
。 - 下載數據集並放置於適當目錄中。
- 運行 Notebook 以復現結果。
分析結果包括混淆矩陣、特徵重要性排序及模型性能比較,詳細內容見 Notebook。
本專案僅用於學術研究與教學目的。