Skip to content

scuranger0625/Big-Data-Project---Financial-Credit-Card-Fraud-Detection

Repository files navigation

大數據分析期末報告

簡介

本專案旨在利用大數據分析技術,針對信用卡詐欺檢測進行模型構建與特徵優化。 研究方法包括 SVM、XGBoost,以及基於 XGBoost 的特徵重要性結合貪婪算法的特徵選擇策略。 此專案旨在探索提升模型性能的可能性,並比較不同方法在處理不平衡數據上的效果。

專案結構

此專案包含以下主要部分:

  • 數據讀取與前處理:處理信用卡交易數據集,應用標準化與特徵組合。
  • 模型構建與特徵選擇:基於 SVM 和 XGBoost 進行基礎建模,並使用三種貪婪算法(貪婪算法、Dijkstra、Prim)進行特徵篩選。
  • 結果分析與比較:對不同算法的性能進行評估,包括 AUC-ROC、混淆矩陣及分類報告。

技術細節

本專案的主要技術細節如下:

  • 數據來源:信用卡詐欺檢測公開數據集。
  • 算法應用
    • SVM (支持向量機):適用於高維數據和不平衡場景。
    • XGBoost:利用特徵重要性進行特徵篩選,並進行初步模型構建。
    • 貪婪算法、Dijkstra、Prim:基於 XGBoost 特徵重要性,進一步優化特徵選擇。
  • 評估指標:AUC-ROC、精確率 (Precision)、召回率 (Recall)、F1-score。

文件內容

此 Jupyter Notebook 包含以下內容:

使用方法

  1. 確保已安裝必要的 Python 庫,包括 pandasnumpyxgboostmatplotlibseabornscikit-learn
  2. 下載數據集並放置於適當目錄中。
  3. 運行 Notebook 以復現結果。

結果展示

分析結果包括混淆矩陣、特徵重要性排序及模型性能比較,詳細內容見 Notebook。

聲明

本專案僅用於學術研究與教學目的。

About

信用卡詐欺檢測

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published