大數據分析期末報告

簡介

本專案旨在利用大數據分析技術，針對信用卡詐欺檢測進行模型構建與特徵優化。研究方法包括 SVM、XGBoost，以及基於 XGBoost 的特徵重要性結合貪婪算法的特徵選擇策略。此專案旨在探索提升模型性能的可能性，並比較不同方法在處理不平衡數據上的效果。

專案結構

此專案包含以下主要部分：

數據讀取與前處理：處理信用卡交易數據集，應用標準化與特徵組合。
模型構建與特徵選擇：基於 SVM 和 XGBoost 進行基礎建模，並使用三種貪婪算法（貪婪算法、Dijkstra、Prim）進行特徵篩選。
結果分析與比較：對不同算法的性能進行評估，包括 AUC-ROC、混淆矩陣及分類報告。

技術細節

本專案的主要技術細節如下：

數據來源：信用卡詐欺檢測公開數據集。
算法應用：
- SVM (支持向量機)：適用於高維數據和不平衡場景。
- XGBoost：利用特徵重要性進行特徵篩選，並進行初步模型構建。
- 貪婪算法、Dijkstra、Prim：基於 XGBoost 特徵重要性，進一步優化特徵選擇。
評估指標：AUC-ROC、精確率 (Precision)、召回率 (Recall)、F1-score。

文件內容

此 Jupyter Notebook 包含以下內容：

使用方法

確保已安裝必要的 Python 庫，包括 pandas、numpy、xgboost、matplotlib、seaborn 和 scikit-learn。
下載數據集並放置於適當目錄中。
運行 Notebook 以復現結果。

結果展示

分析結果包括混淆矩陣、特徵重要性排序及模型性能比較，詳細內容見 Notebook。

聲明

本專案僅用於學術研究與教學目的。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
大數據分析期末報告.ipynb		大數據分析期末報告.ipynb
大數據分析期末報告2.ipynb		大數據分析期末報告2.ipynb
大數據分析期末報告3_正式版.ipynb		大數據分析期末報告3_正式版.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

大數據分析期末報告

簡介

專案結構

技術細節

文件內容

使用方法

結果展示

聲明

About

Releases

Packages

Languages

scuranger0625/Big-Data-Project---Financial-Credit-Card-Fraud-Detection

Folders and files

Latest commit

History

Repository files navigation

大數據分析期末報告

簡介

專案結構

技術細節

文件內容

使用方法

結果展示

聲明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages