SOCAR 보험사기 예측 프로젝트

해당 프로젝트는 패스트캠퍼스 데이터사이언티스트 15기 과정중 진행.
본 프로젝트는 머신러닝을 기반으로 카쉐어링업계에서 극심해지는 보험 사기를 예측해보기 위함에 있음.

1. 데이터 수집

데이터는 카쉐어링업체 SOCAR로부터 제공받았으며, 16000 rows X 35 columns의 데이터로 구성되어 있음.

2. 진행 과정

데이터 탐색
데이터 전처리
모델링
모델 검증
결론

3. 데이터 불균형

전체 16000건의 데이터중에서 보험사기는 단 41건.
데이터 불균형을 해소하기 위해서 다양한 Oversampling 기법을 시도하여, 평가.

4. 데이터 전처리

결측치 및 이상치 제거
오버샘플링
스케일링
PCA를 통한 Feature 생성
원핫인코딩
Feature Importance 확인후 Feature Extraction 오버샘플링, Feature Importance 확인후 Feature Extraction만이 성능을 향상시킴.

5. 평가 기준

이전 기수인 14기에서 본 프로젝트로 얻었던 최적의 성능을 Baseline 으로 두었음.

accuracy 0.493, precision 0.003, recall 0.714 데이터 불균형으로, 모든 사고를 No Fraud 로 예측시, accuracy 0.997. accuracy는 중요한 평가 척도가 되기 어려움.
객관적인 성능 평가를 위하여 precision, recall 을 평가 기준으로 결정.

6. 구조도

7. 최종 모델

총 4가지를 모델로 다음과 같은 성과를 거두었으며, 그 중에서도 LightGBM이 가장 높은 성능을 보임.

참조

Cross-Validation for Imbalanced Datasets: Avoiding Overoptimistic and Overfitting Approaches
https://www.researchgate.net/publication/328315720_Cross-Validation_for_Imbalanced_Datasets_Avoiding_Overoptimistic_and_Overfitting_Approaches

기여자

김준성(a.k.a 튜닝몬스터) https://github.com/whistle-boy
방희란(a.k.a 판다스의 신) https://github.com/Heeran-cloud
정혜주(a.k.a 논문통찰자) https://github.com/hjung53

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
PPT_Socar_Insurance_Fraud_Detection.pdf		PPT_Socar_Insurance_Fraud_Detection.pdf
README.md		README.md
README_eng.md		README_eng.md
model_final.ipynb		model_final.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SOCAR 보험사기 예측 프로젝트

1. 데이터 수집

2. 진행 과정

3. 데이터 불균형

4. 데이터 전처리

5. 평가 기준

6. 구조도

7. 최종 모델

참조

기여자

About

Releases

Packages

Languages

dss-15th/ml-repo-2

Folders and files

Latest commit

History

Repository files navigation

SOCAR 보험사기 예측 프로젝트

1. 데이터 수집

2. 진행 과정

3. 데이터 불균형

4. 데이터 전처리

5. 평가 기준

6. 구조도

7. 최종 모델

참조

기여자

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages