Skip to content

Latest commit

 

History

History
53 lines (41 loc) · 2.66 KB

README.md

File metadata and controls

53 lines (41 loc) · 2.66 KB

SOCAR 보험사기 예측 프로젝트

해당 프로젝트는 패스트캠퍼스 데이터사이언티스트 15기 과정중 진행.
본 프로젝트는 머신러닝을 기반으로 카쉐어링업계에서 극심해지는 보험 사기를 예측해보기 위함에 있음.

1. 데이터 수집

데이터는 카쉐어링업체 SOCAR로부터 제공받았으며, 16000 rows X 35 columns의 데이터로 구성되어 있음.

2. 진행 과정

  • 데이터 탐색
  • 데이터 전처리
  • 모델링
  • 모델 검증
  • 결론

3. 데이터 불균형

전체 16000건의 데이터중에서 보험사기는 단 41건.
데이터 불균형을 해소하기 위해서 다양한 Oversampling 기법을 시도하여, 평가.

4. 데이터 전처리

  • 결측치 및 이상치 제거
  • 오버샘플링
  • 스케일링
  • PCA를 통한 Feature 생성
  • 원핫인코딩
  • Feature Importance 확인후 Feature Extraction 오버샘플링, Feature Importance 확인후 Feature Extraction만이 성능을 향상시킴.

5. 평가 기준

이전 기수인 14기에서 본 프로젝트로 얻었던 최적의 성능을 Baseline 으로 두었음.

  • accuracy 0.493, precision 0.003, recall 0.714

데이터 불균형으로, 모든 사고를 No Fraud 로 예측시, accuracy 0.997. accuracy는 중요한 평가 척도가 되기 어려움.
객관적인 성능 평가를 위하여 precision, recall 을 평가 기준으로 결정.

6. 구조도


7. 최종 모델

총 4가지를 모델로 다음과 같은 성과를 거두었으며, 그 중에서도 LightGBM이 가장 높은 성능을 보임.


참조

  1. Cross-Validation for Imbalanced Datasets: Avoiding Overoptimistic and Overfitting Approaches
    https://www.researchgate.net/publication/328315720_Cross-Validation_for_Imbalanced_Datasets_Avoiding_Overoptimistic_and_Overfitting_Approaches

기여자