본 프로젝트는 Finda 앱 데이터를 활용하여 LLM(Large Language Model) 기반 사용자 데이터 분석 및 자동화 보고서를 생성하는 과정을 다룹니다. 다양한 사용자 대출 예측 모델을 만들고, 사용자 특성에 따른 군집화를 수행한 뒤, 이를 LLM을 이용해 자동화하는 방법에 대해 정리하였습니다.

- 개요
1.1. 배경
1.2. 목적 및 필요성
1.3. 분석 수행 범위 - 문제 수행 내용
2.1. 분석(수행) 절차
2.2. 분석(수행) 내용 및 결과 - 주요 결과 및 시사점
3.1. 주요 결과 요약
3.2. 결과 활용 및 시사점
-
고객 맞춤형 서비스의 필요성
- 디지털 시대에 고객들은 개인화된 서비스 제공을 요구합니다.
- 개인별 맞춤 대출 상품 추천을 통해 고객 만족도, 재방문률, 전환율을 높일 수 있습니다.
-
데이터 분석 및 활용의 중요성
- Finda는 사용자 데이터를 통해 대출 여부 예측, 군집화 등을 수행하고자 합니다.
- 이를 통해 사업 전략 수립, 서비스 개선 등 필요한 인사이트를 얻을 수 있습니다.
-
AI 및 자동화 기술의 발전
- LLM(Large Language Model) 발전으로 복잡한 패턴 분석 및 자연어 처리 등이 가능해졌습니다.
- 대량 데이터를 자동으로 처리하고 예측, 분석하는 데 큰 도움이 됩니다.
-
경쟁력 확보와 시장 선점
- 경쟁력 있는 시장에서 차별화된 서비스 제공은 필수입니다.
- LLM을 통해 사용자 데이터 분석과 상품 추천을 자동화하여 경쟁우위를 확보할 수 있습니다.
-
작업 효율성 향상
- 대량 데이터를 수작업으로 처리하는 데서 발생하는 시간·비용·오류를 줄이고자 합니다.
- LLM을 통한 자동화로 효율성을 극대화할 수 있습니다.
목적
- “LLM 기반 핀다 앱 사용자 해설서 자동화 생성”
- 사용자 개인정보와 앱 사용 기록을 활용하여 대출 가능성을 예측하고, 유사 특성 군집을 분류한 뒤 맞춤형 상품 추천 해설서를 자동 생성하는 것에 중점을 두었습니다.
필요성
-
효율성 및 정확성 향상
- 대량 데이터를 빠르고 정확히 분석해 고객에게 실시간 맞춤형 서비스를 제공
- 복잡한 패턴 분석·예측 능력으로 리스크 관리 및 의사결정에 정확한 인사이트 제공
-
작업 자동화와 비용 절감
- 반복 작업에서 인적 개입과 오류 최소화
- 자동화를 통한 인건비·시간 비용 절감 및 비즈니스 효율성 증대
-
개인화된 서비스 제공
- 고객의 상황에 따라 가장 적합한 상품을 추천
- 군집화된 고객별 맞춤 마케팅 전략 수립
-
맞춤형 커뮤니케이션 및 고객 관리 강화
- LLM의 뛰어난 언어 이해 능력으로 고객 특성에 맞는 커뮤니케이션 메시지 제공
- 고객 만족도와 충성도 향상
-
지속 가능한 경쟁력 확보
- AI 기반 대출 상품 추천, 사용자 군집화, 리스크 관리 등에서 경쟁사 대비 우위 점유
-
데이터 분석
user_spec.csv
,loan_result.csv
,log_data.csv
데이터를 이용하여 사용자 대출 여부 예측 및 군집화를 진행- LLM에 적용하기 전에 데이터의 전체 흐름 파악 및 분석(EDA) 진행
-
랭체인을 활용한 데이터 분석 자동화
- 랭체인(LangChain)을 이용하여 프로세스를 단계별로 나누고, 각 단계별로 에이전트를 구성
- 백엔드는 랭체인과 OpenAI (혹은 다른 LLM API), 프론트엔드는 Streamlit을 사용해 자동화된 보고서 프로그램을 구현
-
모델 선정
- GPT-3.5, GPT-4 등 다양한 모델을 테스트
- GPT-3.5-turbo-16k와 GPT-4를 주력으로 채택
- 로컬 모델(예: Llama) 대비 높은 추론력 및 Context 길이(토큰 제한) 측면에서 우수
-
프롬프트 전략
- Chain of Thoughts, Few-shot 기법 등을 적용
- 데이터를 세분화하여 여러 에이전트가 분산 처리를 하도록 구성
- RAG(증강)를 통해 주요 정보(회사 소개, 데이터 스키마 등)를 프롬프트에 반영
-
데이터 분석
- 데이터 수집 및 전처리
- 중복·불필요 열 제거, 결측치 처리, 파생변수 생성 등
- 사용자 대출 예측 모델링
- LLM 활용 또는 전통 ML 모델(LGBM, XGBoost 등)을 활용해 대출 여부 예측
- 사용자 군집화
- 핵심 변수 기준 K-Means 적용, 엘보우 기법으로 최적 클러스터 수 결정
- 데이터 수집 및 전처리
-
랭체인 활용 분석 자동화
- 백엔드(LLM, 랭체인)와 프론트엔드(Streamlit) 연동
- 여러 Agent가 데이터 분석 과정을 분담하여 진행
- 환각(hallucination) 최소화 전략: RAG, ReAct(Reason + Act), 세션 데이터 증강 등
-
데이터 분석 흐름
user_spec.csv
+loan_result.csv
를application_id
기준으로 Inner Join- 필요 없는 열(성별, 개인회생자 여부 등) 제거, 목적 컬럼(한글·영어 혼합) 정리
- 결측치 처리: 범주형 → 최빈값, 연속형 → 평균
- 파생변수:
- 연령대(
age_group
) - 근무기간(입사연월 기반 계산)
- 승인 금리/한도 등급화 등
- 연령대(
log_data.csv
불필요 열 및 중복 정보 제거- 이벤트(event) 분류 후, 대출 관심도 판단 등을 위한 파생변수(
login_cnt
,loan_cnt
) 생성
- 이벤트(event) 분류 후, 대출 관심도 판단 등을 위한 파생변수(
- 최종 병합 후 스케일링(RobustScaler), 인코딩(LabelEncoder 등)
- LightGBM 모델로 95% 이상의 예측정확도 확인
- K-Means로 군집화, 엘보우 기법으로 최적 k값 도출
-
주요 자동화 로직
- LLM이 각 단계를 프롬프트를 통해 이해하고 실행 → 결과를 다시 프롬프트에 반영
- 에이전트별 책임 분산:
- 예) 파생변수 생성 에이전트, 모델 학습 에이전트, 군집화 에이전트 등
- 중간 결과를 세션에 저장·사용자가 확인(오류 있으면 해당 단계 재실행)
- LLM 자동화 프로세스를 통해 데이터 전처리, 예측 모델 학습, 군집화를 단계별로 분할하고 자동화
- **95%**에 달하는 높은 예측 정확도
- 군집화를 통한 고객 세분화로 맞춤형 대출 상품 추천 기반 마련
-
결과 활용
- LLM 자동화 프로세스를 이용, 개인화된 대출 상품 추천
- 사용자의 군집별 특성에 맞는 마케팅 전략 수립
- Finda 앱 내 맞춤형 해설서 제공을 통한 고객 경험 극대화
-
시사점
- 모델 의사결정 과정을 투명성 있게 관리하고, 공정성을 유지하는 것이 중요
- 금융 시장 변화에 대응하기 위해 지속적 업데이트가 필요
- 환각(hallucination) 문제 대응을 위한 RAG, ReAct 등 장치 마련