2023 빅콘테스트: 생성형 AI 분야 결과 보고서

본 프로젝트는 Finda 앱 데이터를 활용하여 LLM(Large Language Model) 기반 사용자 데이터 분석 및 자동화 보고서를 생성하는 과정을 다룹니다. 다양한 사용자 대출 예측 모델을 만들고, 사용자 특성에 따른 군집화를 수행한 뒤, 이를 LLM을 이용해 자동화하는 방법에 대해 정리하였습니다.

개요

배경

고객 맞춤형 서비스의 필요성
- 디지털 시대에 고객들은 개인화된 서비스 제공을 요구합니다.
- 개인별 맞춤 대출 상품 추천을 통해 고객 만족도, 재방문률, 전환율을 높일 수 있습니다.
데이터 분석 및 활용의 중요성
- Finda는 사용자 데이터를 통해 대출 여부 예측, 군집화 등을 수행하고자 합니다.
- 이를 통해 사업 전략 수립, 서비스 개선 등 필요한 인사이트를 얻을 수 있습니다.
AI 및 자동화 기술의 발전
- LLM(Large Language Model) 발전으로 복잡한 패턴 분석 및 자연어 처리 등이 가능해졌습니다.
- 대량 데이터를 자동으로 처리하고 예측, 분석하는 데 큰 도움이 됩니다.
경쟁력 확보와 시장 선점
- 경쟁력 있는 시장에서 차별화된 서비스 제공은 필수입니다.
- LLM을 통해 사용자 데이터 분석과 상품 추천을 자동화하여 경쟁우위를 확보할 수 있습니다.
작업 효율성 향상
- 대량 데이터를 수작업으로 처리하는 데서 발생하는 시간·비용·오류를 줄이고자 합니다.
- LLM을 통한 자동화로 효율성을 극대화할 수 있습니다.

목적 및 필요성

목적

“LLM 기반 핀다 앱 사용자 해설서 자동화 생성”
사용자 개인정보와 앱 사용 기록을 활용하여 대출 가능성을 예측하고, 유사 특성 군집을 분류한 뒤 맞춤형 상품 추천 해설서를 자동 생성하는 것에 중점을 두었습니다.

필요성

효율성 및 정확성 향상
- 대량 데이터를 빠르고 정확히 분석해 고객에게 실시간 맞춤형 서비스를 제공
- 복잡한 패턴 분석·예측 능력으로 리스크 관리 및 의사결정에 정확한 인사이트 제공
작업 자동화와 비용 절감
- 반복 작업에서 인적 개입과 오류 최소화
- 자동화를 통한 인건비·시간 비용 절감 및 비즈니스 효율성 증대
개인화된 서비스 제공
- 고객의 상황에 따라 가장 적합한 상품을 추천
- 군집화된 고객별 맞춤 마케팅 전략 수립
맞춤형 커뮤니케이션 및 고객 관리 강화
- LLM의 뛰어난 언어 이해 능력으로 고객 특성에 맞는 커뮤니케이션 메시지 제공
- 고객 만족도와 충성도 향상
지속 가능한 경쟁력 확보
- AI 기반 대출 상품 추천, 사용자 군집화, 리스크 관리 등에서 경쟁사 대비 우위 점유

분석 수행 범위

데이터 분석
- user_spec.csv, loan_result.csv, log_data.csv 데이터를 이용하여 사용자 대출 여부 예측 및 군집화를 진행
- LLM에 적용하기 전에 데이터의 전체 흐름 파악 및 분석(EDA) 진행
랭체인을 활용한 데이터 분석 자동화
- 랭체인(LangChain)을 이용하여 프로세스를 단계별로 나누고, 각 단계별로 에이전트를 구성
- 백엔드는 랭체인과 OpenAI (혹은 다른 LLM API), 프론트엔드는 Streamlit을 사용해 자동화된 보고서 프로그램을 구현
모델 선정
- GPT-3.5, GPT-4 등 다양한 모델을 테스트
- GPT-3.5-turbo-16k와 GPT-4를 주력으로 채택
- 로컬 모델(예: Llama) 대비 높은 추론력 및 Context 길이(토큰 제한) 측면에서 우수
프롬프트 전략
- Chain of Thoughts, Few-shot 기법 등을 적용
- 데이터를 세분화하여 여러 에이전트가 분산 처리를 하도록 구성
- RAG(증강)를 통해 주요 정보(회사 소개, 데이터 스키마 등)를 프롬프트에 반영

문제 수행 내용

분석(수행) 절차

데이터 분석
1. 데이터 수집 및 전처리
  - 중복·불필요 열 제거, 결측치 처리, 파생변수 생성 등
1. 사용자 대출 예측 모델링
  - LLM 활용 또는 전통 ML 모델(LGBM, XGBoost 등)을 활용해 대출 여부 예측
2. 사용자 군집화
  - 핵심 변수 기준 K-Means 적용, 엘보우 기법으로 최적 클러스터 수 결정
랭체인 활용 분석 자동화
- 백엔드(LLM, 랭체인)와 프론트엔드(Streamlit) 연동
- 여러 Agent가 데이터 분석 과정을 분담하여 진행
- 환각(hallucination) 최소화 전략: RAG, ReAct(Reason + Act), 세션 데이터 증강 등

분석(수행) 내용 및 결과

데이터 분석 흐름
- user_spec.csv + loan_result.csv를 application_id 기준으로 Inner Join
- 필요 없는 열(성별, 개인회생자 여부 등) 제거, 목적 컬럼(한글·영어 혼합) 정리
- 결측치 처리: 범주형 → 최빈값, 연속형 → 평균
- 파생변수:
  - 연령대(age_group)
  - 근무기간(입사연월 기반 계산)
  - 승인 금리/한도 등급화 등
- log_data.csv 불필요 열 및 중복 정보 제거
  - 이벤트(event) 분류 후, 대출 관심도 판단 등을 위한 파생변수(login_cnt, loan_cnt) 생성
- 최종 병합 후 스케일링(RobustScaler), 인코딩(LabelEncoder 등)
- LightGBM 모델로 95% 이상의 예측정확도 확인
- K-Means로 군집화, 엘보우 기법으로 최적 k값 도출
주요 자동화 로직
- LLM이 각 단계를 프롬프트를 통해 이해하고 실행 → 결과를 다시 프롬프트에 반영
- 에이전트별 책임 분산:
  - 예) 파생변수 생성 에이전트, 모델 학습 에이전트, 군집화 에이전트 등
- 중간 결과를 세션에 저장·사용자가 확인(오류 있으면 해당 단계 재실행)

주요 결과 및 시사점

주요 결과 요약

LLM 자동화 프로세스를 통해 데이터 전처리, 예측 모델 학습, 군집화를 단계별로 분할하고 자동화
**95%**에 달하는 높은 예측 정확도
군집화를 통한 고객 세분화로 맞춤형 대출 상품 추천 기반 마련

결과 활용 및 시사점

결과 활용
- LLM 자동화 프로세스를 이용, 개인화된 대출 상품 추천
- 사용자의 군집별 특성에 맞는 마케팅 전략 수립
- Finda 앱 내 맞춤형 해설서 제공을 통한 고객 경험 극대화
시사점
- 모델 의사결정 과정을 투명성 있게 관리하고, 공정성을 유지하는 것이 중요
- 금융 시장 변화에 대응하기 위해 지속적 업데이트가 필요
- 환각(hallucination) 문제 대응을 위한 RAG, ReAct 등 장치 마련

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
agent		agent
const		const
prompt		prompt
tabs		tabs
ui		ui
.gitignore		.gitignore
Pipfile		Pipfile
Pipfile.lock		Pipfile.lock
README.md		README.md
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2023 빅콘테스트: 생성형 AI 분야 결과 보고서

목차

개요

배경

목적 및 필요성

분석 수행 범위

문제 수행 내용

분석(수행) 절차

분석(수행) 내용 및 결과

주요 결과 및 시사점

주요 결과 요약

결과 활용 및 시사점

참고 자료

About

Releases

Packages

Languages

urinaner/2023-bigcontest

Folders and files

Latest commit

History

Repository files navigation

2023 빅콘테스트: 생성형 AI 분야 결과 보고서

목차

개요

배경

목적 및 필요성

분석 수행 범위

문제 수행 내용

분석(수행) 절차

분석(수행) 내용 및 결과

주요 결과 및 시사점

주요 결과 요약

결과 활용 및 시사점

참고 자료

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages