- 댓글을 작성하면, 분류 모델이 혐오 표현인지를 먼저 판별합니다.
- 혐오 표현으로 분류될 경우, 토큰 분류 모델을 이용해 문장의 어느 부분이 혐오 표현인지를 찾아 알려줍니다.
- 생성 모델을 이용해, 문장의 순화된 내용을 생성하여 사용자에게 순화 방향을 제시해 줍니다.
- 딥러닝을 이용해 댓글의 혐오 여부를 분류하고, 혐오표현으로 판단된 경우 의미를 유지한 문장을 재생성합니다.
- 이 과정을 통해 사용자의 문제의식을 일으키고 자발적 개선을 유도합니다.
김준휘 | 류재환 | 박수현 | 박승현 | 설유민 |
---|---|---|---|---|
Classification model Classification API Data Collecting |
Generation Model Generation API Data Collecting |
Classification Model Data Guideline Data Collecting Data Checking |
Generation Model Database BackEnd FrontEnd Data Web Data Collecting |
Generation Model Data Collecting Data Checking |
- Backbone model로는 가장 높은 F1 score를 보이면서도 합리적인 추론 시간을 보인 🤗 beomi/KcElectra-base-v2022 모델을 사용했습니다.
- F1 score 90.88
- RPS : 173
- Reward + Prompt model을 최종 채택했습니다.
- 혐오 문장 분류 모델의 학습에는 한국어 뉴스기사 댓글에서 수집한 혐오표현 데이터셋인 K-MHaS를 사용했습니다.
- 혐오표현 토큰 분류 모델의 학습에는 네이버 뉴스와 유튜브 영상 댓글에서 수집한 한국어 혐오표현 데이터셋인 KOLD를 사용했습니다.