일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 딥러닝
- 모델링
- 프롬프트 잘 쓰는법
- GPT3
- SOTA
- TabNet
- 인공지능
- 비전러닝
- mergekit
- 컴퓨터 비전
- LLM 성능 개선
- ChatGPT 잘 쓰는 법
- chatgpt 꿀팁
- 프롬프트 페르소나
- 프롬프트 잘 쓰는 법
- 머신러닝
- 악성댓글
- IT
- 프롬프트 엔지니어링
- 경진대회
- 강화학습
- 빅데이터
- LLM
- AI
- 거대언어모델
- ChatGPT
- GaN
- 프롬프트
- Transformer
- GPT
- Today
- Total
빅웨이브에이아이 기술블로그
고객 이탈 방지 시스템 (2020 AI Championship 2등) 본문
안녕하세요! 빅웨이브에이아이 선임 연구원 이현상입니다.
지난 포스트에서는 차별 및 혐오 표현 탐지 솔루션에 대해서 소개드렸습니다.
이번에는 새로운 주제로 고객 등급을 과학적인 방법으로 분할하고 딥러닝 기술을 활용하여 고객 이탈을 방지할 수 있는 시스템에 대해서 소개드리겠습니다.
본 주제는 2020 AI Championship 위메프 부문 "고객 세부 등급화와 등급 변화 감지를 통한 맞춤 홍보 서비스 제공 AI"에서 2위를 수상했다는 점 미리 말씀드립니다.
2020 AI Championship
2020 AI Championship은 위메프, 네이버, 한국타이어 등 8개의 대기업이 다양한 인공지능 관련 주제를 가지고 경연하는 대회였습니다.
여타의 AI 경진대회와 다르게, 2020 AI Championship은 단순히 모델의 성능뿐만 아니라 과정의 창의성, 자체 검증을 포함하는 능동적인 진행 방식을 강조했습니다.
일반적인 경진대회의 경우 다양한 주제에 따라서 같은 데이터셋으로 모델을 검증하여 성능을 가지고 순위를 매기는 방식으로 진행됩니다.
2020 AI Championship은 원본 데이터를 그대로 참가 팀들에게 제공하고, 데이터 전처리부터 모델 검증까지 각자의 고유한 방식으로 풀어나가는 방식으로 진행되었습니다.
그 과정에서 창의성이 큰 요소로 작용될 수 밖에 없었고, 대면 평가 및 Q&A가 중요했던 대회였습니다.
실제로 최종 결선은 유투브 생중계(2:41:13)로 일반인들도 시청할 수 있도록 진행되었을 만큼 인공지능 기술을 통한 문제 해결의 창의성, 당위성, 기술력 등이 종합적으로 평가받는 대회입니다.
빅웨이브 팀은 2020 AI Championship에 참가하여 위메프 부문에서 아쉽게 2등을 수상했지만 창의성과 기술력을 검증 받을 수 있었던 좋은 기회였습니다.
문제 인식
고객 이탈 문제는 위메프사 뿐만 아니라 E-Commerce 시장의 근본적인 문제입니다.
E-Commerce 시장의 특성상 전환 비용이 높고 대체재가 많기 때문에 고객 이탈률이 높은 경우가 많습니다.
위메프사에서도 이와 같은 문제를 해결하고자 본 경진대회에 참가한 것입니다.
위메프는 다른 온라인 쇼핑몰 서비스와 다르게 차별화된 특가 정책으로 E-Commerce 시장의 입지를 견고하게 다졌습니다.
하지만 말씀드린 것과 같이 고객 이탈 문제로 한 달간 고객 이탈 수가 약 120만 명, 이탈률은 23%로 나타나 큰 손실이 발생하고 있는 상황입니다.
위메프에서도 이를 인지하고 고객에게 차별적 혜택 및 맞춤형 홍보 서비스를 개발하는 방향으로 과제를 제안했습니다.
Main Idea
빅웨이브 팀은 고객 이탈 문제를 해결하고자 3가지 주요 포인트를 가지고 문제 해결을 위해 접근했습니다.
1. 강화학습 알고리즘을 활용한 고객활동지수 식 산출
2. GRU 기반 고객 이탈 예측
3. Attention Mechanism을 활용한 이탈 원인 추론
하나씩 설명드리겠습니다.
강화학습 알고리즘 기반 고객활동지수 식 산출
어떻게 과학적인 방법으로 고객 등급을 세분화할 수 있을까?
빅웨이브 팀은 고민 끝에 데이터를 정규 분포에 근사하도록 등급 분류를 하는 방향으로 컨셉을 잡았습니다.
낮은 등급의 고객이 너무 많다면 등급에 따른 차별적인 혜택의 전체 효용이 줄어들 것입니다.
반대로 높은 등급의 고객이 너무 많다면 혜택에 추가적인 비용이 발생하며 충성 고객들에게 충분한 혜택을 제공하기 어려울 것입니다.
이러한 점에서 고객 데이터를 정규 분포에 근사하도록 등급 분류를 할 수 있다면 혜택을 제공하는 측면에서 이상적일 수 있습니다.
또한 고객들도 등급별 차별적 혜택을 쉽게 이해할 수 있도록 비교적 쉬운 변수로 등급 기준을 설립하고자 했습니다.
따라서 강화학습의 보상(reward)을 데이터 분포의 왜도와 첨도의 최소화로 설정하여 정규 분포에 근사할 수 있는 모델을 학습했습니다.
강화학습이란 어떤 환경(environment) 안에서 행동 주체인 에이전트(agent)가 현재 상태(state)를 가지고 보상(reward)를 최대화 할 수 있는 행동(action) 혹은 행동 순서를 최적화하는 기법입니다.
지난 2016년 3월, 바둑 인공지능 알고리즘인 알파고 또한 이 강화학습 알고리즘을 고도화하여 훌륭한 성능을 보였었죠.
강화학습 알고리즘을 통해 데이터 분포의 왜도와 첨도를 최소화할 수 있는 고객활동지수 식을 산출하여 이를 기반으로 고객 등급을 분류했습니다.
강화학습 기법을 적용한 결과 목표한대로 고객 데이터의 정규 분포가 잘 반영되는 모습을 확인할 수 있었습니다.
밑의 그림은 다른 고객 데이터셋에 강화학습 기법을 적용하여 산출된 고객 등급별 데이터 분포입니다.
GRU 기반 고객 이탈 예측
고객 데이터는 시간적인 속성을 가지고 있습니다.
고객 거래에 대한 기록이 일별, 주별, 월별 등으로 정리될 수 있기 때문에 이를 시퀀스 데이터로써 학습할 수 있습니다.
따라서 빅웨이브 팀은 고객 데이터를 시퀀스 데이터 형식으로 처리하여 RNN 기반 GRU(Gated Recurrent Unit) 기법을 활용했습니다.
GRU 기법을 통해 고객활동지수가 떨어지는 고객들을 이탈 고객으로 정의하고 이를 예측했습니다.
빅웨이브 팀은 고객의 등급 변화도 중요하지만 고객의 이탈 여부를 예측하는 것이 문제의 핵심이라 생각했습니다.
RNN은 시퀀스 정보를 가지고 있는 데이터를 효과적으로 학습할 수 있습니다.
하지만 데이터가 장기간 시퀀스를 가지고 있는 경우 기본 RNN 구조로는 gradient descent 문제 때문에 학습이 제대로 되지 않습니다.
이에 따라 LSTM은 gating unit 기능을 활용하여 장기간 시퀀스 중 필요없는 정보는 forget gate를 통해 망각하는 방식으로 문제를 해결했습니다.
하지만 LSTM은 한 time step당 연산량이 크게 증가되어 규모가 큰 데이터에는 적용하기 어렵습니다.
GRU는 LSTM의 간소화 버전으로 적은 연산량으로도 LSTM과 비슷한 성능을 낼 수 있습니다.
Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.
Attention Mechanism을 통한 고객 이탈 원인 추론
고객 이탈을 미리 탐지하여 사전적 홍보 서비스를 제공하는 것도 효과적이지만 빅웨이브 팀은 이에 그치지 않고 XAI(eXplainable Artificial Intelligence) 기술을 활용하여 이탈의 원인을 추론하고자 했습니다.
XAI란 설명가능한 인공지능 기술로 최근 예측 모델의 결과 뿐만 아니라 추론의 원인도 추출하고자 다양한 방식으로 연구되고 있는 핫한 분야입니다.
고객 이탈의 원인을 추론할 수 있다면 개인 맞춤형 홍보 서비스를 제공하는 것이 가능합니다.
고객 이탈의 원인이 될 수 있는 제품군을 XAI 기술로 추론하여 고객 개인 맞춤형 서비스를 제공할 수 있습니다.
지난 포스트에서 attention mechanism에 대해서 설명드렸습니다.
attention mechanism은 입력 벡터의 중요도를 평가할 수 있기 때문에 딥러닝 모델이 예측 시 어떤 변수가 중요한 지 파악할 수 있습니다.
따라서 최근 연구 동향에서는 attention mechanism을 XAI 기술로 활용하고 있는 상황입니다.
빅웨이브 팀은 제품군에 대한 구매 기록을 벡터 형태로 임베딩하여 어떤 제품이 고객 이탈 예측에 영향을 주었는지 분석했습니다.
임베딩된 제품군 정보는 결과적으로 attention score로 산출되며 이를 바탕으로 고객 이탈의 원인을 추론할 수 있습니다.
모델링
데이터셋의 경우 타사의 데이터를 함부로 공개할 수 없는 점 양해 부탁드립니다.
딥러닝 모델링은 시간적인 순서에 따라 설명드리겠습니다.
1. 고객 데이터를 시퀀스 데이터 형식에 맞게 전처리
2. 강화학습 알고리즘을 적용하여 고객활동지수 식 도출
3. 고객활동지수 식을 기반으로 등급 세분화 기준 설립
4. 고객활동지수가 떨어지는 고객을 이탈 고객으로 정의 후 레이블링
5. 고객이 구매하지 않은 제품을 대상으로 제품군 벡터 임베딩
6. 다른 변수들도 같이 Concatenate Layer에 입력
7. GRU, Attention, Highway Layer(설명 링크)를 통해 모델 학습
8. Softmax로 고객 이탈 여부 예측
9. Attention Score를 산출하여 고객 이탈 원인 추론
여기서 XAI적 해석의 직관적인 접근은 고객 이탈 예측 시 임베딩된 "구매하지 않은 제품군"을 고객 이탈의 원인으로 가정하고 이에 대한 혜택을 제공하자는 것입니다.
분석 결과
다양한 전처리 및 모델링 실험 과정을 통해 GRU-Attention 모델로 F1-Score 83%의 성능을 달성했습니다.
실제 이탈 고객 약 71,130명 중 69,389명(97.5%)을 탐지함으로써 정밀도가 매우 높은 것으로 나타납니다.
오분류가 약간 있을 수 있지만 본 딥러닝 모델로 고객 이탈을 효과적으로 탐지할 수 있다는 것입니다.
제품군에 대한 Attention을 Pos(샀던 제품)와 Neg(사지 않은 제품)로 적용한 결과 모델의 성능이 크게 향상되었습니다.
마무리
오늘은 빅웨이브 팀의 고객 이탈 방지 시스템에 대해 안내드렸습니다.
강화학습 알고리즘과 attention mechanism을 적용하여 고객 이탈에 대한 새로운 접근법을 제시했습니다.
추후 본 시스템의 활용 시 실제적인 마케팅 효과를 검증하는 것과 모델링을 고도화하는 방향으로 향후 계획을 잡고 있습니다.
위메프와 같은 E-Commerce 시장 뿐만 아니라 구독형 서비스, 카드, 증권, 은행 등과 같이 고객 유지가 중요한 모든 산업에 본 시스템을 적용할 수 있습니다.
또한 고객 이탈 원인 추론을 통해서 개인 맞춤형 홍보 서비스가 가능하므로 향후 '마케팅 챗봇'의 형태로 서비스도 가능할 것입니다.
빅웨이브의 고객 이탈 방지 시스템이 고객 이탈로 고민하고 있는 기업들에게 도움을 줄 수 있기를 바랍니다.
오늘도 읽어주셔서 감사합니다!
'기술 블로그' 카테고리의 다른 글
SOTA 알고리즘 리뷰 3 - TabNet (2) | 2021.06.25 |
---|---|
SOTA 알고리즘 리뷰 2 - Anomaly detection(PANDA, DEVNET, GAN,OCNN) (0) | 2021.06.18 |
SOTA 알고리즘 리뷰 1 - Temporal Fusion Transformer (0) | 2021.03.27 |
Know Comment API - 차별 및 혐오 표현 탐지 솔루션 (2) | 2021.03.19 |
딥러닝 기술을 활용한 악성 댓글 분류 (2020 인공지능 온라인 경진대회 1등) (0) | 2021.03.09 |