[최종프로젝트 진행 상황]
- 중간 보고서 작성[중간정리]
- 중간 보고 발표자료 제작
- 중간 보고서 [중간정리]
1. 프로젝트 개요
1.1. 프로젝트 이름 : Digital Transformation Strategy
1.2. 분석 목적 : 커머스 마켓 오프라인 고객 기반 디지털 전환 전략
1.3. 데이터 출처 : " Dunnhumby - The Complete Journey"
1.4. 분석 대상 및 범위: 2019~2021년 사이의 고객 거래 데이터를 대상으로 분석
1.5. 예상 결과물
A. 전체 EDA : "2019~21년도 마켓의 현황(및 성과) 파악 및 시각화"
B. 인사이트
- 기존 캠페인의 한계(캠페인 타겟 및 상품의 특이성 없이 그저 다수에게 다양한 상품을 엮은 쿠폰 마케팅).
- 타겟 설정(고객, 상품, 시간)을 통한 마케팅 캠페인 전략 필요성 언급
- RFM Segment를 통해 온라인 스토어 확장을 위한 타겟 고객 확보 전략 [오프라인 충성 고객의 온라인화! 온라인의 기반 고객 확보!]
C. 대시보드 구성
- overview 대시보드(마켓의 주요 kpi 및 3달 단위 KPI의 성장률 확인)
- 고객 “타겟(고객, 상품)별 마케팅 전략”, “온라인 서비스 확장 전략”)
2. 데이터 개요
2.1. 데이터 테이블 소개
A. Main data : “hh_demographic”(고객 인구 통계{추정치}), “TRANSACTION” (거래), “PRODUCT” (상품)
B. Meta data : “CAMPAIGN_TABLE”(캠페인), “CAMPAIGN_DESC” (캠페인 실시 기간), “COUPON” (쿠폰 발행 정보), “COUPON_REDEMPT” (교환된 쿠폰 정보)
# 컬럼 설명은 이전 TIL에 정리 "https://jjaio8986.tistory.com/82"참고
2.2. 최종 병합 및 전처리
- 이에 따라 데이터를 병합
전체 데이터 병합 | • 결합 데이터 프레임 : “df” • 결합한 테이블 : “CAUSAL”테이블을 제외한 7개의 테이블 • “df” 설명 : 전체 가계의 ‘거래 내역’, 일부 가계의 ‘인적 정보’, 마케팅이 시행된 가계의 ‘쿠폰 사용 내역’ 및 ‘상품’ 정보 확인 가능 |
전체 데이터 전처리 |
1. 결측치 • 컬럼 의미상 분류가 되지 않는 (Unknown)은 분석에서 제외 • [고객 분석] : 인구통계 테이블의 결측치 컬럼은 제거 • [캠페인 분석] : 결측치가 있는 컬럼 사용하지 않아 제거할 필요 없음. 2. 이상치 • 개수(quantity) : 1회 구매에 1 미만인 ‘거래’ 내역은 제거 |
3. 탐색적 데이터 분석(EDA)
3.1. 고객 정보 분석 현황
A. 분석 방향
- 전체 고객 중 “인적 정보가 등록된 고객”은 30%이지만, 매출 및 주문량은 약 55%, 58%를 차지
- 따라서 이들에 대한 특성(’수입’,’연령대’,’가족 인원수’)파악에 집중 [차후 인적 정보가 없는 고객의 주요 상품 분석 필요]
B. 인적 정보가 등록된 고객에 대한 EDA 결과
- 분석 결과 : “인적 정보가 등록된 고객”의 ‘수입’, ‘연령대’, ‘가족 인원 수’ 별 특징을 확인 [고객 수 및 매출 측면]
<결론>
- ‘수입’은 50~74K 이용자 큰 비중을 차지, ‘35~49’,’50~74’,’75~99’K의 고객군에 집중 타겟팅
- ‘연령대’는 ‘45~54’세 이용자가 큰 비중을 차지, ‘25~54’세 고객군에 집중 타겟팅
- ‘가족 인원 수”는 2인, 1인, 3인의 비중이 크다. 고객 페르소나를 딩크족 및 1인, 2인 가구로 설정 집중 타겟팅
- 집중 타겟팅 이유 : 캠페인 효율(가장 많은 고객수, 매출) 및 차후 분석을 심화하기 위한 목적
C. 주요 상품 분석
- 분석 결과 : 가장 많이 팔린 상품[중분류]
<결론>
- (매출, 주문량)주문량 측면에서 가장 많이 팔린 상품은 ‘식료품’, 그 외의 분류는 주문량이 유사
- 매출 측면에서 가장 많이 팔린 상품은 ‘(산업용)유류품’, ‘식료품’이다. [’(산업용)유류품’에 대한 추가 조사 필요](평균 거래 건수)
3.2. 캠페인 분석 현황
A. 분석 방향
- 캠페인의 타입 및 번호가 다양하기에 그 특성을 명확히 밝히지 못한다. (분석자의 사고 부하 유발! 따라서, 분석하기 쉬운 단위부터 분석 시도 후 심화 분석)
- 캠페인의 종류 중 하나인 쿠폰의 사용 유무는 명확하며 별도의 Meta 데이터 테이블이 존재함을 확인 따라서 “캠페인>쿠폰”에 대한 분석을 시도
B. 캠페인 별 쿠폰 사용자 정보
- 분석 결과 : 캠페인 중 가장 많이 시행되고 그 반응도가 가장 높은 번호는 8번, 13번, 18번
C. 캠페인 특성 확인.
- 분석 설명 1 : 인적 정보 등록 테이블과 결합 후 결과 특성 및 상관관계 확인
- 분석 설명 2 : 마케팅 수신 동의 가구 중 절반이 인적 정보가 등록된 가구(1,584/781)
<분석 결과>
- 특성 확인 결과 : 인적 정보 등록 고객의 컬럼 고객 수 비중과 매우 유사
- 요약 : 캠페인은 특정 고객(인적 정보 제공 고객)을 타겟팅하여 시행된 것이 아닌, 마케팅 수신 동의한 고객을 대상으로 시행됨. (즉, 인적 정보 등록 대상은 캠페인 활용 목적으로 수집된 것은 아니지만, 인적 정보가 등록된 대상은 캠페인이 뿌려짐을 확인)
- 인사이트 : 오프라인 마켓의 한계점(인적 정보 수집 및 마케팅 전략 선택폭이 적음)을 고려한 주고객 타겟팅 마케팅 or 충성 고객 확인(RFM Segment)을 통한 온라인 서비스 런칭 및 전환이 필요하다
D. 캠페인 시계열 분석(성과 확인)
- 설명 : 첫 캠페인의 시행 전과 후의 거래 건수가 전체적으로 유의미하게 증가했다고 보기 어렵다.
다만 중분류 상품 별 구매량 변화 확인시 ‘DRUG GM’류 상품의 거래량 증가를 확인[추가 분석 필요]
4. 현재까지의 진행 상황
4.1. 진행한 작업
- 각 테이블 정합성 검증 및 EDA 완료
- 데이터 테이블 병합 완료
- [고객 분석] : “인적 정보 등록”고객에 대한 분석 완료
- [상품 분석] : “상품 중분류” 기준 “주요 상품” (주문량==선호도) 분석 완료
- RFM 분석 및 qcut을 통한 Score(5점)별 기술 통계 및 분산 확인
4.2. 해결된 문제
- 데이터 전처리 및 EDA
- RFM 지표설정 및 기본 분석
5. 다음 단계 계획
5.1. 추가로 분석할 내용
- [고객 분석] “인적 정보 미등록” 고객에 대한 구매 특징([상품 분석]) 확인 필요
- [상품 분석] “인적 정보 등록” > “상품 중분류” > “주요 상품” (매출) 측면에서 성과가 좋은 “(산업용)유류품”에 대한 추가 분석 여부 결정이 필요 (가설 : 거래 빈도를 확인하여 거래 빈도가 낮다면 == “적지만 수요가 존재함” 따라서 별도의 마케팅 서비스 고려 수준으로 분석 마무리 (ex. 대량 주문 시 배송 할인[상품 자체의 단가가 높기에 상품 할인은 안되며 그 외의 비용적 측면을 고려] )
- [고객 Segment 1] RFM Segment 시작(1차 RF Segment{방문 특성}, 2차 M Segment{구매 가치 특성})
- [고객 Segment 2] RFM Segment 별 특징 확인. (”Recency, Frequency, Monetary”의 기술 통계값 및 분산 확인(고객의 양적 측면), “ARPU, BS”와 같은 고객의 질적 측면 확인)
- [고객 Segment 3] VIP고객을 약 10% 비중으로 설정, 그 고객 특성을 북극성지표(온라인 서비스 런칭 시 이들의 ARPU, BS, 평균방문빈도, 총매출, 총거래건수, 최근 방문 평균을 KPI)로 삼아 SEGMENT별 상위 SEGMENT로 이동시켜야 할 전환율 수치를 설정 후 마케팅 전략 수립
5.2. 예상 일정
- [상품 분석] 6월 19일 (목) 완료 예정
- [고객 분석] 및 [고객 Segment1] 6월 20일 (금) 완료 예정
- [고객 Segment 2, 3] 6월 25일 (수) 완료 예정
- 대시보드 제작
- 최종 발표 자료 완성
- 최종 보고서 작성