데이터 분석 트랙 7일차(25.02.25.) TIL
[목차]
1. 팀 아티클 스터디
2. 팀 발제 과제 정리(1)
1. 팀 아티클 스터디
"사용자 데이터를 효과적으로 분석하는 법" https://yozm.wishket.com/magazine/detail/1967/
사용자 데이터를 효과적으로 분석하는 법 | 요즘IT
사용성 평가나 설문 조사 그리고 인터뷰와 같은 사용자 조사는 고객 관점에서의 사업 기회 발굴과 디자인 개선에 대한 인사이트를 제공해 줍니다. 그렇지만 단순히 사용자 조사로 수집된 데이
yozm.wishket.com
1.1.아티클 요약 및 주요 내용
- 요약 : 정량적 경험 데이터의 특성별 통계 기술 활용과 분석, 효과적인 시각화방법들에 대하여
- 주요 내용 : 데이터 분류, 데이터 형태에 따른 기술 통계와 추론통계방법, 각각의 성질과 시각화 방법
1.2. 핵심 개념 및 용어 정리
- 핵심 개념 : 통계 분석(기술, 추론), 시각화, 고객 인사이트 발굴
- 용어 : 세그먼트(특정 기준에 따라 분류한 단위 집단), t-test(모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법)
1.3. 인사이트
- 공통 : 정량적 데이터를 통계적 방식을 활용 체계적 분석하고, 데이터 특징에 따른 효과적 시각화 및 직관적 정보 전달의 전체적 흐름을 알 수 있었다. 또한 데이터의 형태별로 더 효과적으로 시각화 할 수 있는 형태가 있고 이 부분에 유의하여 시각화 한다면 내용을 더 쉽게 전달할 수 있다.
- 의미 있었던 의견 : "데이터의 형태별로, 설명하기 더 유리한 형태를 알 수 있어서 유의미했다.", " 시각화를 할 때 의도하지 않은 부분에 있어서 정보를 왜곡시키지 않도록 주의해야 한다.", " 데이터 분석을 할 때 검증 과정을 여러 번 거쳐야 한다는 마인드 셋을 지니는 것이 중요할 듯 하다."
- 개인 인사이트 : 전체적으로 정성적 데이터와 통계적 방법의 적용에 대해 이해할 수 있었다. 다만, 정성적 데이터에 대한 통계적 해석을 어떻게 할 까에 대한 의문이 들었다.
통계의 오류로 인한 문제! 특히 경향성의 경우 사람의 인지적 행동에 있어 그 오류의 문제는 낮으나(인과관계가 다소 명확함) 비 인지적 행동에 있어 드러나는 경향성 인과 혹은 관련성이 낮을 수 있다. 가령, 서블리미널 효과(우리의 머릿속 판단 전에 들어온 소리에 영향을 받아 머리에 각인, 또는 행동으로 이어지는 것)로 인해 우리의 행동의 인과관계가 명확하지 못한 경우가 있다. 이를 해결할 다른 (통계)방법이 있는지 궁금하다.
2. 팀 발제 과제 정리(1)
2.1. 분석 방향
- "[이커머스] 이커머스 이벤트 히스토리"에 등장하는 데이터는 중형 화장품 온라인 스토어의 5개월(2019.10.~2020.02.)의 행동데이터 이다. 이커머스의 특성상 네트워크상에서 이뤄지는 행위이기에 소비자들의 행동 패턴을 쉽게 수치화 할 수 있다. 가령 플랫폼에서 해당 상품의 확인 후, 장바구니에 상품을 추가하거나, 삭제하거나 그것을 반복하다 최종적으로 구매를 하거나 안한다. 그렇기에 이 행동을 분석해 패턴을 확인하고 유의미한 분석을 진행하는 것 목표이다.
- 각 테이블(월단위)의 컬럼은 다음의 특징을 가진다.
컬럼명 | 특이사항 |
event_time (이벤트 시간) | 이벤트가 발생한 시간(UTC)으로 "YYYY-mm-dd ??:??:??"형식으로 구성되어 있다. |
event_type (이벤트 유형) | 총 4가지의 이벤트 유형이 있다. {view, cart, remove_from_cart, purchase} |
product_id (제품ID) | 제품별 ID이다. |
category_code (카테고리_아이디) | 카테고리_아이디 이다. |
category_code (카테고리_코드) | null 값이 대부분을 차지하고 있으며 상품의 카테고리를 의미한다. ∵ 종류가 다양하여 아주 큰 대분류를 제외 대부분 공란이다. 이름이 있는 카테고리는 유의미한 의미를 갖고 있는 경우를 의미하며 대분류로 나뉠수 있는 경우 적힌다. |
brand (상표) | 흔히 null, ‘’값을 포함하고 있다. 소문자로 된 브랜드 이름이 있는 경우 기재되어 있다. |
price (가격) | 작성 시점을 기준의 가격차이가 적혀있다. 분포값은 (-79.4 ~ 328) |
user_id (사용자_아이디) | 영구 사용자 ID를 의미한다. |
user_session (사용자 세션) | 임시 사용자의 세션 ID로 각 사용자 세션에 대해 동일하다! 사용자가 긴 일시 정지에서 온라인 스토어로 돌아올 때마다 변경된다. |
※ 주어진 컬럼을 통해 우선 데이터 특성에 따른 가능한 분석을 확인하고자 한다.
a. '가격'은 적용 시점의 가격을 알 수 없기에 가격과 관련된 인사이트는 배제한다. : 마케팅 캠페인과 같은 다양한 요인으로 인해 가격이 변동될 수 있으며, 그것을 확인할 방법이나 연관된 인사이트들이 보이지 않아 배제하고자 한다.
b. '브랜드'는 2019_Dec 테이블 기준 253개의 종류를 갖고 있고(null값 포함), null값을 제외 시 전체 개수 중 1/3이 줄어든다는 점에서 '브랜드'를 통한 어떠한 인사이트 도출은 가능해 보인다.
c. '사용자_아이디', ' 사용자 세션 '을 통한 기존 사용자와 신규 사용자의 전환율을 구할 수 있다. 주간, 월간 데이터를 확보시 전환율을 통해 어떠한 인사이트를 연계할 수 있어 보인다.
d. '이벤트 시간'은 시, 일, 주, 월 단위로 "사용자가 많이 몰리는 시간대 확인", 기간 범위를 통한 타 컬럼과의 연계가 가능해 보인다.
e. ' 이벤트 유형'은 사용자의 행동패턴을 파악할 수 있는 핵심 컬럼으로 분석이 반드시 필요하다.
f. '카테고리_아이디', ' 카테고리_코드'의 경우 null값이 많고, 유형 구분이 명확하지 않기에 분석이 불필요해 보인다.
g. '제품ID'의 경우 제품별 행동패턴 파악에 사용될 수 있어 분석하고자 한다.
2.2. 현재 수행된 SQL 분석들.
- 직접 SQL 쿼리작성을 통해 작성된 코드의 이름만 간략히 적는다.
a ."12월 구매전환율, 장바구니 삭제 전환율”
b. “테이블(월)단위 주 단위 판매량 구분”
c. “많이 팔린 제품 코드”
d. “장바구니에서 구매 및 제거 전환율”
2.3. 행동분석을 목표로 수행되어져야 할 분석들
- '이벤트 유형별 전환율', '고객 전환율'[사용자 아이디, 사용자 세션, 주단위, 월단위], '많이 팔린 제품'과 '같이 팔린 제품들' [주단위, 월단위]
- 최종적으로 전환율과 제품들에 대한 분석을 수행할 수 있다.