전체 글 84

데이터 분석 트랙 16주차 (25.06.08.) W.I.L.

주간 회고1. 최종 프로젝트 진행 상황 1.1. 데이터 셋 탐색(main 데이터 셋은 탐색 완료) [선정 데이터 셋] "Dunnhumby-The Complete Journey" [링크]A. 원본 데이터 셋 링크 : https://www.kaggle.com/datasets/frtgnn/dunnhumby-the-complete-journey?select=campaign_desc.csv Dunnhumby - The Complete JourneyRetail focused consumer datawww.kaggle.comB. 데이터 셋 설명 링크 : https://github.com/Lanbig/CSC465-visualization-project/blob/master/Dataset/dunnhumby%20-%2..

내일배움캠프 2025.06.08

데이터 분석 트랙 85일차 25.06.05. [TIL]

[최종 프로젝트 진행 5일차]개인 담당 분석과 "campaign_table" EDA튜터님 질의응답개인 담당 분석과 "campaign_table" EDA1. 캠페인 분석 1.1. 분석 목표 - 1차적으로 캠패인 분석을 시작! "campaign_table"을 EDA 시행, 컬럼의 의미 및 분석 결과를 확인 - 그 다음, "coupon_redempt" 테이블에 대한 분석을 시작! 가구 및 쿠폰, 캠페인과 같이 다양한 분석 방향이 적용 가능 - 우선, "캠페인별 성과를 확인"하는 것을 1차 목적으로 분석! 그 후 왜 그러한 성과가 나타났는지 원인 분석으로 넘어간다. 1.2. 현재 분석 결과 (요약 : 캠패인 테이블 확인 완료, 쿠폰 사용 테이블과 연결하여 분석 시작해야한다!)CAMPAIGN_TABLE E..

카테고리 없음 2025.06.05

데이터 분석 트랙 84일차 25.06.04. [TIL]

[최종 프로젝트 진행 4일차]데이터 테이블 및 컬럼 정리테이블 결합 코드1차 분석 인사이트데이터 테이블 및 컬럼 정리1. “hh_demographic” : 고객 데이터 1.1. 설명 - 고객 중 일구 가구(801 개)의 정보 [전체 고객 중 약 30%를 차지] - 데이터 특성 상 신상 정보는 마스킹 되어 있다. 1.2. 컬럼 설명 A. HOUSEHOLD_KEY : 각 가구에 대한 고유키 (PK) # FK) "TRANSACTION_DATA", "CAMPAIGN_TABLE" B. AGE_DESC : 추정 연령대 C. MARITAL_STATUS_CODE : 결혼 여부 (A=기혼, B=미혼, C=모름) D. INCOME_DESC : 각 가구의 수입 E. HOMEOWNER_DESC : 각 가구 구성 (Homeo..

내일배움캠프 2025.06.04

데이터 분석 트랙 82일차 25.06.02. [TIL]

[금일 학습 내용] - 파이썬 종합반 6회차 머신러닝1 수강 [최종 프로젝트 진행 상황] - GA4 데이터 셋의 데이터 양이 너무 방대하여 활용하기 어렵기에 데이터 셋을 변경https://www.kaggle.com/datasets/frtgnn/dunnhumby-the-complete-journey?select=campaign_desc.csv Dunnhumby - The Complete JourneyRetail focused consumer datawww.kaggle.com던험비 - 고객 여정 분석 데이터셋.# 링크 : https://github.com/Lanbig/CSC465-visualization-project/blob/master/Dataset/dunnhumby%20-%20The%20Complete..

내일배움캠프 2025.06.02

데이터 분석 트랙 15주차 (25.06.01.) W.I.L.

[주간 활동 정리] 1. 선택학습반 파이썬 종합반 1~5회차(기본 이론 ~ 통계적 검정 방법) 2. 최종 프로젝트 데이터 셋 선정 : "Google Analytics Sample" - 실제 전자상거래 매장인 Google Merchandise Store의 Google 애널리틱스 360 데이터가 포함 - 프로젝트 목표는 이커머스 데이터를 활용하여 고객 행동 분석을 시행! 그 결과 마케팅 전략을 제시하는 것을 기본 골자로 삼음. - 캐글의 데이터 상에선 매출에 대한 내용을 확인할 수 없기에, 현재 구글 에널러틱스 빅쿼리의 데이터 셋을 구글 API를 통해 다운로드 하는 중이며, 다운로드 이후 데이터 확인 및 전처리 작업에 들어갈 예정이다. - 사용할 분석 방법은 전처리 및 EDA를 통해 간단한 확인을..

내일배움캠프 2025.06.01

데이터 분석 트랙 79일차 25.05.30. [TIL]

[최종 프로젝트] 1. 분석 데이터 셋 : " Google Merchandise Store"의 "Google Analytics" 데이터 셋으로 선정 # 트래픽 소스 데이터, 콘텐츠 데이터, 거래 데이터가 포함되어 있다. 2. 분석 목표 : 고객 행동 분석 및 퍼널 분석을 통한 마케팅 전략 도출 시도 3. 현재 빅쿼리에서 데이터를 다운 받아 저장하고 있다. [해야할 일] - [파이썬 종합반 5강 - 데이터 분석 및 검정] - "최종 프로젝트 데이터셋 저장" 이후 인사이트 정리 및 강의 내용 정리 예정 - 스파크 강의 수강 - 파이썬 종합반 6강 강의 자료 공부 - 최종 프로젝트 데이터 셋 다운완료 및 EDA와 전처리 준비

내일배움캠프 2025.05.30

데이터 분석 트랙 77일차 25.05.28. [TIL]

[최종 프로젝트 데이터 탐색] - 프로젝트의 목표 : 고객 데이터 분석을 통한 마케팅 전략 제시 - 사용하고자 하는 분석 혹은 기법 : 퍼널 분석(AARRR), 머신러닝-클러스터링, 전환율 및 이탈율 확인, 코호트 분석. # 즉, 고객의 유입 및 이탈을 퍼널 별로 행하고 싶다. 참고 사례1) A사의 CRM 마케팅 데이터 분석 서비스[주요 제공 서비스] - 온사이트&메시지 캠페인 자동화 - 커스텀 캠페인 및 오디언스 생성(쉬운 UI/UX) - 캠페인 성과 분석(캠페인 별 노출수, 발송수, 클릭률, 구매 전환율, 등등) - 사이트 데이터 분석(매출, 구매전환율, 구매 객단가 ,퍼널, 우입지표 전체) - 고객 데이터 분석(고객별 세션수, 구매주기 이탈률, CLV, 구매 가능성 등) - 상품 데이터 분석(노..

내일배움캠프 2025.05.28

2강 <전처리> 내용 중 알아야 할 코드

1. 데이터 중 수치형, 범주형 컬럼의 확인 및 결측치의 확인# 0. 데이터 불러오기df = pd.read_csv('어떤 무슨 데이터.csv') # 1. 데이터 확인"""수치형 컬럼 확인"""numeric_cols = df.select_dtypes(include=['number']).columns.tolist() """범주형 컬럼 확인"""categorical_cols = df.select_dtypes(exclude=['number']).columns.to_list()print("수치형 :", numeric_cols)print("범주형 :", categorical_cols) # 설명) df 내의 데이터 타입을 선택하는 select_dtypes() 을 사용하여 데이터 타입이 number 인 것을 선..

데이터 분석 트랙 14주차 (25.05.25.) W.I.L.

[주간 회고]1. 실전 프로젝트 마무리 - 이전 프로젝트에서 생각했던, 사용했던 기법을 모두 정리한 내용 혹은 파생 변수를 PPT에 적어놓고 싶었지만그것을 하지 못했다. - 대시보드의 인사이트 부분에선 처음 이용하는 사람들이 이해할 수 있게 인사이트를 발견하는 과정을 설명하고 인사이트가 무엇이 있는지 설명할 수 있게 시각적 자료가 필요하다. 2. 차주 진행 계획 - SQL코드카타 진행 - 파이썬 종합반 강의 수강 - 스파크 강의 완강 - 최종 프로젝트 준비(도메인, 팀 확인, 데이터 셋 선정,크롤링 사용여부 확인, 최종 진행 과제 확인) - 도메인 모집 공고 확인 및 자격증 준비

내일배움캠프 2025.05.25

데이터 분석 트랙 72일차 25.05.23. [TIL]

[QCC 6회차]- 이번 시험은 어려웠음.- 쿼리를 작성하기 위해 고려해야 할 사안이 많았다.ex. 윈도우 펑션의 2가지 order by, 3개 테이블 결합시 조인키와 colesce, timestampdiff()식- 가장 빠른 만점 제출자가 50분 걸린 정도...- 그래도 가장 실용적인 구문이니 차후 다시 확인해보자. Q1. 성별 별로 성적 상위 3명의 정보 가져오기(만일 공동등수일 경우 나이가 많은 사람이 우선)select *, rank() over (partiton gender order by score desc, age desc) rnfrom studentswhere (rank() over (partiton gender order by score desc, age desc)) # 다른 방법-- R..

내일배움캠프 2025.05.23