2025/04 27

데이터 분석 트랙 55일차 25.04.30. [TIL]

1. 심화 프로젝트 KPT회고 1.1. 프로젝트 튜터님 피드백 - 데이터에서 어떤 주제를 선정할지 잘 발굴해 군집을 통한 전략 제시까지 잘 이어졌다. - 군집을 선택할 때 고민을 많이 했던 점이 잘 반영되어 좋았다. - 군집 해석시 최대한 수치에서 그치지 않고 패르소나를 만들어 듣는 이로서 이해에 도움이 됨. - 다만 군집별 특정 지표를 보일 때 자료상으로는 평균만 수치를 제공하여 특정 값에 의해 편향된 설명으로 보인다. 원본 데이터의 수치를 같이 붙였으면 좋았을 것이다. - 거래 변동성이 높은 것을 충동적으로 해석한 점은 그 근거가 모호하다. (고액 결재율, MCC를 시간상 엮어서 언급을 못함.) - 파생변수들에 대한 설명이 좀 더 들어갔으면 좋앗을 것. - 특히 주요 변수로 활용한 ..

카테고리 없음 2025.04.30

데이터 분석 트랙 54일차 25.04.29. [TIL]

[심화 프로젝트 진척도] - 발표 대본 완성 및 발표 연습단계 - 발표 연습을 거치며 최종적으로 대본 길이를 조절한 뒤 시각화 부분에 투자할 예정 - 클러스터별 해석을 보조할 데이터 분석 내용 인지 필요(ex. cluster_0의 DTI에서 총 부채 : 7300만, 총 수익 : 7400만) # 핵심은 클러스터링과 클러스터 별 해석부분이니 이 부분을 위해 시간 안배를 잘 해야될 것 # to do : 클러스터 별 해석에 너무 많은 시간을 투자하여 공부를 하지 못했으니 반드시 SQL과 Python 코드 복습 및 머신러닝 기법들 한 번씩 다 회고! 특히 딥러닝 부분과 회귀, 분류, 이상탐지 부분은 최종 정리하기 데이터 분석 트랙 53일차 25.04.28. [TIL]

내일배움캠프 2025.04.29

데이터 분석 트랙 53일차 25.04.28. [TIL]

프로젝트 진행 상황 - 클러스터별 최종 인사이트 확인 완료클러스터 별 기본 속성에 따른 특화 액션 플랜들>클러스터 번호특징액션 플랜들0※ 나이(-0.25) [대리, 팀장]- DTI 1:1 (수익 소폭 우세)- 초고소득 (1.9)- 고액 결재율 (2.2)- 거래변동성 (0.51)※ 정리 “과소비 과지출 그룹” “소비 성향이 높음” “사회적 나이로 4분류 시 젊은 축” “VIP 그룹이면서 소비 관리 필요”[마케팅] : 한정판 강조, VIP 이벤트, 독점욕 자극 캠페인[상품] : 플래티넘 카드, 컨시어지 서비스, 주식형 펀드[리스크] : VIP 전담 관리, 이상 소비 감지, 빠른 대출 재조정ex. "이번 달 한정판 지갑 결제액이 50만원 초과! 취소/확인"- “관리적 측면 및 금융 이미지”를 위해선주로 사용하..

카테고리 없음 2025.04.28

데이터 분석 트랙 10주차 (25.04.27.) W.I.L.

1. 주간 회고 1.1. 프로젝트 진행 상황 - 머신러닝 > [금융] 군집분석을 시도하였다. - 현재 클러스터링을 통한 고객 그룹화는 완성하였고, 각 클러스터별 인사이트 확인 단계에 진입했다. - 인사이트 확인에 있어 크게 시간이 걸리지 않을 것 같아 바로 PPT 제작 및 외부 자료 조사에 진입하면 될 것이다. - 가령 고객 소비 생활 부분에선 [금융]부분이라는 점에서 활용하기 어려운 부분이 있지만(금융의 이미지) 고객 관리 앱에 한정하여 마케팅을 진행할 때 https://namu.wiki/w/%EB%93%80%EC%98%A4%EB%A7%81%EA%B3%A0/%EB%B0%88 듀오링고/밈듀오링고 의 밈 에 관한 문서. 듀오링고를 일정 기간 동안 사용하지 않으면 알림이 오는데, 일정 기간이 지나면 ..

내일배움캠프 2025.04.27

데이터 분석 트랙 52일차 25.04.25. [TIL]

[프로젝트 진행 상황] - 최종 고객 클러스터링 완료 - 고객 별 인사이트 확인 및 PPT 제작 단계 시작 1. 데이터 전처리 후 최종 클러스터링을 위한 컬럼 - 'current_age' - 'per_capita' - 'DTI', - 'high_amount_ratio', - 'trans_stats' 2. pca - 차원은 2 - 설명 분산 계수 : 0.60362 3. 초기 K값 찾기 3. 군집 계산 Cluster count percentage0 0 79 7.41 1 1 195 18.29 2 2 236 22.14 3 3 211 19.79 4 4 ..

카테고리 없음 2025.04.25

데이터 분석 트랙 51일차 25.04.24. [TIL]

[프로젝트 진행상황] - 최종 데이터 전처리 후 가상 시나리오 그룹(초기 피쳐 설정) 별 군집 모델 생성 중 Group_A_재무건전성 (8개)고객의 ‘재무 건전성’을 평가하는 변수 묶음변수 목록per_capita_income (1인당 소득)yearly_income (연간 소득)total_debt (총 부채)DTI (Debt-to-Income ratio: 부채÷소득)credit_utilization (신용 한도 대비 사용률)card_per_income (소득 대비 카드 수)common_credit_score (100단위 신용점수 구간)num_credit_cards (보유 신용카드 수)설명 & 기대 인사이트부채 수준 vs. 소득: DTI, total_debt, yearly_income으로 재무 위험도 구분한..

카테고리 없음 2025.04.24

데이터 분석 트랙 50일차 25.04.23. [TIL]

[프로젝트 진행상황]- 데이터 최종 통합 완료df = pd.read_csv('final_data.csv') 최종 컬럼 : df3최종 통합 컬럼 설명컬럼명이상한점데이터 타입 (개수)idint (1219)current_ageint (1219)[최소 (23.00) ~최대 (101.00)]retirement_ageint (1219)[최소 (53.00) ~최대 (79.00)]genderobjectFemale : 622Male : 597per_capita_incomefloat[최소 (0.00) ~최대 (163,145.00)]yearly_incomefloattotal_debtfloatcredit_scorefloatnum_credit_cards범주형!레이블 인코딩!int고유값은 1~9IEPfloatDTIfloatamo..

카테고리 없음 2025.04.23

데이터 분석 트랙 49일차 25.04.22. [TIL]

[프로젝트 진행 상황] - 'client_id'를 기준으로 테이블(cards, transactions, users)별 데이터를 1차 그룹핑 후 결합하였다. # 약 1200명 가량의 고객 데이터 - 그 후 고객 세그먼트에 무의미할 컬럼들(ex. [dark_web 뭐시깽이] : 전부다 NO값)을 제거하고, 파생변수를 선정하여 다음과 같은 컬럼을 제작하였다.파생변수분류파생변수명조합에 사용된 원본 테이블의 컬럼[고객 재무](Financial Behavior) 총 부채 상환비율 (DTI)- 신용도 확인 목적- ['total_debt', 'yearly_income']신용카드 사용빈도 [비율]- 신용 한도 과도사용 여부 확인 목적- 신용 리스크 구분 목적- ['amount', 'credit_limit']평균 거래..

내일배움캠프 2025.04.22

데이터 분석 트랙 48일차 25.04.21. [TIL]

[프로젝트 데이터 전처리] “cards” 13개 컬럼 중에서 - 파생 컬럼1 "계좌 개설 경과 기간“ # 계좌를 오래 유지한 사람일수록 금융 신뢰도가 높다.(datetime.now().year - df_cards['acct_open_date'],format='%m/%Y') - ['card_type'] : 범주형 인코딩(레이블 인코딩) - ['credit_limit'] : 체크 카드에도 카드 한도가 존재함을 확인. - ['id'] : 카드 ID (카드 고유 식별자!) # 버리는 컬럼 - year_pin_last_changed(PIN 마지막 변경 연도), card_on_dark_web(다크웹에서 카드 정보 발견 여부), num_cards_issued(발급된 카드 총 개수), has_chip(칩 유무(마그..

카테고리 없음 2025.04.21

데이터 분석 트랙 9주차 (25.04.20.) W.I.L.

주간 학습 회고심화 프로젝트 준비주간 학습 회고- 학습 내용 : 파이썬 선택형 학습반(개인 및 추가) 완강, 머신러닝추가 특강 완강, 머신러닝 기법 개인 실습- 통계적 기법 및 머신러닝 기법을 각각 혹은 둘 다 활용할 수 있는 수준까지 연습이 필요심화 프로젝트1. 선택 주제 : 금융 데이터 - 고객 클러스터링2. 목적 : 금융 도메인의 데이터(고객 정보, 카드, 지불 정보)를 가지고 새로운 고객 군집을 찾는다.3. 현재 선정한 프로젝트 개요 - 프로젝트 목표 : 신용 위험도 기반으로 고객을 세분화 및 군집 별 인사이트를 도출한다. - 프로젝트의 활용 : "금융 상품 설계", "대출 심사 기준 보완", "기업 입장의 리스크 최소화", "이탈 위험 고객 군집 확인 및 추가 액션이 필요한 군집 파악 가능" -..

내일배움캠프 2025.04.20