데이터 분석 트랙 5주차 (25.03.23.) W.I.L.

내일배움캠프

데이터 분석 트랙 5주차 (25.03.23.) W.I.L.

jjaio8986 2025. 3. 23. 20:55

[목차]

기초 프로젝트 데이터 풀 관련 인사이트
5주차 회고
다음 주 할 일

기초 프로젝트 인사이트

- 기초 프로젝트 : 주어진 주제를 ON AIR 분석 절차 기반 데이터 분석 후 결과물 보고

- 선정된 팀 주제 : "[공공데이터] 서울시 부동산 데이터 분석"

- 이번 주 개인 진행 내용

1. 데이터 분석 진행 방향성

- 데이터를 분석해야 하는 상황을 맞이할 때 개인적으로 분석 방향성은 다음과 같은 성향을 갖는다고 생각한다.

A. “어떤 고객유형이 있는지 먼저 유형화 한 다음 그들의 성격에 따라 필요로 하는 데이터 분석 확인”

# 분석의 수용자를 타겟팅하여 필요한 데이터만 분석하기에 가장 효율적이고 빠른 결과 및 인사이트를 가질 수 있어보임. 하지만 분석 내용을 통해 설득하기 위한 부가적인 옵션들이 부족해보임(필요한 컬럼에 대한 인사이트만 뽑을 뿐 다른 컬럼의 핵심 내용과 연결짓기 어려워보임)

B. “데이터를 통합한 뒤 테이블 및 컬럼별 특징을 분석! 이를 통해 어떠한 특성을 뽑아낼 수 있는지 가짓수를 1개 2개 3개로 늘려가며 조합! 최종적으로 그걸 통해 어떠한 인사이트가 나오는지 시각화 후 결과 수용자의 성향에 따라 맞춤형 보고!”

# 너무 광범위한 분석이고 비효율적으로 보임[데이터가 너무 많거나, 테이블 컬럼이 너무 많은 경우에 두드러짐]. 하지만 레고처럼 여러 테이블, 컬럼의 특징과 요소들을 조립할 수 있다는 점에서 다양한 조합을 시도해 인사이트들을 모을 수 있고 타겟팅 방식에 비해 결과를 다양하게 가져갈 수 있다고 생각.

개인적으로 B의 방식을 설정! 모든 레고 조각을 모으고, 조합하여, 다양한 결과물을 갖는다.

2. 현 결과물

2.1. 데이터 자체 확인

※ “부동산 시장” 데이터의 컬럼 뜯어보기 요약
설정 컬럼명	원 컬럼명	고유값 개수	고유값의 유형	데이터타입	데이터 예시
RCPT_YR	접수연도	1		int64	2018
CGG_CD	자치구코드	25		string	11590
CGG_NM	자치구명	25	형태: ??구	string	동작구
STDG_CD	법정동코드	84		string	11700
STDG_NM	법정동명	405	형태 : ??동	string	사당동
LOTNO_SE	지번구분	3	‘1','2','3', <NA>	string	"1.0"
LOTNO_SE_NM	지번구분명	3	'대지', '산', '블럭, <NA>	string	대지
MNO	본번	1690		string	"169.0"
SNO	부번	852		string	"32.0"
BLDG_NM	건물명	25662		string	현대
CTRT_DAY	계약일	287		string	20190221
THING_AMT	물건금액(~~만원)	5757		int64	49500
ARCH_AREA	건물면적(**M)	15430		float64	51.66
LAND_AREA	토지면적(**M)	8363		float64	NAN
FLR	층	65		string	"10.0"
RGHT_SE	권리구분	2	<NA>, '입주권', '분양권'	string	NAN
RTRCN_DAY	취소일	0		string	NAN
ARCH_YR	건축년도	97		string	"1991.0"
BLDG_USG	건물용도	4	'아파트', '연립다세대', '단독다가구', '오피스텔'	string	아파트
DCLR_SE	신고구분	0		string	NAN
OPBIZ_RESTAGNT_SGG_NM	신고한 개업공인중개사 시군구명	0		string	NAN

# 못 쓸 컬럼은 빨간색, 대구분 시 [지역별] 구분 컬럼은 황토색, [시기별] 구분은 초록색, [금액별] 구분은 푸른색, [부가적인 옵션]은 자주색으로 표시하였다.

- 현재 주어진 “부동산 시장 데이터”는 ‘7개의 테이블’과 테이블, ‘21개의 컬럼’으로 구성되어 있다.

- 테이블은 2018년부터 2024년 별로 거래된 부동산 매물 중에서 원본 데이터 사이트의 기준으로 데이터를 수집하여 그것을 [접수연도]로 나눈 것임. 그래서 분석을 시도하기 전에 전처리를 수행할 필요가 있다.

# 즉, 실제 계약된 날짜 순으로 데이터가 저장된 것이 아니다! 정보 원천 사이트의 데이터 수집(접수)하는 방법 및 그것을 정렬한 한 날짜를 기준으로 데이터가 나열!

# 따라서 우리가 확인하기 위한 방식으로 데이터를 가다듬어야 한다.

# ex. 2019년 4월 25일 거래된 “강서구 화곡동”의 “우장산아이파크, 이편한세상” 2008년식 건물은 2018년에 거래 신고가 접수되어 인덱스번호 0번에 나열되어 있다.

[법적으로 부동산 거래 계약일 기준 30일 이내 거래 신고가 이루어져야 한다. "서울시 열린데이터 광장의 서울시 부동산 실거래가 정보"에는 데이터의 수집 및 저장 기준이 우리가 생각한 것과 다르다! 즉, 시기별로 데이터를 정돈할 시 접수연도가 아닌 '계약일'기준으로 데이터를 가다듬어야 할 필요가 있다. 또한 전체 데이터가 80만개에 다다르기에 그 모든 데이터를 다루기 어렵기에 추가적으로 필요없는 컬럼의 데이터는 제외하거나 행의 데이터는 제거해야 할 것이다.]

- 전체 행 개수 : 833,614

- 테이블 별 행 개수(2018~2024) : “166,717”, “130,673”, “183,900”, “138,696”, “66,324”, “69,781”, “77,523”

- 결측값 확인 결과

컬럼명	결측값
접수연도	0
자치구코드	0
자치구명	1
법정동코드	0
법정동명	0
지번구분	57,571
지번구분명	57,571
본번	57,562
부번	57,562
건물명	57,549
계약일	0
물건금액(만원)	0
건물면적(㎡)	0
토지면적(㎡)	164,790
층	57,495
권리구분	826,000
취소일	808,073
건축년도	3,416
건물용도	0
신고구분	608,270
신고한 개업공인중개사 시군구명	649,698
# Total_index	833,614

- 인사이트 도출이 어렵거나 쓸모 없는 컬럼

a. 접수연도 : 뒤에 설명하겠지만 데이터가 접수된 연도에 대한 컬럼! 데이터의 핵심은 가격, 계약일이니 무시해도 되는 컬럼! # 무쓸모

b. 자치구 코드, 법정동 코드, 지번구분 : 말 그대로 정수형으로 이루어진 값으로 행이 이루어진다. # 무쓸모

c. 자치구명, 법정동명, 지번구분명 : 해당 부동산 거래 데이터의 [‘지역’]에 해당하는 컬럼! 해당 지역의 ‘구’, ‘동’, ‘지번’(4개의 정수로 구성)으로 나타난다. # ‘지번구분명’의 경우 너무 디테일하고 세세한 데이터! 따라서 큰 의미는 없다!

d. 신고구분, 신고한 개업공인중개사 시군구명 : 21년부터 신고구분, 신고한 공인중개사 관련 값이 등장한다. # 무쓸모

e. 취소일, 권리구분 : 결측값이 너무 많아 사용하기 어려움! 또한 다른 컬럼과 조합한다고 해도 인사이트, 결과값이 유의미하지 않음.

5주차 회고

- 파이썬 관련 개인 공부 내용을 소화할 시간 없이 바로 프로젝트에 임하게 되어 걱정이 앞서지만 현재 할 수 있는 것들을 모조리 동원하여 코드도 짜고 시각화에 도전하고 있다. 복습해야할 것과 발표준비도 있는 만큼 스트레스를 많이 받겠지만 걱정하지 말고 일단 부딪히고자 한다.

다음 주 할 일

1. 프로젝트 마무리

2. 파이썬 강의 마무리 및 정리

3. SQL 및 파이썬 과제 도전

'내일배움캠프' 카테고리의 다른 글

데이터 분석 트랙 34일차 (25.03.31.) TIL (0)	2025.03.31
데이터 분석 트랙 6주차 (25.03.30.) W.I.L. (0)	2025.03.30
데이터 분석 트랙 4주차 (25.03.16.) W.I.L. (0)	2025.03.16
데이터 분석 트랙 19일차 (25.03.14.) TIL (0)	2025.03.14
데이터 분석 트랙 17일차 (25.03.12.) TIL (0)	2025.03.12

현재글데이터 분석 트랙 5주차 (25.03.23.) W.I.L.

jjaio8986 님의 블로그

jjaio8986 님의 블로그 입니다.

til, 머신러닝 정리, 파이썬, 내일배움캠프 #사전캠프 #til, 파이썬 선택 학습반 5~7강 정리, 프로젝트 전처리, 본캠프, 심화 프로젝트, 머신러닝 [전처리], 파이썬 기본 문법 실습 문제, 가설 검정 주의사항, 머신러닝 [개요], 내일배움캠프, 머신러닝 5강 실습 후 코드정리 진행중, 금주 목표, qcc 4회차, Wil, 자료형 과제 정리, 아티클 정리, 아티클 스터디,

Today :
Yesterday :

jjaio8986 님의 블로그