[목차]
- 기초 프로젝트 데이터 풀 관련 인사이트
- 5주차 회고
- 다음 주 할 일
- 기초 프로젝트 인사이트
- 기초 프로젝트 : 주어진 주제를 ON AIR 분석 절차 기반 데이터 분석 후 결과물 보고
- 선정된 팀 주제 : "[공공데이터] 서울시 부동산 데이터 분석"
- 이번 주 개인 진행 내용
1. 데이터 분석 진행 방향성
- 데이터를 분석해야 하는 상황을 맞이할 때 개인적으로 분석 방향성은 다음과 같은 성향을 갖는다고 생각한다.
A. “어떤 고객유형이 있는지 먼저 유형화 한 다음 그들의 성격에 따라 필요로 하는 데이터 분석 확인”
# 분석의 수용자를 타겟팅하여 필요한 데이터만 분석하기에 가장 효율적이고 빠른 결과 및 인사이트를 가질 수 있어보임. 하지만 분석 내용을 통해 설득하기 위한 부가적인 옵션들이 부족해보임(필요한 컬럼에 대한 인사이트만 뽑을 뿐 다른 컬럼의 핵심 내용과 연결짓기 어려워보임)
B. “데이터를 통합한 뒤 테이블 및 컬럼별 특징을 분석! 이를 통해 어떠한 특성을 뽑아낼 수 있는지 가짓수를 1개 2개 3개로 늘려가며 조합! 최종적으로 그걸 통해 어떠한 인사이트가 나오는지 시각화 후 결과 수용자의 성향에 따라 맞춤형 보고!”
# 너무 광범위한 분석이고 비효율적으로 보임[데이터가 너무 많거나, 테이블 컬럼이 너무 많은 경우에 두드러짐]. 하지만 레고처럼 여러 테이블, 컬럼의 특징과 요소들을 조립할 수 있다는 점에서 다양한 조합을 시도해 인사이트들을 모을 수 있고 타겟팅 방식에 비해 결과를 다양하게 가져갈 수 있다고 생각.
개인적으로 B의 방식을 설정! 모든 레고 조각을 모으고, 조합하여, 다양한 결과물을 갖는다.
2. 현 결과물
2.1. 데이터 자체 확인
※ “부동산 시장” 데이터의 컬럼 뜯어보기 요약 | |||||
설정 컬럼명 | 원 컬럼명 | 고유값 개수 | 고유값의 유형 | 데이터타입 | 데이터 예시 |
RCPT_YR | 접수연도 | 1 | int64 | 2018 | |
CGG_CD | 자치구코드 | 25 | string | 11590 | |
CGG_NM | 자치구명 | 25 | 형태: ??구 | string | 동작구 |
STDG_CD | 법정동코드 | 84 | string | 11700 | |
STDG_NM | 법정동명 | 405 | 형태 : ??동 | string | 사당동 |
LOTNO_SE | 지번구분 | 3 | ‘1','2','3', <NA> |
string | "1.0" |
LOTNO_SE_NM | 지번구분명 | 3 | '대지', '산', '블럭, <NA> | string | 대지 |
MNO | 본번 | 1690 | string | "169.0" | |
SNO | 부번 | 852 | string | "32.0" | |
BLDG_NM | 건물명 | 25662 | string | 현대 | |
CTRT_DAY | 계약일 | 287 | string | 20190221 | |
THING_AMT | 물건금액(~~만원) | 5757 | int64 | 49500 | |
ARCH_AREA | 건물면적(**M) | 15430 | float64 | 51.66 | |
LAND_AREA | 토지면적(**M) | 8363 | float64 | NAN | |
FLR | 층 | 65 | string | "10.0" | |
RGHT_SE | 권리구분 | 2 | <NA>, '입주권', '분양권' | string | NAN |
RTRCN_DAY | 취소일 | 0 | string | NAN | |
ARCH_YR | 건축년도 | 97 | string | "1991.0" | |
BLDG_USG | 건물용도 | 4 | '아파트', '연립다세대', '단독다가구', '오피스텔' | string | 아파트 |
DCLR_SE | 신고구분 | 0 | string | NAN | |
OPBIZ_RESTAGNT_SGG_NM | 신고한 개업공인중개사 시군구명 | 0 | string | NAN |
# 못 쓸 컬럼은 빨간색, 대구분 시 [지역별] 구분 컬럼은 황토색, [시기별] 구분은 초록색, [금액별] 구분은 푸른색, [부가적인 옵션]은 자주색으로 표시하였다.
- 현재 주어진 “부동산 시장 데이터”는 ‘7개의 테이블’과 테이블, ‘21개의 컬럼’으로 구성되어 있다.
- 테이블은 2018년부터 2024년 별로 거래된 부동산 매물 중에서 원본 데이터 사이트의 기준으로 데이터를 수집하여 그것을 [접수연도]로 나눈 것임. 그래서 분석을 시도하기 전에 전처리를 수행할 필요가 있다.
# 즉, 실제 계약된 날짜 순으로 데이터가 저장된 것이 아니다! 정보 원천 사이트의 데이터 수집(접수)하는 방법 및 그것을 정렬한 한 날짜를 기준으로 데이터가 나열!
# 따라서 우리가 확인하기 위한 방식으로 데이터를 가다듬어야 한다.
# ex. 2019년 4월 25일 거래된 “강서구 화곡동”의 “우장산아이파크, 이편한세상” 2008년식 건물은 2018년에 거래 신고가 접수되어 인덱스번호 0번에 나열되어 있다.
[법적으로 부동산 거래 계약일 기준 30일 이내 거래 신고가 이루어져야 한다. "서울시 열린데이터 광장의 서울시 부동산 실거래가 정보"에는 데이터의 수집 및 저장 기준이 우리가 생각한 것과 다르다! 즉, 시기별로 데이터를 정돈할 시 접수연도가 아닌 '계약일'기준으로 데이터를 가다듬어야 할 필요가 있다. 또한 전체 데이터가 80만개에 다다르기에 그 모든 데이터를 다루기 어렵기에 추가적으로 필요없는 컬럼의 데이터는 제외하거나 행의 데이터는 제거해야 할 것이다.]
- 전체 행 개수 : 833,614
- 테이블 별 행 개수(2018~2024) : “166,717”, “130,673”, “183,900”, “138,696”, “66,324”, “69,781”, “77,523”
- 결측값 확인 결과
컬럼명 | 결측값 |
접수연도 | 0 |
자치구코드 | 0 |
자치구명 | 1 |
법정동코드 | 0 |
법정동명 | 0 |
지번구분 | 57,571 |
지번구분명 | 57,571 |
본번 | 57,562 |
부번 | 57,562 |
건물명 | 57,549 |
계약일 | 0 |
물건금액(만원) | 0 |
건물면적(㎡) | 0 |
토지면적(㎡) | 164,790 |
층 | 57,495 |
권리구분 | 826,000 |
취소일 | 808,073 |
건축년도 | 3,416 |
건물용도 | 0 |
신고구분 | 608,270 |
신고한 개업공인중개사 시군구명 | 649,698 |
# Total_index | 833,614 |
- 인사이트 도출이 어렵거나 쓸모 없는 컬럼
a. 접수연도 : 뒤에 설명하겠지만 데이터가 접수된 연도에 대한 컬럼! 데이터의 핵심은 가격, 계약일이니 무시해도 되는 컬럼! # 무쓸모
b. 자치구 코드, 법정동 코드, 지번구분 : 말 그대로 정수형으로 이루어진 값으로 행이 이루어진다. # 무쓸모
c. 자치구명, 법정동명, 지번구분명 : 해당 부동산 거래 데이터의 [‘지역’]에 해당하는 컬럼! 해당 지역의 ‘구’, ‘동’, ‘지번’(4개의 정수로 구성)으로 나타난다. # ‘지번구분명’의 경우 너무 디테일하고 세세한 데이터! 따라서 큰 의미는 없다!
d. 신고구분, 신고한 개업공인중개사 시군구명 : 21년부터 신고구분, 신고한 공인중개사 관련 값이 등장한다. # 무쓸모
e. 취소일, 권리구분 : 결측값이 너무 많아 사용하기 어려움! 또한 다른 컬럼과 조합한다고 해도 인사이트, 결과값이 유의미하지 않음.
- 5주차 회고
- 파이썬 관련 개인 공부 내용을 소화할 시간 없이 바로 프로젝트에 임하게 되어 걱정이 앞서지만 현재 할 수 있는 것들을 모조리 동원하여 코드도 짜고 시각화에 도전하고 있다. 복습해야할 것과 발표준비도 있는 만큼 스트레스를 많이 받겠지만 걱정하지 말고 일단 부딪히고자 한다.
- 다음 주 할 일
1. 프로젝트 마무리
2. 파이썬 강의 마무리 및 정리
3. SQL 및 파이썬 과제 도전
'내일배움캠프' 카테고리의 다른 글
데이터 분석 트랙 34일차 (25.03.31.) TIL (0) | 2025.03.31 |
---|---|
데이터 분석 트랙 6주차 (25.03.30.) W.I.L. (0) | 2025.03.30 |
데이터 분석 트랙 4주차 (25.03.16.) W.I.L. (0) | 2025.03.16 |
데이터 분석 트랙 19일차 (25.03.14.) TIL (0) | 2025.03.14 |
데이터 분석 트랙 17일차 (25.03.12.) TIL (0) | 2025.03.12 |