내일배움캠프

데이터 분석 트랙 5주차 (25.03.23.) W.I.L.

jjaio8986 2025. 3. 23. 20:55

[목차]

  • 기초 프로젝트 데이터 풀 관련 인사이트
  • 5주차 회고
  • 다음 주 할 일

 

 

 


  • 기초 프로젝트 인사이트

 - 기초 프로젝트 : 주어진 주제를  ON AIR 분석 절차 기반 데이터 분석 후 결과물 보고

 - 선정된 팀 주제 : "[공공데이터] 서울시 부동산 데이터 분석"

 - 이번 주 개인 진행 내용

 

 

1. 데이터 분석 진행 방향성

 - 데이터를 분석해야 하는 상황을 맞이할 때 개인적으로 분석 방향성은 다음과 같은 성향을 갖는다고 생각한다.

 

 A. “어떤 고객유형이 있는지 먼저 유형화 한 다음 그들의 성격에 따라 필요로 하는 데이터 분석 확인

   # 분석의 수용자를 타겟팅하여 필요한 데이터만 분석하기에 가장 효율적이고 빠른 결과 및 인사이트를 가질 수 있어보임. 하지만 분석 내용을 통해 설득하기 위한 부가적인 옵션들이 부족해보임(필요한 컬럼에 대한 인사이트만 뽑을 뿐 다른 컬럼의 핵심 내용과 연결짓기 어려워보임)

 

 B. 데이터를 통합한 뒤 테이블 및 컬럼별 특징을 분석! 이를 통해 어떠한 특성을 뽑아낼 수 있는지 가짓수를 123개로 늘려가며 조합! 최종적으로 그걸 통해 어떠한 인사이트가 나오는지 시각화 후 결과 수용자의 성향에 따라 맞춤형 보고!”

  # 너무 광범위한 분석이고 비효율적으로 보임[데이터가 너무 많거나, 테이블 컬럼이 너무 많은 경우에 두드러짐]. 하지만 레고처럼 여러 테이블, 컬럼의 특징과 요소들을 조립할 수 있다는 점에서 다양한 조합을 시도해 인사이트들을 모을 수 있고 타겟팅 방식에 비해 결과를 다양하게 가져갈 수 있다고 생각.

 

개인적으로 B의 방식을 설정! 모든 레고 조각을 모으고, 조합하여, 다양한 결과물을 갖는다.

 

2. 현 결과물

 2.1. 데이터 자체 확인

부동산 시장데이터의 컬럼 뜯어보기 요약
설정 컬럼명 원 컬럼명 고유값 개수 고유값의 유형 데이터타입 데이터 예시
RCPT_YR 접수연도 1
int64 2018
CGG_CD 자치구코드 25
string 11590
CGG_NM 자치구명 25 형태: ?? string 동작구
STDG_CD 법정동코드 84
string 11700
STDG_NM 법정동명 405 형태 : ?? string 사당동
LOTNO_SE 지번구분 3 ‘1','2','3',
<NA>
string "1.0"
LOTNO_SE_NM 지번구분명 3 '대지', '', '블럭, <NA> string 대지
MNO 본번 1690
string "169.0"
SNO 부번 852
string "32.0"
BLDG_NM 건물명 25662
string 현대
CTRT_DAY 계약일 287
string 20190221
THING_AMT 물건금액(~~만원) 5757
int64 49500
ARCH_AREA 건물면적(**M) 15430
float64 51.66
LAND_AREA 토지면적(**M) 8363
float64 NAN
FLR 65
string "10.0"
RGHT_SE 권리구분 2 <NA>, '입주권', '분양권' string NAN
RTRCN_DAY 취소일 0
string NAN
ARCH_YR 건축년도 97
string "1991.0"
BLDG_USG 건물용도 4 '아파트', '연립다세대', '단독다가구', '오피스텔' string 아파트
DCLR_SE 신고구분 0
string NAN
OPBIZ_RESTAGNT_SGG_NM 신고한 개업공인중개사 시군구명 0
string NAN

# 못 쓸 컬럼은 빨간색, 대구분 시  [지역별] 구분 컬럼은 황토색, [시기별] 구분은 초록색, [금액별] 구분은 푸른색, [부가적인 옵션]은 자주색으로 표시하였다.

  - 현재 주어진 부동산 시장 데이터7개의 테이블과 테이블, ‘21개의 컬럼으로 구성되어 있다.

  - 테이블은 2018년부터 2024년 별로 거래된 부동산 매물 중에서 원본 데이터 사이트의 기준으로 데이터를 수집하여 그것을 [접수연도]로 나눈 것임. 그래서 분석을 시도하기 전에 전처리를 수행할 필요가 있다.

  # 즉, 실제 계약된 날짜 순으로 데이터가 저장된 것이 아니다! 정보 원천 사이트의 데이터 수집(접수)하는 방법 및 그것을 정렬한 한 날짜를 기준으로 데이터가 나열! 

  # 따라서 우리가 확인하기 위한 방식으로 데이터를 가다듬어야 한다.

  # ex. 2019425일 거래된 강서구 화곡동우장산아이파크, 이편한세상” 2008년식 건물은 2018년에 거래 신고가 접수되어 인덱스번호 0번에 나열되어 있다

[법적으로 부동산 거래 계약일 기준 30일 이내 거래 신고가 이루어져야 한다. "서울시 열린데이터 광장의 서울시 부동산 실거래가 정보"에는 데이터의 수집 및 저장 기준이 우리가 생각한 것과 다르다! 즉, 시기별로 데이터를 정돈할 시 접수연도가 아닌 '계약일'기준으로 데이터를 가다듬어야 할 필요가 있다. 또한 전체 데이터가 80만개에 다다르기에 그 모든 데이터를 다루기 어렵기에 추가적으로 필요없는 컬럼의 데이터는 제외하거나 행의 데이터는 제거해야 할 것이다.]

 

 

- 전체 행 개수 : 833,614

- 테이블 별 행 개수(2018~2024) : “166,717”, “130,673”, “183,900”, “138,696”, “66,324”, “69,781”, “77,523”

- 결측값 확인 결과

컬럼명  결측값
접수연도 0
자치구코드 0
자치구명 1
법정동코드 0
법정동명 0
지번구분 57,571
지번구분명 57,571
본번 57,562
부번 57,562
건물명 57,549
계약일 0
물건금액(만원) 0
건물면적() 0
토지면적() 164,790
57,495
권리구분 826,000
취소일 808,073
건축년도 3,416
건물용도 0
신고구분 608,270
신고한 개업공인중개사 시군구명 649,698
# Total_index 833,614

- 인사이트 도출이 어렵거나 쓸모 없는 컬럼

a. 접수연도 : 뒤에 설명하겠지만 데이터가 접수된 연도에 대한 컬럼! 데이터의 핵심은 가격, 계약일이니 무시해도 되는 컬럼! # 무쓸모

b. 자치구 코드, 법정동 코드, 지번구분 : 말 그대로 정수형으로 이루어진 값으로 행이 이루어진다. # 무쓸모

c. 자치구명, 법정동명, 지번구분명 : 해당 부동산 거래 데이터의 [‘지역’]에 해당하는 컬럼! 해당 지역의 ’, ‘’, ‘지번’(4개의 정수로 구성)으로 나타난다. # ‘지번구분명의 경우 너무 디테일하고 세세한 데이터! 따라서 큰 의미는 없다!

d. 신고구분, 신고한 개업공인중개사 시군구명 : 21년부터 신고구분, 신고한 공인중개사 관련 값이 등장한다. # 무쓸모

e. 취소일, 권리구분 : 결측값이 너무 많아 사용하기 어려움! 또한 다른 컬럼과 조합한다고 해도 인사이트, 결과값이 유의미하지 않음.


  • 5주차 회고

- 파이썬 관련 개인 공부 내용을 소화할 시간 없이 바로 프로젝트에 임하게 되어 걱정이 앞서지만 현재 할 수 있는 것들을 모조리 동원하여 코드도 짜고 시각화에 도전하고 있다. 복습해야할 것과 발표준비도 있는 만큼 스트레스를 많이 받겠지만 걱정하지 말고 일단 부딪히고자 한다.


  • 다음 주 할 일

1. 프로젝트 마무리

2. 파이썬 강의 마무리 및 정리

3. SQL 및 파이썬 과제 도전