카테고리 없음

데이터 분석 트랙 27일차 (25.03.24.) TIL

jjaio8986 2025. 3. 24. 22:14
  • 기초프로젝트 발표 도입부 준비

0. 기초프로젝트의 핵심 : ON AIR 분석 절차 기반 기초 프로젝트수행

0.1. Objective (목표)

 - 프로젝트 목표: 이 프로젝트의 주요 목표를 명확히 기술합니다. 어떤 문제를 해결하고자 하는지 또는 어떤 비즈니스 목표를 달성하려는지를 설명합니다.

 - 예상 결과물: 이 프로젝트를 통해 기대되는 결과물과 도출하고자 하는 인사이트를 명시합니다.

 

# 공공데이터[부동산 가격 시장]를 활용해 대략적인 고객 유형을 설정! 그리고 고객에게 맞춤형 부동산 시장 분석 결과를 보고한다

# , 고객에게 제안할 부동산 추천 보고서를 작성

 

0.2. Necessary data (데이터)

 - 데이터 소스: 사용할 데이터의 출처를 설명하고, 필요한 데이터 유형과 범위를 명시합니다.

 - 데이터 수집 계획: 데이터를 수집하기 위한 계획과 방법을 기술합니다. 데이터 수집의 정확성과 완전성을 보장하기 위한 조치를 고려합니다.

# 데이터 원천 : “서울열린데이터광장” > “공공데이터” > “데이터셋” > “서울시 부동산 실거래가 정보https://data.seoul.go.kr/dataList/OA-21275/S/1/datasetView.do

# 데이터 수집 계획 : 현재 분석을 수행하는 입장에서 분석에 수행할 데이터를 데이터 원천으로부터 수집하여 분석할 것

 

0.3. Analytics (분석)

분석 방법: 사용할 데이터 분석 기법과 모델을 선정하고, 분석을 위한 절차를 설명합니다.

데이터 처리: 데이터를 정제하고 전처리하는 방법을 기술하고, 분석에 필요한 데이터의 품질을 확인합니다.

시각화 계획: 데이터를 시각적으로 표현하여 인사이트를 도출하는 계획을 제시합니다.

# 데이터 정제 및 전처리 방법 : Python의 기본문법과 다양한 라이브러리를 활용

"결측치 처리, 이상치 처리, 목표에 불필요한 컬럼 제거, 데이터 테이블 통합, '.head()', '.info()'의 메소드를 통해 확인한 각 컬럼 별 인사이트확인"

 

# 데이터 및 컬럼의 특징을 확인하기 위해 컬럼의 특징 및 인사이트 찾기! 컬럼 자체의 특성을 시각화!

[, “지역”, “시기”, “가격”, “추가 분석 옵션처럼 컬럼을 대분류! 혹은 지역[자치구명]별 거래횟수”, “시기[접수연도]별 거래횟수”, “전체 데이터의 가격 정보 확인처럼 컬럼의 특성을 확인하기.]

 

# 최종적으로 선정 고객에게 제공할 결과물(시각화자료, 보고서)을 정리하여 보고!

중요! 이번 기초프로젝트는 결과보고서를 보는 게 목적이 아님!

 - 분석의 최종 목표는 "결과보고서"이지만 현재 개인의 수준 상 ‘데이터 전처리시각화’가 핵심적인 부분이다. 

 

0.4. Interpretation (해석)

분석 결과 해석: 분석 결과를 해석하고, 비즈니스에 어떻게 적용할 수 있는지를 설명합니다.

인사이트 도출: 데이터에서 도출된 인사이트와 향후 전략 수립을 위한 제안을 제시합니다.

 

# 우선 전처리 및 시각화 결과물[데이터 전처리, 컬럼별 특징]을 확인 > 고객 유형 및 타겟팅을 하여 컬럼을 조합한다 > 결과물을 확인 인사이트를 도출 > 

cf) 컬럼 특성 확인과 컬럼별 조합 후 인사이트 확인은 다르다! 여기서의 인사이트 즉, 컬럼별 조합의 결과물이 우리가 고객에게 추천할 보고서의 재료가 되는 것임! 앞의 데이터 전처리’, ‘컬럼별 특징컬럼별 조합과 다르다

 

0.5. Report (보고)

보고서 구조: 보고서의 구조와 형식을 정의하고, 어떤 정보를 포함할 것인지를 설명합니다.

시각화 활용: 보고서에 사용할 시각화 도구 및 방법을 결정하고, 강조할 요소를 구체화합니다.

보고서 작성 일정: 보고서 작성 및 발표 일정을 계획하고, 이를 관리할 방법을 기술합니다.

 

1. 선정 주제 설명

 1.1. 주제 개요

  - 기초프로젝트 주제는 “[공공데이터] 서울시 부동산 데이터 분석

  - 데이터 원천 : 서울열린데이터광장” >서울시 부동산 실거래가 정보입니다.

  - 프로젝트 요구사항 : 분석 기간 동안

 

a. “거주 목적 매수 고객

b. “투자 목적 매수 고객

c. “매도 희망자

 

이들 중 하나 혹은 여러 고객 유형을 선정하여 해당 고객 요청을 가정한 뒤 데이터분석을 시행한다. 분석 결과를 바탕으로 매물 추천과 최적의 매매 전략 제시

{출처} : https://data.seoul.go.kr/dataList/OA-21275/S/1/datasetView.do

 

 

1.2. 부동산의 특징

- 부동산의 경우 외부요인의 영향을 많이 받아 예측하기 쉽지 않다.

- 부동산은 세법, 공인중개업 전문지식, 경제 및 정치이슈 등등 상당히 전문적인 도메인 지식이 필요한 영역이다. [쉽게 분석하기 힘든 영역]

- 그렇기에 주어진 데이터(2018~2024년에 접수서울시 실제 부동산 시장의 거래 매물 정보)를 분석! > 그 내용을 참고용도로[수비적으로] 고객에게 제안하는 정도의 보고서 제작을 목표로 해야 한다!

cf) 외부요인의 예시

<건물 가격 상승>

a. 미국 금리인상, 건축자제 인상 ==> "건설 중인 건물"의 경우 자제의 비용이 추가적으로 늘어나 기존 분양 외에 추가 분양 시 가격이 크게 오른다.

b. 재개발 이슈, 인프라 관련 이슈(ex.경전철 노선 신설) ==> 해당 지역의 건물 및 토지 즉 부동산 가치가 상승한다.

 

2. 분석 방향 설명

2.1. 데이터 분석의 방향과 목표

- 데이터를 분석하는 방향은 정형화되어 있지 않다!

ex. “자치구별로 인사이트를 뽑겠다!”, “가격 별로 인사이트를 뽑겠다.”, “아파트를 투자자가 많이 원할 것이다.” 와 같이 특정한 분석 목표에 도달하기 위한 도구들, 방법들은 다양하다.

 

- 단, 명확하고 확실한 "분석 목표"를 설정해야 한다!

- 기초 프로젝트를 통해 최종적으로 수행하고자 하는 목표는 다음과 같다.

 

목표 A. 고객 맞춤형 매물 추천

혹은

목표 B. 고객 맞춤형 매매전략의 제시

크게 2가지 분석 보고 내용예시가 있음! 고객의 유형은 매수와 매도, 매수는 거주목적매수와 투자목적 매수로 나뉜다.

 

- “도메인 지식은 전문가의 그것보다 부족하고, 부동산은 외부 요인을 특히나 많이 받기 때문에 먼저 부동산 시장이라는 지나간 부동산 거래내역 데이터(2018~2024)를 뜯어볼 것이다.

- 원천 데이터라고 해도 그들이 데이터를 수집하는 방식[법적으로 부동산 계약일로부터 60일 이내에 부동산 거래 신고가 이루어져야한다!]이 다를 것이며, 그것을 저장하는 방식도 다를 것이다. 따라서 분석하기 편하게 데이터를 전처리를 할 필요가 있다.

[‘결측치 처리’, ‘이상치 처리’, ‘목표에 불필요한 컬럼 제거’, ‘데이터 테이블 통합’, ‘.head(), info() 등의 메소드를 통한 각 컬럼 별 인사이트!’]

cf)<데이터 전처리의 예시> “이상치” : 우리가 분석함에 있어 이상한 데이터!

'접수연도'가 2018년인데 '계약일'이 2019420일인 경우 :  데이터 풀은 2018년부터 2024년까지의 실제 부동산 거래 내역을 담은 것이나 데이터 원천의 데이터소스는 저장방식이 다르기에 이상치가 생성된것! 현재 분석목표는 2018~2024년도의 부동산시장의 파악이 필요하기에 2018년 이전 계약일은 전체 83만개 기준 1만건이 안되니 이상치로 처리할 수 있음.