- 기초프로젝트 발표 도입부 준비
0. 기초프로젝트의 핵심 : ON AIR 분석 절차 기반 기초 프로젝트수행
0.1. Objective (목표)
- 프로젝트 목표: 이 프로젝트의 주요 목표를 명확히 기술합니다. 어떤 문제를 해결하고자 하는지 또는 어떤 비즈니스 목표를 달성하려는지를 설명합니다.
- 예상 결과물: 이 프로젝트를 통해 기대되는 결과물과 도출하고자 하는 인사이트를 명시합니다.
# 공공데이터[부동산 가격 시장]를 활용해 대략적인 고객 유형을 설정! 그리고 고객에게 맞춤형 부동산 시장 분석 결과를 보고한다.
# 즉, 고객에게 제안할 부동산 추천 보고서를 작성
0.2. Necessary data (데이터)
- 데이터 소스: 사용할 데이터의 출처를 설명하고, 필요한 데이터 유형과 범위를 명시합니다.
- 데이터 수집 계획: 데이터를 수집하기 위한 계획과 방법을 기술합니다. 데이터 수집의 정확성과 완전성을 보장하기 위한 조치를 고려합니다.
# 데이터 원천 : “서울열린데이터광장” > “공공데이터” > “데이터셋” > “서울시 부동산 실거래가 정보” https://data.seoul.go.kr/dataList/OA-21275/S/1/datasetView.do
# 데이터 수집 계획 : 현재 분석을 수행하는 입장에서 분석에 수행할 데이터를 “데이터 원천”으로부터 수집하여 분석할 것
0.3. Analytics (분석)
분석 방법: 사용할 데이터 분석 기법과 모델을 선정하고, 분석을 위한 절차를 설명합니다.
데이터 처리: 데이터를 정제하고 전처리하는 방법을 기술하고, 분석에 필요한 데이터의 품질을 확인합니다.
시각화 계획: 데이터를 시각적으로 표현하여 인사이트를 도출하는 계획을 제시합니다.
# 데이터 정제 및 전처리 방법 : Python의 기본문법과 다양한 라이브러리를 활용
"결측치 처리, 이상치 처리, 목표에 불필요한 컬럼 제거, 데이터 테이블 통합, '.head()', '.info()'의 메소드를 통해 확인한 각 컬럼 별 인사이트확인"
# 데이터 및 컬럼의 특징을 확인하기 위해 컬럼의 특징 및 인사이트 찾기! 컬럼 자체의 특성을 시각화!
[즉, “지역”, “시기”, “가격”, “추가 분석 옵션”처럼 컬럼을 대분류! 혹은 “지역[자치구명]별 거래횟수”, “시기[접수연도]별 거래횟수”, “전체 데이터의 가격 정보 확인”처럼 컬럼의 특성을 확인하기.]
# 최종적으로 선정 고객에게 제공할 결과물(시각화자료, 보고서)을 정리하여 보고!
중요! 이번 기초프로젝트는 “결과보고서”를 보는 게 목적이 아님!
- 분석의 최종 목표는 "결과보고서"이지만 현재 개인의 수준 상 ‘데이터 전처리’ 및 ‘시각화’가 핵심적인 부분이다.
0.4. Interpretation (해석)
분석 결과 해석: 분석 결과를 해석하고, 비즈니스에 어떻게 적용할 수 있는지를 설명합니다.
인사이트 도출: 데이터에서 도출된 인사이트와 향후 전략 수립을 위한 제안을 제시합니다.
# 우선 전처리 및 시각화 결과물[데이터 전처리, 컬럼별 특징]을 확인 > 고객 유형 및 타겟팅을 하여 컬럼을 조합한다 > 결과물을 확인 인사이트를 도출 >
cf) 컬럼 특성 확인과 컬럼별 조합 후 인사이트 확인은 다르다! 여기서의 인사이트 즉, 컬럼별 조합의 결과물이 우리가 고객에게 추천할 보고서의 재료가 되는 것임! 앞의 ‘데이터 전처리’, ‘컬럼별 특징’은 ‘컬럼별 조합’과 다르다
0.5. Report (보고)
보고서 구조: 보고서의 구조와 형식을 정의하고, 어떤 정보를 포함할 것인지를 설명합니다.
시각화 활용: 보고서에 사용할 시각화 도구 및 방법을 결정하고, 강조할 요소를 구체화합니다.
보고서 작성 일정: 보고서 작성 및 발표 일정을 계획하고, 이를 관리할 방법을 기술합니다.
1. 선정 주제 설명
1.1. 주제 개요
- 기초프로젝트 주제는 “[공공데이터] 서울시 부동산 데이터 분석”
- 데이터 원천 : “서울열린데이터광장” >“서울시 부동산 실거래가 정보”입니다.
- 프로젝트 요구사항 : 분석 기간 동안
a. “거주 목적 매수 고객”
b. “투자 목적 매수 고객”
c. “매도 희망자”
이들 중 하나 혹은 여러 고객 유형을 선정하여 해당 고객 요청을 가정한 뒤 데이터분석을 시행한다. 분석 결과를 바탕으로 매물 추천과 최적의 매매 전략 제시
{출처} : https://data.seoul.go.kr/dataList/OA-21275/S/1/datasetView.do
1.2. 부동산의 특징
- 부동산의 경우 외부요인의 영향을 많이 받아 예측하기 쉽지 않다.
- 부동산은 세법, 공인중개업 전문지식, 경제 및 정치이슈 등등 상당히 전문적인 도메인 지식이 필요한 영역이다. [쉽게 분석하기 힘든 영역]
- 그렇기에 주어진 데이터(2018~2024년에 ‘접수’된 서울시 실제 부동산 시장의 거래 매물 정보)를 분석! > 그 내용을 “참고” 용도로[수비적으로] 고객에게 제안하는 정도의 보고서 제작을 목표로 해야 한다!
cf) 외부요인의 예시
<건물 가격 상승>
a. 미국 금리인상, 건축자제 인상 ==> "건설 중인 건물"의 경우 자제의 비용이 추가적으로 늘어나 기존 분양 외에 추가 분양 시 가격이 크게 오른다.
b. 재개발 이슈, 인프라 관련 이슈(ex.경전철 노선 신설) ==> 해당 지역의 건물 및 토지 즉 부동산 가치가 상승한다.
2. 분석 방향 설명
2.1. 데이터 분석의 방향과 목표
- 데이터를 분석하는 “방향”은 정형화되어 있지 않다!
ex. “자치구별로 인사이트를 뽑겠다!”, “가격 별로 인사이트를 뽑겠다.”, “아파트를 투자자가 많이 원할 것이다.” 와 같이 특정한 분석 목표에 도달하기 위한 도구들, 방법들은 다양하다.
- 단, 명확하고 확실한 "분석 목표"를 설정해야 한다!
- 기초 프로젝트를 통해 최종적으로 수행하고자 하는 목표는 다음과 같다.
목표 A. 고객 맞춤형 매물 추천
혹은
목표 B. 고객 맞춤형 매매전략의 제시
※ 크게 2가지 분석 보고 내용예시가 있음! 고객의 유형은 매수와 매도, 매수는 거주목적매수와 투자목적 매수로 나뉜다.
- “도메인 지식”은 전문가의 그것보다 부족하고, 부동산은 외부 요인을 특히나 많이 받기 때문에 먼저 부동산 시장이라는 지나간 부동산 거래내역 데이터(2018~2024년)를 뜯어볼 것이다.
- 원천 데이터라고 해도 그들이 데이터를 수집하는 방식[법적으로 부동산 계약일로부터 60일 이내에 부동산 거래 신고가 이루어져야한다!]이 다를 것이며, 그것을 저장하는 방식도 다를 것이다. 따라서 분석하기 편하게 데이터를 전처리를 할 필요가 있다.
[‘결측치 처리’, ‘이상치 처리’, ‘목표에 불필요한 컬럼 제거’, ‘데이터 테이블 통합’, ‘.head(), info() 등의 메소드를 통한 각 컬럼 별 인사이트!’]
cf)<데이터 전처리의 예시> “이상치” : 우리가 분석함에 있어 이상한 데이터!
'접수연도'가 2018년인데 '계약일'이 2019년 4월 20일인 경우 : 데이터 풀은 2018년부터 2024년까지의 실제 부동산 거래 내역을 담은 것이나 데이터 원천의 데이터소스는 저장방식이 다르기에 이상치가 생성된것! 현재 분석목표는 2018~2024년도의 부동산시장의 파악이 필요하기에 2018년 이전 계약일은 전체 83만개 기준 1만건이 안되니 이상치로 처리할 수 있음.