- 머신러닝 [개요]
1. 정의
- 컴퓨터가 인간의 개입 없이(또는 최소한으로)데이터를 학습하여 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행하는 기술
- 머신러닝의 3대 요소 : "데이터", "알고리즘(머신러닝의 모델)", "컴퓨팅 파워"
- [인공지능 : AI, 사람의 지능적 작업을 기계가 수행하게 하는 광범위 개념] >
[머신러닝 : 데이터에서 특징, 규칙을 학습 || AI 실현 방법 중 하나] >
[딥러닝 : 머신러닝 하위분야, 사람 뇌신경을 본 떠 만든 인공신경망을 여러 겹 쌓아 복잡한 정보 학습]
2. 머신러닝 vs 기초 통계 분석
구분 | 머신러닝 | 기초 통계 분석 |
목적 | - 패턴의 학습을 통한 예측 - “얼마나 잘?” # 정확도와 재현률 등에 초점 - 새롭게 들어오는 데이터와 관련 |
- 가설의 검증 및 추론 - “왜?” # 인과관계에 초점 - 기존에 쌓여있는 데이터와 관련 |
데이터 多 | - 데이터가 많을수록 학습에 유리 - 더 좋은 모델을 만들 수 있다. |
- 표본 수가 커질수록 정교한 추론 가능 - 가설은 사람이 세운다 - 데이터가 적어도 사람이 커버 가능 |
방법론 | A. 지도학습 - 분류(Classification) - 회귀(Regression) B. 비지도학습 - 군집화(Clustering) - 차원 축소 (Dimensionality Reduction) C. 강화 학습 |
A. “기초통계” - 데이터 위치 및 분포 B. “유의성 검정” - A/B테스트, 가설 검정(t-test, 다중검정 || 카이제곱검정, 독립성검정) C. “회귀 분석” - 단순/다중 선형 회귀 || 다항회귀, 스플라인 회귀 D. “상관 관계” - 피어슨 || 스피어만, 켄달 상관계수 |
핵심 | - 머신러닝, 통계 분석은 별개의 분석 기법이 아니다. # 즉, 서로 연관이 있는 분석의 기법들이며 상황에 따른 적절한 활용이 필요하다. # 기초 통계 분석에서 수행할 수 있는 방법들은 머신러닝에서도 가능하다! |
3. 머신러닝(a.k.a. 모델링)의 프로세스
A. [데이터 수집]
- 정의 : 말 그대로 데이터를 수집하는 것!
- 웹 크롤링, 센서 측정, 설문조사, DB 추출 등 다양한 방법 존재
B. [전처리 (Preporcessing)] # 사용하려는 [모델] 혹은 [목적]에 따라 B.c.의 기법은 선택적으로 적용,
B.a. [결측치 처리] : 빈 칸을 평균, 최빈값으로 대신 채우거나, 필요시 빼고(삭제) 분석
B.b. [이상치 처리] : 대부분의 데이터 범위에서 심하게 벗어난 값을 해결
# [머신러닝 기법] > [이상치 처리] 기법을 활용가능.
B.c.1. [스케일링](표준화, 정규화) : 각각 다른 단위를 쓰는 데이터(cm, kg, m^2 등)를 비슷한 수준으로 맞춰주는 작업
B.c.2. [범주형 변환] : 글자로 된 정보를 숫자로 바꿔주는 과정 # 원-핫 인코딩, 레이블 인코딩
B.d. [모델링] : [지도학습]-[분류, 회귀], [비지도학습]-[클러스터링, 차원축소]
# 실제 모델 적용 전에 해야할 다양한 작업들 [차원축소(PCA), 이상탐지(Z-score, Isolation Forest) 등등을 수행. 머신러닝의 모델에 따른 별도의 전처리 작업을 거친다!]
C. [모델 학습] 및 [성능 평가(Evaluation)]
C.a. [모델 학습] : 앞선 전처리 작업을 통해 머신러닝 학습의 초기 설정값을 확인하고 학습을 시작, 가장 이상적인 결과값[성능]이 나오는 모델을 찾는다.
# 즉, 데이터를 가장 잘 설명하는 (컬럼, 속성)조합을 찾고 시각화(확인하기)한다.
# 지도학습에선 다음과 같은 평가지표가 있지만, 비지도학습은 가장 이상적인 레이블, 구분기준을 찾는 것이 목적! 그렇기에 평가지표는 없다. 다만, 모델 학습 초기 설정값에 참고할 지표가 있다.
C.b. [성능 평가 (Evaluation)]
- 분류 : Accuracy, Precision, Recall, F1=score, ROC-AUC 등으로 평가
- 회귀 : MAE, RMSE, R^2 등으로 평가
- 비지도(군집) : 실루엣 계수 등으로 평가
※ 머신러닝을 돌리는 목표는 '예측' 혹은 '패턴'의 확인 및 그 '활용'이다. 따라서 데이터를 목적에 따라 아주 잘 설명하는 모델이 나올 때까지 모델링을 반복한다!
'머신러닝' 카테고리의 다른 글
머신러닝 학습 정리 [전처리] (0) | 2025.04.20 |
---|