머신러닝

머신러닝 학습 정리 [개요]

jjaio8986 2025. 4. 19. 20:07
  • 머신러닝 [개요]

1. 정의

 - 컴퓨터가 인간의 개입 없이(또는 최소한으로)데이터를 학습하여 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행하는 기술

 - 머신러닝의 3대 요소 :  "데이터", "알고리즘(머신러닝의 모델)", "컴퓨팅 파워"

 - [인공지능 : AI, 사람의 지능적 작업을 기계가 수행하게 하는 광범위 개념] >

   [머신러닝 : 데이터에서 특징, 규칙을 학습 || AI 실현 방법 중 하나] > 

   [딥러닝 : 머신러닝 하위분야, 사람 뇌신경을 본 떠 만든 인공신경망을 여러 겹 쌓아 복잡한 정보 학습]

 

2. 머신러닝 vs 기초 통계 분석

구분 머신러닝 기초 통계 분석
목적 - 패턴의 학습을 통한 예측
- “얼마나 잘?”
# 정확도와 재현률 등에 초점
- 새롭게 들어오는 데이터와 관련
- 가설의 검증 및 추론
- “?”
# 인과관계에 초점
- 기존에 쌓여있는 데이터와 관련
데이터  - 데이터가 많을수록 학습에 유리
- 더 좋은 모델을 만들 수 있다.
- 표본 수가 커질수록 정교한 추론 가능
- 가설은 사람이 세운다
- 데이터가 적어도 사람이 커버 가능
방법론 A. 지도학습
- 분류(Classification)
- 회귀(Regression)

B. 비지도학습
- 군집화(Clustering)
- 차원 축소
(Dimensionality Reduction)

C. 강화 학습
A. “기초통계
- 데이터 위치 및 분포

B. “유의성 검정
- A/B테스트, 가설 검정(t-test, 다중검정 || 카이제곱검정, 독립성검정)

C. “회귀 분석
- 단순/다중 선형 회귀 || 다항회귀, 스플라인 회귀

D. “상관 관계
- 피어슨 || 스피어만, 켄달 상관계수
핵심 - 머신러닝, 통계 분석은 별개의 분석 기법이 아니다.
# , 서로 연관이 있는 분석의 기법들이며 상황에 따른 적절한 활용이 필요하다.
# 기초 통계 분석에서 수행할 수 있는 방법들은 머신러닝에서도 가능하다!

 

3. 머신러닝(a.k.a. 모델링)의 프로세스

 A. [데이터 수집]

 - 정의 : 말 그대로 데이터를 수집하는 것!

 - 웹 크롤링, 센서 측정, 설문조사, DB 추출 등 다양한 방법 존재

 

 B. [전처리 (Preporcessing)]    # 사용하려는 [모델] 혹은 [목적]에 따라 B.c.의 기법은 선택적으로 적용,

  B.a. [결측치 처리] : 빈 칸을 평균, 최빈값으로 대신 채우거나, 필요시 (삭제) 분석

  B.b. [이상치 처리] : 대부분의 데이터 범위에서 심하게 벗어난 값을 해결

    # [머신러닝 기법] > [이상치 처리] 기법을 활용가능. 

  B.c.1. [스케일링](표준화, 정규화) : 각각 다른 단위를 쓰는 데이터(cm, kg, m^2 ) 비슷한 수준으로 맞춰주는 작업

  B.c.2. [범주형 변환] : 글자로 된 정보를 숫자로 바꿔주는 과정    # -핫 인코딩, 레이블 인코딩

  B.d. [모델링] : [지도학습]-[분류, 회귀], [비지도학습]-[클러스터링, 차원축소]   

    # 실제 모델 적용 전에 해야할 다양한 작업들 [차원축소(PCA), 이상탐지(Z-score, Isolation Forest) 등등을 수행. 머신러닝의 모델에 따른 별도의 전처리 작업을 거친다!]

 

 C. [모델 학습] 및 [성능 평가(Evaluation)]

  C.a. [모델 학습] : 앞선 전처리 작업을 통해 머신러닝 학습의 초기 설정값을 확인하고 학습을 시작, 가장 이상적인 결과값[성능]이 나오는 모델을 찾는다.   

 # 즉, 데이터를 가장 잘 설명하는 (컬럼, 속성)조합을 찾고 시각화(확인하기)한다.

 # 지도학습에선 다음과 같은 평가지표가 있지만, 비지도학습은 가장 이상적인 레이블, 구분기준을 찾는 것이 목적! 그렇기에 평가지표는 없다. 다만, 모델 학습 초기 설정값에 참고할 지표가 있다.

 

 C.b. [성능 평가 (Evaluation)]

  - 분류 : Accuracy, Precision, Recall, F1=score, ROC-AUC 등으로 평가

  - 회귀 : MAE, RMSE, R^2 등으로 평가

  - 비지도(군집) : 실루엣 계수 등으로 평가

 

※ 머신러닝을 돌리는 목표는 '예측' 혹은 '패턴'의 확인 및 그 '활용'이다. 따라서 데이터를 목적에 따라 아주 잘 설명하는 모델이 나올 때까지 모델링을 반복한다!

'머신러닝' 카테고리의 다른 글

머신러닝 학습 정리 [전처리]  (0) 2025.04.20