내일배움캠프

데이터 분석 트랙 16일차 (25.03.11.) TIL

jjaio8986 2025. 3. 11. 20:48

[목차]

  • 파이썬 라이브 강의 정리

  • 파이썬 라이브 강의 정리

 1. SQL vs Python

  - SQL : 문법이 확실하고 정확한 지시를 통해 데이터 베이스에 접근하는 언어

  - Python : 데이터 베이스에 대한 접근 외에 통계, 머신러닝, 데이터 시각화 등 다양한 기능을 수행하는 프로그래밍 언어

  - 데이터 분석에 특화된 SQL이 먼저 개발되고 이를 활용하여 더 많은 기능을 수행하기 위한 Python이 등장하게 된다.

  - Python을 통해 SQL보다 더 많은 연산을 쉽고, 빠르게 수행할 수 있다. 그러나 데이터 분석 프로젝트를 수행하며 두 언어를 같이 사용하는 방향으로 숙련하는 것이 좋다. 

 

2. 라이브러리와 pandas

 - 알고리즘 : 어떠한 연산을 위한 프로그래밍 코드를 짜는 것을 의미한다.

데이터 분석가의 주된 영역은 아니지만 이미 프로그래밍 된 알고리즘[라이브러리, 자주 쓰는 함수들의 묶음]들을 사용하기 때문에 개념 및 자주 사용하는 대상의 이름들을 기억해 두는 것이 좋다.

 - 라이브러리 : 알고리즘의 묶음을 의미하며 pandas, numpy와 같은 함수묶음들이 있다.

 - 라이브러리 호출법 : 라이브러리를 사용하기 위해선 라이브러리를 파이썬 프로그램에 호출해야 한다.

  a. 해당 라이브러리 전체의 내용을 불러오기 : "import 라이브러리명1 as 별칭1"

    # 사용할 라이브러리를 호출 후 그 이름을 별칭1로 부여하겠다.

  b. 라이브러리의 부분(ex. 필요한 함수)만 불러오기 : "from 함수명1.라이브러리명1 as 별칭1"

    # 라이브러리 내의 함수명 1을 호출 후 그 이름을 별칭1로 부여하겠다.

 

 2.1. pandas

  - 데이터를 다루기 위한 가장 기본적인 라이브러리(모듈)이다. [추가적으로 수학적 연산을 위한 대중적인 라이브러리 "numpy"가 있다.]

  - 가공된 데이터셋(json, html, csv, hdf5, sql) 혹은 원시적인 데이터를 공통된 'dataframe'[행과 열로 이루어진 2차원 표, 통]으로 통일해서 표현해준다.

  ex. import pandas as pd

        pd.read_csv     # "csv 형태의 파일을 pd 형식으로 보겠다." 즉, 엑셀이나 json 등등pd 형태로도 볼 수 있게 된다.

 

[add) pandas를 사용하면 저분한 데이터 전처리를 할 필요가 없이 로우(원시) 데이터를 가져와 사용자가 보기 쉽게 표현하는 것이 가능해진다.]

 

  - 판다스 시리즈는 원시 데이터를 1차원 배열! 모든 유형의 데이터를 보유하는 1차원 배열! 1개의 열 구성된 리스트형태로 표현한다.

 ex. 과일 = [딸기, , 복숭아, ...]