[목차]
1. 팀 아티클 스터디
2. 라이브 세션 인사이트 정리
1. 팀 아티클 스터디 - "데이터 아키텍처? 쉽게 배워봅시다"
https://yozm.wishket.com/magazine/detail/2396/
데이터 아키텍처? 쉽게 배워봅시다 | 요즘IT
오늘은 데이터 아키텍처에 대한 이야기를 나누려고 합니다. 처음 접하면 낯설고 복잡할 수 있지만, 함께 차근차근 알아보면 더 이해하기 쉬울 거에요. 데이터 아키텍처(Data Architecture)는 조직이
yozm.wishket.com
1.1. 아티클 요약
- - 데이터는 그 자체로 중요하나, 그것의 활용에 따라 그 가치가 전면 발휘된다. 그러한 점에서 데이터 아키텍처(Data Architecture)가 무엇보다 중요하다.
- 데이터 아키텍처는 조직의 데이터 베이스 구축(데이터웨어하우스, 데이터마트, 레이크)과 과정(ETL)을 의미한다.
- 데이터 아키텍처를 통해 기업은 '효율적 데이터 관리, 접근', '데이터 활용 성능 향상(처리속도)', '맞춤 데이터 제공(효율적 의사소통)', '보안 및 데이터 보호'의 이점을 얻을 수 있다.
- 데이터 아키텍처는 또한 '기업 내-외부', '개발 및 테스트', '일반 운영 및 행정', '전문영역' 등 다양한 분야에서 활용될 수 있다.
1.2. 아티클 핵심 개념 및 관련 용어
- 아티클 핵심 개념 : 데이터 아키텍처, 데이터 추출 및 보관 방식(ETL, 데이터 마트, 데이터 웨어하우스, 데이터 레이크)
- 관련 용어
- “데이터 거버넌스” : 데이터 품질, 보안, 사용 정책 관리체계
- “확장성” : 시스템이 증가하는 데이터 양 혹은 사용자 수에 대응하는 능력
- “데이터 품질” : 데이터 정확, 신뢰, 일관성을 나타내는 지표
1.3. 인사이트
- 공통 인사이트 : 데이터 ‘분석’, ‘활용’ 단계 이전에 가장 최초의 단계인 데이터 ‘수집’과 ‘저장’단계와 연관된 ”데이터 아키텍처”란 무엇인지, 또 데이터 저장소의 종류와 그것의 분류, 이점, 활용 범위를 알 수 있었다.
- 개인 인사이트
- 데이터 엔지니어가 단순 데이터의 수집 및 활용 환경 구현을 하는 것이라고 대략적으로 이해했지만, 데이터의 저장을 어떻게 하는 지에 따라 업무의 시작 혹은 업무 자체의 효율성 및 신속성을 어떻게 잘 높이는지 잘 알 수 있었다.
- 특히, 데이터 레이크에서 원천 데이터마저 저장한다는 점에서 데이터의 추출 혹은 가공하는 도중에 오류 혹은 필요함에도 누락된 데이터도 있을 것인데, 그 가능성을 차단할 수 있다는 점에서 흥미로웠다.
- 개인적으로 PM 혹은 CRM 마케팅 쪽으로 진로를 생각하고 있었다. 2024년 구글의 서드파티 쿠키 활용 제한으로 PM의 활동(특히 신규 고객 유치)에 큰 제약이 있을 것이라고 생각했는데, 내가 일하게 될 곳에서 이러한 데이터 아키텍처가 잘 구현되어 있다면, 걱정을 덜 수 있겠다고 생각하게 되었다.
- “데이터 환경 구축(데이터 아키텍처)”에 관한 역량 혹은 작업 경험이 ‘데이터 사이언티스트’와 ‘데이터 엔지니어’ 사이의 핵심적인 차이점으로 보여진다. 따라서 이것을 잘 숙달하면 사이언티스트와 엔지니어 양자에 ‘활용’ 내지 ‘직무 경계를 허무는 것’ 마저 노려볼 수 있을 것 같다.
- 데이터의 저장을 어떻게 하는 지에 따라 업무의 시작 혹은 업무 자체의 효율성 및 신속성을 어떻게 잘 높이는지 잘 알 수 있었다.
- “데이터 레이크”에서 (비, 반)정형 데이터 즉, 원천 데이터를 보관할 수 있다는 점에서 차후 가공함에 발생하는 오류를 미연에 방지하고, 필요에 맞춰서 언제든 가공할 수 있다는 점이 흥미로웠다.추가적 인사이트
2. 튜터 라이브 세션 인사이트
2.1. 이준수 튜터님 (8년차 데이터 분석가)
- 앞으로 캠프에서 진행하게 될 기초~최종 프로젝트에 대해서 잘 알아야 한다. 단순히 프로젝트를 한다는 것이 아니라 "내가 왜 이 프로젝트에서 A모델을 사용했고, B모델을 사용하지 않았는지" 나의 프로젝트의 세부사항 및 주인의식을 가지고 임해야 차후 남아있는 것이 있을 것이며 최종적으로 면접, 포트폴리오에서도 하나의 필살기가 될 것이다.
- 도메인에 대한 이해와 관련하여, 현 단계에선 전문적인 수준의 도메인 이해를 할 수 없을 것임. 차후 신입으로 들어가게 되더라도(데이터 분석가로서) 도메인 이해는 도메인 관련 전문가와 협업하거나, 인터뷰를 통해 얻는 지식수준으로 활동할 수 있음. 물론 도메인마다 요구되는 이해수준과 그에 따른 업무난이도가 있으니 주의해야 한다. 가령 증권이나 금융은 자격증을 따는 수준, 이커머스는 도메인 요구치가 낮다.
- 머신러닝 및 딥러닝(Scikit-learn, tensorflow, pytorch) 데이터 전처리 및 ETL(spark, airflow) 모델 해석 및 평가(shapley values, ROC curves)에 사용되는 툴들이 있다. 차후 나아가고자 하는 도메인과 회사에 맞춰 익혀두기!
- 데이터 엔지니어링엔 "spark, hadhop"와 같은 툴을 사용하나 공통적으로 파이썬이다! 파이썬을 숙련한 뒤에 툴들을 익힌다.
- "파이썬 코드 기반 통계학"관련 책이 있다. 통계학을 배우면서 동시에 파이썬을 배울 수 있으니 참고하자.
2.2. 설무아 튜터님 (연구 및 개발 관점에서의 데이터 분석)
- 최근에는 데이터 직군이 모든 영역에서 사용된다. 여기서 나아가 경쟁력 있는 데이터 직군 스킬을 가지기 위해 '인공지능'과 '딥러닝'과 마주칠 수밖엔 없다. 그 시작 발판으로 '머신러닝'을 우선적으로 배우는 것을 추천한다! 『혼자 공부하는 머신러닝』책이 차후 도움이 될 것이다.
- 데이터 분석가로 나아가지 않더라도 데이터 분석은 SE(system engineer) 혹은 AI쪽에 도움이 된다. 인공지능과 머신러닝의 핵심은 '학습'이 아니라 '데이터'자체이다.(자연어 처리와도 연관) 관련이 없을 수가 없으니 데이터 분석 스킬을 익혀둔다.
- 추가적으로 LLM과 같은 핫한 AI기술에 대한 토픽을 이해하고 기사를 스크랩하는 것은 관련 이해도를 높이는 것과 동시에 차후 취업 및 직업 경쟁력을 높일 수 있다.
2.3. 전소현 튜터님 (8년 경력 데이터 분석 및 사이언티스트)
- 주된 도메인은 게임이다. 하지만 데이터 분석가로서 주로 한 일은 데이터 분석 집중 업무보다 활용 업무가 많다.(AARRR을 통한 '퍼널분석', VVIP customer 대시보드 설계, 분석 리포트 작성(카니발리제이션! 신규 서비스 런칭으로 인한 기존 서비스의 영향 분석) 등 개인적으로 생각하던 CRM 마케터의 모습과 상당히 밀접해 보였다.
[눈에 CRM 필터가 걸린지도 모르겠다... 모든 것이 잘 알지도 못하는 CRM으로 보인다.] - 데이터 분석에 있어 그 해석은 천차만별이다. 가령 캠프의 기초 프로젝트에서 5~6개의 문제를 줄 것인데 하나의 문제에 대해서 다양한 해석이 나온다. 개인적으로 이미 완결되었다 생각한 하나의 인사이트가 다른 인사이트를 도출할 수 있다고 생각하기에 이미 완성된 앞선 기수 혹은 다른 데이터 분석 관련 프로그렘들의 프로젝트 신문기사를 읽어봐야겠다.
- 데이터 엔지니어를 찬양하고 내 할일을 늘리는 팀원들과 밀당하라...기 보단 업무의 자동화! 데이터 분석 및 제공에서 멈추지 말고 내 업무를 자동화하고 유의미한 인사이트를 도출할 수 있는 머신러닝을 배우자!
- 데이터 사이언티스트는 시스템과 관련 계속 고민하는 사람이다. SQL과 파이썬, spark 및 DB 파이프라인 설계능력(오류 및 서비스 장애 관리)이 무엇보다 중요하다.
- 한 ip에서 오래하는 것은 아주 안정적일 수 있으나 인사이트 고갈이 일어날 수 있다. 새로운 시각, 넓은 관점, 참신한 인사이트를 위한 지속적인 도전이 필요하다. [
이직은 3년 까지 버텨라! 그전에 취업부터 해결하자...]
2.4. 서정욱 튜터님.(AI 박사 과정! 전문가!)
- AI 최신 트렌드 = "대체(대안) 데이터(Alternative data)"는 남들이 사용하지 않는, 비일반적인 정보 출처를 가리키는 대안적(alternative) 데이터 소스를 사용해 수집한 정보이다. 한정적인 데이터 풀에서 머신러닝, 딥 러닝을 하기위한 아주 좋은 트렌드!잘 알아두기!
- LLM도 핫하지만 기업은 추천 시스템('협업 필터링', '컨텐츠기반')을 좋아한다.
- 챗봇(고객응대), 제품-서비스 추천, 마케팅 자동화, 감정분석 도구 등등 인공지능의 수요가 높아지는 만큼 AI수요가 증가하고 있다.
※ 도메인에 대한 이해 및 요구는 끊임없으며 뛰어난 분석실력보다 안정적인 서비스제공의 측면이 중요하다(데이터 엔지니어 관점에서 신입 데이터분석가에게) 인사이트 도출은 이미 시니어가 있고 그들이 구축한 파이프라인도 있을 것이다. 신입이 시니어만큼의 인사이트를 도출하는 것은 누구나 당연하게 생각하지만 거의 불가능에 가까울 것이다(중고신입제외) 그러한 점에서 기본적인 기술과 추가적인 기술이 필요하다. SQL은 프로그레머스 상급 문제를 풀 수 있을 정도(시간 상관없이 풀 수 있기만 하면 된다!), 앞서 나열한 다양한 툴들에 대한 이해, 파이프라인 구축 및 관리 경험 등등 점차 데이터 분석가와 엔지니어의 경계가 모호해지며, 다양한 역량을 구비하고자 노력해야 한다!