카테고리 없음

데이터 분석 트랙 12일차 (25.03.05.) TIL

jjaio8986 2025. 3. 5. 21:27

<데이터 리터러시란 무엇인가? (1)>

- 데이터 리터러시의 정의, 핵심, 데이터 분석가가 유의해야 할 것들에 대하여

 

[전체 목차]

1. 데이터 리터러시란?

2. "문제 정의"

3. "데이터의 유형"

4. "지표설정"

5. "결론 도출"

 

※ 오늘은 이 중에서 2번 목차까지 다루고자 한다.


1. 데이터 리터러시란?

 1.1. 정의

  - 흔히 문해력이라고 불리는 "리터러시"는 어떠한 대상을 접하게 될 때 그것을 '읽고', '이해'하는 능력을 말한다. 그렇기에 "데이터 리터러시"라는 개념을 들었을 때, 우리는 '데이터를 읽고 이해하는 능력'이라는 생각을 떠올리게 될 것이다.

  - 그러나 데이터 분석가에게 "데이터 리터러시"가 그러한 방식으로 이해되는 것이 올바른 해석일까? 데이터 분석가의 업무는 단순히 데이터를 분석하고 그것을 이해하는데 그치지 않는다. "인사이트의 도출", 최종적으로 그것을 활용해 의미를 찾아내야 하나의 업무 사이클이 끝났다고 표현할 수 있다. 달리 말하자면,데이터에 대한 단순한 이해에 머물러서는 "데이터 분석을 했다."라고 표현할 수 없다는 것이다.

  - 그러니 데이터 분석가에게 있어 "데이터 리터러시"란 데이터이해하고, 분석한 끝에, 결과를 도출하고, 그를 통해 최종적으로 결론을 제시하는 능력이라고 할 수 있다.

 

 1.2. 데이터 리터러시와 올바른 질문을 던지는 방법

 - 그렇다면 어떻게 그 능력을 어떻게 가질 수 있는가? 데이터 분석가는 어떻게 데이터 리터러시함양할 수 있는가? 그 핵심은 "올바른 질문을 던지는 것"이고, 그 질문이 주어지는 대상은 데이터를 분석가 즉, "자기자신"에게 있다.

  - 데이터 수집데이터를 목적에 맞게 활용하기 위해 행해진다.

 - 데이터 분석가는 데이터를 분석하기에 앞서 데이터를 수집하는 이유이자, 분석하는 목적(목표)인 "문제정의"해야 한다. 그 다음 수집된 데이터가 어떠한 특성을 가졌는지 "데이터 유형"을 확인하여, 적합한 분석 방법을 선정한다. 분석 방법을 선정한 뒤 분석을 통해 무엇을 확인할 지에 관한 "핵심 지표"를 선정하고, 그 결과를 통해 "결론도출"한다.

  - 즉, 데이터 분석은 "문제 정의" > "데이터 확인" > "핵심 지표 선정 및 분석" > "결론 도출"의 과정을 거친다.

  - 하지만 방대한 데이터 속에서 기나긴 과정을 수행하다 보면 자칫 목표를 잃고, 단순히 분석 수행을 목표로 방향이 바뀌어버릴 수 있다. 그렇기에 데이터 분석가는 분석의 과정을 수행할 때마다 "자기자신"에게 "올바른 질문"을 던져 목표를 되세길 필요가 있다.

  - 그래서 데이터 리터러시는 분석 과정에서 자기자신에게 올바른 질문을 제기해 결론까지 올바르게 나아가는 능력이라 달리 표현할 수 있다.

 

※이후 목차부턴 각 단계에 대한 간단한 소개와 "올바른 질문"[분석 과정의 원활한 수행을 위해 자기자신에게 확인해 볼 사항]에 관하여 정리하고자 한다.

 

2. "문제 정의"

 2.1. 문제정의란?

  - 흔히 데이터 분석을 실패하는 주된 원인이 되는 단계이다. 분석하려는 상황, 현상에 대한 "clear and distinct"[명확하고 뚜렷한] 이해를 통해 문제 상황을 정의해야 한다. 단순히 "매출이 감소한다."라는 문제 정의보다 "근 6개월간 다른요소와 비교되는 '사용자수 감소'로 인해 매출액이 감소하고있다."와 같은 문제정의가 더 많은 정보, 상황이해, 원인파악, 문제해결 접근이 용이하다. 

  - 앞선 문제정의가 용이한 반면, 담겨있는 내용이 많아 복잡하고, 그에 따라 시간이 많이 소요된다. 그렇기에 효율적이고 정확한 문제접근 방법과 방향성이 필요하다.

 

 2.2. 문제정의 방법론

  a. MECE(Mutually Exclusive, Collectively Exhaustive) : 문제 상황을 상호 배타적(Mutually Exclusive)이면서, 총체적으로 포괄하는(Collectively Exhaustive) 구성요소들로 나누는 것을 의미한다.

  ※ 즉, 문제 상황의 요소들을 한단계씩 대단위, 중단위, 소단위로 계층화 및 세분화 시킨다.

 

cf) 상호배타적 :"동물 vs 식물", "물질sv비물질"같은 반대되는 개념

cf) 총체적 : "(수박, 딸기, 포도) = 과일" 같이 세분화된 대상들 전체를 포괄하는 개념.

 

  b. 로직 트리(Logic Tree) : MECE원칙으로 그룹화한 문제상황의 구성요소를 데이터 분석가가 핸들링 하기 쉽게 세분화한다.

["매출액 감소"라는 문제 상황이 있을 때! '매출액'을 MECE로 "기간", "품목", "사용자수", "등등"으로 범위를 나눈다면 "기간"을 '전체', '6개월', '3개월', '1개월', '2주', '1주', '1일'과 같이 세세하게 문제 원인 요소들을 나누는 것이 로직트리! 이 로직트리를 보고 목적에 따라 분석시 다룰 범위를 정하는 것!]

 

 2.3. 문제 핵심 정의

  - 풀고자 하는 것을 명확하게 정의하기 위해 문제 자체의 성질, 핵심을 정의하는 것! "그래서 문제상황이 뭘 뜻하는 것?"

  - 이 작업을 통해 문제 상황의 의미를 정확하게 이해하고, 문제정의 방법론을 통해 분리된 문제의 구성요소를 선택하고, 방향성을 설정할 수 있다.

  a. so what : 수집한 정보, 소재에서 결국 어떻다는 것인지를 알아내는 작업!

   "사용자수 감소? 그게 뭔데?"

  b. shy so : 왜 그렇게 말할 수 있는지 구체적인 의미를 검증하고 확인하는 작업

   "감소한게 왜 문제인데?"

 

 2.4. 문제 정의의 방향성

  - 앞선 방법론과 핵심 정의로 문제 상황을 샅샅히 뜯어보고, 의미를 확인했기에 무엇이 문제인지 정확히 정의할 수 있다.

  - 그러나 문제를 정의할 수 있지만! 그것을 어떻게 분석할지, 분석의 결과를 누구에게 전달할 지, 그들에게 문제에 공감시키고 설득력을 얻기위한 방향성이 필요하다.

[단순히 문제가 있고, 다 뜯어보고, 모든 조합의 경우를 전달하는 노력의 낭비 없이 필요한 게 무엇인지 정하는 것! 그것이 방향성!]

  a. 결과 공유자가 누구인가?

  b. 결과를 통해 어떠한 변화를 주고자 하는가?

  c. 상위 권한자, 결정권자의 입장과 시각은 어떠한 가?

  d. 숙고 끝에 나온 결론인가? [다른 가능성은 없는가?]

  e. 개인적 시각이 담긴 것은 아닌가? [객관성 담보를 위해 타인과 의견교류 해보았는가?]

 - 위의 5요소들을 통해 최종적으로 "clear and distinct"한 문제 정의 방향성을 정해볼 수 있다.

 

※ "문제정의" 한 줄 요약 : 문제 정의를 위해선 문제 상황 구성요소를 체계적으로 뜯어보고, 문제의 의미를 파악해보고, 분석 방향을 위해 5요소를 고려해 "문제정의"한다면 이후 작업의 기반이 마련되며 분석상 흐름을 놓치지 않을 수 있다!