데이터 분석 트랙 41일차 25.04.10. [TIL]
- 아티클 정리
- 아티클 정리 "A/B테스트 제대로 이해하기 4 A/B테스트 표본 크기와 유의미한 결과 관계"
https://yozm.wishket.com/magazine/detail/1667/
A/B 테스트 제대로 이해하기: 4 A/B 테스트 표본 크기와 유의미한 결과의 관계 | 요즘IT
이전 글에서 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 방법과 해석에 관한 내용을 살펴보았다. 이때 해석 내용 중 계산기에서 ‘결과가 유의미하지 않다(Not Significant)’라고 했을 때
yozm.wishket.com
1. 내용 요약
- 흔히 직관적으로 우리는 어떠한 의견(가설, 결과)의 근거가 “많은 사례와 의견들에서 지지받을 때” 유의미하고, 결과가 의견이 개연적(필연성이 높다)이라고 생각한다. 또한 A와 B양자를 비교할 때 그 차이가 극명하게 드러나야 유의미하다고 생각한다.
- 통계적 관점에서 유의성, 필연성은 특히 A/B테스트에선 “많은 표본”과 “P벨류값”을 통해 그 우연성과 신뢰도를 확인할 수 있다.
즉, 표본의 수가 크다면 A와 B사이의 비율(확률)의 차이가 적더라도 유의미한 결과라고 할 수 있다.
2. 주요 포인트 : [통계적 관점]>[A/B테스트] 표본 사이즈와 유의성의 관계
3. 인사이트
- 통계적 관점에서 A/B테스트의 양자 간의 표본의 사이즈가 크면 클수록 결과 상에서 나타나는 확률의 차이가 작아도 유의미하다는 것이 흥미로웠다.
- 하지만 표본의 사이즈를 임의적으로 정할 수 없을 것 같다는 생각도 동시에 든다. (”현실적 이슈”(ex. 컴퓨팅 파워, 데이터의 복잡도의 차이), “많아진 표본 내에서의 다시 이상치가 결과에 영향을 미칠 가능성”, 등등) 표본 사이즈가 ‘충분히 크다’에 대한 내용이 더욱 궁금하다.
- 데이터 분석가로서 혹은 데이터 사이언티스트로서 [통계의 기법]을 사용한다면 직관 보다 통계적 수치를 통해 그 의미(유의성, 상관관계, 정확성, 등등)를 해석해보아야 한다는 점을 새롭게 머리에 넣게 된 것 같다.