본문 바로가기
AI/AB Testing

[A/B Testing] 가설 검정(Hypothesis Testing)

by 데이터 벌집 2024. 1. 10.
반응형

안녕하세요, 데이터와 통계의 세계로 여러분을 안내할 김 데이터입니다!👩‍💻 오늘은 데이터 사이언스 분야의 핵심 개념 중 하나인 '가설검정(Hypothesis Testing)'에 대해 알아보려고 합니다. 데이터 사이언티스트가 되고자 하는분들에게 가설검정은 필수적인 능력이죠. 이 글을 통해 가설검정의 기초부터 가설검정의 종류, 올바른 가설검정 설정하기 탐험할 거예요.🚀

 


1. 가설검정(Hypothesis Testing) 소개

가설검정은 데이터 샘플을 기반으로 인구 집단에 대한 추론을 만들기 위해 사용되는 통계적 방법입니다. 이 과정은 일반적으로 다음과 같은 단계를 포함합니다:

  • 가설 수립(Formulating Hypotheses): 영가설(Null Hypothesis, H₀)은 기본 가정 또는 검증할 주장을 대표합니다. 대립가설(Alternative Hypothesis, H₁)은 영가설에 반하는 주장으로, 종종 관심의 대상이 되는 가설이죠.
  • 유의수준 선택(Choosing the Significance Level): 유의수준(α)은 영가설을 기각하기 위해 필요한 증거 수준을 결정하는 임계값입니다. 일반적인 유의수준은 0.05(5%)와 0.01(1%)이 사용됩니다.
  • 데이터 수집 및 분석(Collecting and Analyzing Data): 실험 또는 관찰을 통해 데이터를 수집하고, 수집된 데이터를 통계 기법을 사용하여 검정 통계량을 계산합니다.
  • 검정 통계량 계산(Calculating the Test Statistic): 검정 통계량은 데이터로부터 계산된 수치로, 관찰된 데이터가 영가설과 얼마나 일치하는지를 측정합니다.
  • 결정 및 결론 도출(Making a Decision & Drawing Conclusions): 검정 통계량을 비판적 영역과 비교하여 영가설을 기각할지 여부를 결정합니다. 그리고 가설 검정에 대한 결론을 도출합니다.

 

가설검정


2. 가설검정의 종류(Types of Hypothesis Tests)

  • T-검정(T-Test): 두 그룹의 평균을 비교하기 위해 사용됩니다.
  • Z-검정(Z-Test): 큰 표본 크기에서 두 인구의 평균이 다른지를 결정하기 위해 사용됩니다.
  • 이항검정(Binomial Test): 이항 변수의 한 수준의 인구 비율이 특정 주장된 값과 같은지를 결정하기 위해 사용됩니다.

 

 

Types of Hypothesis Tests


3. 올바른 가설검정 선택하기(How to Choose the Right Hypothesis Test)

올바른 가설검정을 선택하는 것은 실험 설계에서 중요한 단계이며, 결과의 정확성을 결정합니다. 면접에서도 중요한 질문이 될 수 있습니다. 여기 간단한 단계가 있습니다:

  • 베르누이 분포(Bernoulli Distribution)면 Z-검정을 사용합니다.
  • 다른 분포이면 표본 크기가 크다면(30 이상) Z-검정, 작다면(30 미만) T-검정을 고려합니다.

가설검정은 단순히 통계적 방법론을 넘어서 의사결정과 데이터 분석의 핵심적인 부분입니다. 이 지식을 토대로 여러분도 데이터 사이언스 분야에서의 성공을 향해 한 걸음 더 나아가시길 바랍니다.

반응형