요즘IT
위시켓
최근 검색어
전체 삭제
최근 검색어가 없습니다.

지금까지 ‘A/B 테스트 제대로 이해하기’ 시리즈를 통해 A/B 테스트의 기본 정보와 가설, 세팅 방법, 그리고 분석 결과 등 여러 정보를 정리했다. 시리즈의 마지막인 이번 글에서는 기획자, PM, 마케터 등이 고민하는 ‘대체 실험 트래픽은 얼마나 모아야 하는 건가?’에 관해 알아보고, 이를 잘 실행하는 노하우와 주의할 점에 관해 살펴보고자 한다.

회원가입을 하면 원하는 문장을
저장할 수 있어요!

다음

회원가입을 하면
성장에 도움이 되는 콘텐츠를
스크랩할 수 있어요!

확인

기획

A/B 테스트 제대로 이해하기: ⑤ A/B 테스트에 적정한 표본과 주의 사항

년차,
어떤 스킬
,
어떤 직무
독자들이 봤을까요?
어떤 독자들이 봤는지 궁금하다면?
로그인

 

지금까지 ‘A/B 테스트 제대로 이해하기’ 시리즈를 통해 A/B 테스트의 기본 정보와 가설, 세팅 방법, 그리고 분석 결과 등 여러 정보를 정리했다. 시리즈의 마지막인 이번 글에서는 기획자, PM, 마케터 등이 고민하는 ‘대체 실험 트래픽은 얼마나 모아야 하는 건가?’에 관해 알아보고, 이를 잘 실행하는 노하우와 주의할 점에 관해 살펴보고자 한다.

 

대체 표본, 실험의 트래픽은 얼마나 모아야 하나요?

(???: “A안과 B안의 기대하는 차이를 어디까지 알아보고 오셨는데요?”)

 

그럼 대체 표본, 트래픽의 크기는 얼마나 되어야 하는 걸까? 결론부터 말하자면 매번 다르다. 조금 더 자세히 말하자면, ‘A안과 B안 사이의 차이가 어느 정도 되기를 기대하느냐’에 따라 다르다. 왜냐하면 앞선 글에서 여러 번 설명한 것처럼 동일한 신뢰 수준이라도 표본의 크기에 따라 유의미한 결과 여부가 달라질 가능성이 있기 때문이다.

 

가령 아래의 결과를 보면, A안과 B안의 결과 차이의 크기에 따라 필요한 표본의 크기(Sample Size)를 계산해볼 수 있다.

  • 원래의 기본 방안(A안)의 고객 전환율이 20%일 때
  • 대안(B안)이 1%밖에 차이가 나지 않아도 결과가 유의미하려면 각 그룹당 표본이 최소 25,255는 되어야 한다.
  • 반면 대안(B안)이 5% 차이가 난다면, 표본이 1,030만 되어도 유의미한 결과를 얻을 수 있다.

 

유의미한 결과 확인
기본 전환율이 20%일 때 A안과 B안의 차이가 1%더라도 유의미한 결과인지 확인하려면 25,255의 표본이 필요하다.

 

표본 결과 확인
반면 A안과 B안의 차이가 5%일 때 유의미한 결과 여부를 확인하려면 1,030의 표본이면 충분하다.

 

결국 '표본은 얼마나 필요한가요?'라는 질문은 A/B 테스트를 설계하고 실행하는 담당자로서, ‘우리는 두 방안의 결과가 몇 %정도 차이가 날 것이라고 기대하는가?'와 바꾸어 볼 수도 있다.

 

그리고 이는 결국 A안과 B안을 기획하고 설계한 담당자의 추측, 자신감, 또는 이전의 경험을 바탕으로 할 수밖에 없다. 다만 ‘어느 정도 되어야 충분한 차이인가?’라는 질문으로 바꿔보면 아래와 같은 상황을 상상해볼 순 있다.

고객이 100,000명이라면 전환율의 차이가 1%만 되어도 차이는 1,000명이다. 거기에 만약 이들의 평균 객단가가 100만 원이라면 1%라는 작은 차이로도 매출액의 차이는 10억 원에 달한다.
고객이 1,000이라면 5%가 되더라도 50명밖에 되지 않는다. 거기에 만약 평균 객단가가 만 원이라면, 5%라는 차이는 고작해야 50만 원밖에 되지 않는다. 실험을 설계 및 준비하고, 세팅하고, 기다리고, 결과를 해석하는 인건비도 나오지 않을지도 모른다.

 

 

A/B 테스트 수행 과정에서 주의할 점

이렇게 해서 우리는 ‘표본이 많으면 많을수록 A안과 B안의 결과 차이가 작더라도 실험 결과가 통계적으로는 유의미’할 수 있고, ‘표본이 작더라도 A안과 B안의 결과 차이가 크면 마찬가지로 통계적으로 유의미할 수 있다’라는 사실을 짚어보았다.

 

그러나 A안과 B안의 실제 차이가 얼마나 될지는 직접 실험을 해봐야만 알 수 있다. 결국 실험을 설계하고 수행할 때 우리가 통제할 수 있는 건 표본의 크기, 또는 표본을 수집하기 위한 시간일 뿐이다. 그래서 우리가 A/B 테스트에서 실패하지 않도록 몇 가지 주의 사항을 정리했다.

 

1) 내가 미는 방안이 이길 때까지 기다리기(a.k.a 무작정 트래픽 더 모아보기)?

표본이 충분하면 차이가 작더라도 ‘유의미한 significant 차이’라는 결과를 받을 수 있다. 그렇다면 특정 방안, 특히 내가 설계한 방안이 어떻게든 긍정적인 결과를 받기 위해 가장 좋은 방법 중 하나는 표본을 무조건 많이 모으는 것이다.

 

다만 이런 경우 아래와 같은 문제가 생길 수도 있다.

  • 실험을 진행하는 동안 기다리는 것도 팀의 리소스가 소비된다.
  • 이번 실험을 하느라 다른 실험이 대기 중이라면 리소스, 트래픽의 낭비이다.
  • 무엇보다 실험에 노출되는 건 어디까지나 실제 유저들이므로, 실험 기간 동안 방문한 유저 중 절반에게는 상대적으로 안 좋은 방안이 계속 노출되는 셈이나 마찬가지다.

 

내가 원하는 결과가 나올 때까지 기다리는 데 통계적으로 오류는 없을지 몰라도, 결국 우리의 원래 목표인 '고객에게 더 좋은 방안을 제공하기'는 뒷전이 되고, 그 과정에서 비즈니스의 리소스를 효율적으로 활용하는 것 역시 놓치게 된다.

 

이길 때까지 존버
존버는 승리할 수 있지만, A/B 테스트는 코인이 아니다. <출처: 구글 이미지 검색>

 

2) 내가 미는 방안이 지기 전에 그만두기?

표본이 아직 일정 수준이 되지 않아 통계적 유의미한 결과가 확인되기 전이지만, '유의미함'을 생각하지 않기로 한다면 어느 시점에서도 항상 특정 방안의 승패를 가릴 수 있다. 어쨌거나 A/B 테스트를 한 시점에서 A안이든 B안이든 하나가 아주 근소한 차이로라도 이기고 있을 테니까.

 

그렇다면 만약 내가 관심이 있는 B안이 실험상 이기고 있는 시점에 실험을 종료하면 마치 B안이 이긴 것처럼 보일 수 있다. 최종 결과는 어쩔지 모르지만, 어쨌든 이번 실험의 현지 시점에서는 B안이 이긴 셈이다.

 

그래서 트래픽이 쌓일수록, 표본 크기가 점차 충분해질수록 오히려 내가 설계한 B안이 질 것 같이 보이면 실험을 조기에 종료하는 것도 우리가 저지를 수 있는 실수, 또는 의도적인 오류다.

 

싸움에서 안 지는 방법
싸움에서 지지 않는 방법은 바로 싸움을 하지 않는 것이다! <출처: imgflip.com>

 

3) A안과 B안을 다른 날짜에 시작하기?

A/B 테스트의 특징 중 하나는 바로 ‘동시간대’에 실험을 시작하는 것이다. 같은 시간에 실험을 시작해야 결과의 차이가 실험에서 만든 요소에 의한 것인지, 혹은 다른 이유(성수기, 주말 및 공휴일, 기타 각종 외부의 사건 등)에 의해서인지 알기가 어렵기 때문이다.

 

예를 들어 만약 A안은 월요일부터 노출하고, B안을 수요일부터 노출했으면 이틀의 시점 차이가 생긴다. 이틀 동안 어떤 외부 요인이 있었는지 없었는지를 우리는 알 수 없다. 결국 같은 환경에서 서로 다른 방안을 비교하는 A/B 테스트의 장점을 잃어버리게 되는 셈이다.

 

또한 이 경우 해당 이틀 동안의 트래픽이 온전히 A안에 쏠리게 된다. 물론 트래픽이 정확히 5:5 비율이어야만 통계적으로 유의미한 실험을 할 수 있는 건 아니다. 다만 A안에 충분한 표본이 모였다고 생각하여 A안과 B안을 모두 같은 날에 종료하면, B안은 아직 충분한 표본을 모으지 못했을지도 모른다. 왜냐하면 이틀 늦게 시작했으니까.

 

a/b테스트 오류
시작일이 다른데 종료일은 같으면 '동시간대'도 아니고, 표본이 충분하지 않은데 종료되는 실수가 발생할 수 있다. <출처: 본인>

 

 

A/B 테스트의 기본이란?

지금까지 총 5편의 글을 통해 ‘A/B 테스트가 단순히 A/B 방안 2개를 만드는 게 다가 아니다’라는 걸 알아봤다. 오바마 대선 캠프 홈페이지라는 유명한 사례부터, 고객으로서, 그리고 기획자, PM, 마케터로서 접하는 업무에 이르기까지. 우리는 생활과 업무 속에서 생각보다 많이 'AB 테스트'를 접하게 된다.

 

그러나 지금 당장 보이는 단순한 비교가 아니라 고객에게 정말로, 확실하게, 유의미하게, 더 나은 방안을 제공하고 이를 통해 서비스(의 지표)를 개선하고 싶은 담당자라면, A/B 테스트 뒤에 숨은 우리의 진짜 질문이를 구현하고 제대로 이해하기 위한 통계 지식, 그리고 이를 바탕으로 한 몇 가지 주의 사항은 꼭 알아야 할 내용이라고 생각한다.

 

물론 이것이 우리가 기획하는 방안에 더 나은 결과를 찾아주진 않을 것이다. 그건 평소의 아이디어와 레퍼런스, 고객에 관한 이해, 그리고 결정적으로 ‘운’이 조합된 결과이기 때문이다. 다만 최소한 이번 시리즈 내용에 관한 이해 없이는 ‘제대로 된’ A/B 테스트 설계와 실행, 해석을 할 수는 없을 것이다. 언제나 기본이 가장 중요하면서 어렵기 때문이다.

좋아요

댓글

공유

공유

댓글 1
그로스PM
84
명 알림 받는 중

작가 홈

그로스PM
84
명 알림 받는 중
사수 없이 고군분투하며 깨닫고 배운 것들을 기록하여 공유합니다. 저의 어제의 발버둥이 누군가의 오늘에 도움이 되길 바랍니다.

좋아요

댓글

스크랩

공유

공유

요즘IT가 PICK한 뉴스레터를 매주 목요일에 만나보세요

요즘IT가 PICK한 뉴스레터를
매주 목요일에 만나보세요

뉴스레터를 구독하려면 동의가 필요합니다.
https://auth.wishket.com/login