요즘IT
위시켓
최근 검색어
전체 삭제
최근 검색어가 없습니다.

[데이터 분석가의 숫자유감] 2화

회원가입을 하면 원하는 문장을
저장할 수 있어요!

다음

회원가입을 하면
성장에 도움이 되는 콘텐츠를
스크랩할 수 있어요!

확인

기획

A/B테스트 결과, 큰 숫자가 무조건 의미 있는 건 아니다

년차,
어떤 스킬
,
어떤 직무
독자들이 봤을까요?
어떤 독자들이 봤는지 궁금하다면?
로그인

 

[데이터 분석가의 숫자유감] 2화

데이터분석
데이터분석
데이터분석
데이터분석
데이터분석
데이터분석
데이터분석
데이터분석

숫자의 큰 역할 중 하나는 정량적인 비교다. 우리는 숫자의 변화를 통해 시간의 흐름을 알고, 통장의 숫자가 0에서 갑자기 확 늘어나면 월급이 들어왔는지를 알 수 있다. 회사도 마찬가지다. 숫자의 변화로 회원 수 증가를 알고, 수익이 늘어난 정도를 확인한다. 이제는 데이터 관련한 기술의 발달로, 사용자가 특정 페이지에 얼마나 들어갔는지, 게임의 어느 퀘스트에서 사용자가 많이 이탈하는지 같이 세세한 것까지 수치화해서 확인할 수 있다. 요즘 많이 사용되는 ‘데이터 기반 의사 결정’이라는 말은 이렇게 수치화된 데이터를 기반으로 판단해 다음 행보를 결정하는 것이고, 결국 전후, 혹은 다양한 상황에서 얻은 데이터를 정량적으로 비교함으로써 이루어진다.

 

숫자 자체의 변화는 중요하고, 숫자 변화를 기반으로 한 판단은 명확한 듯 보인다. 기술의 발달로 다양한 움직임을 세밀하게 측정하기 좋아졌고, 이를 활용하는 여러 방법도 고안되었다. A/B 테스트처럼 동 시간에 사용자를 나눠서 반응을 살펴보는 등의 다양한 실제 실험도 널리 사용되고 있다. 많은 기업에서 A/B 테스트를 활용해 서비스를 개선하고, 더 나은 이벤트 효과를 노린다. 간혹 옆 사람과 SNS 버튼이 다르고, 본인에게만 특정 쿠폰이 발급되는 경험을 해보았을 것이다. 이런 것이 A/B 테스트다. 그리고 우리가 의아해하며 사용한 내용은 데이터화되어, 데이터 분석가와 현업 부서 사람이 어느 쪽을 선택할지 비교하는 데 참고 자료로 사용된다.

 

하지만 이렇게 직접적이고 단순한 숫자 비교에는 여러 딜레마가 있다. 세상은 가변적이고, 크게 봤을 때는 동일한 것도 나눠서 보면 다르기도 하다. 1년에 36일 비가 오는 곳이라고 하더라도 매달 세 번 비가 내리지는 않는다. 어떤 달에는 6일 비가 오기도 하고, 어떤 달에는 안 올 수도 있다. 데이터 분석가는 이런 상황을 보고 어떤 달에 비가 몇 번 올 것인지를 말할 때, ‘3일’이라고 정확히 말하기보다는 ‘평균적으로 3일가량 온다(평균 3인 확률 분포 모형[1]을 따른다)’라고 이야기할 것이다. 단순한 차이가 있더라도, 그 차이가 통계적으로 의미가 있는지, 고려해야 할 전제 조건은 없는지, 그 차이가 정말 여러 측면에서의 차이가 맞는 것인지를 여러 도구를 사용하여 고민한다. t-검정[2], z-검정[3] 등의 여러 검정 방법이 있고, 이를 실험 상황에 맞게 적절하게 적용해서 참고한다.

 

‘숫자의 차이’는 절대적인 것처럼 보이는데, 이를 왜 ‘여러 면으로’ 고민해야 할까? 수학은 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다. ‘사과 3개’라는 명확하다고 생각하는 숫자의 절대성도 사실은 수많은 사람의 공통된 전제하에 만들어진 기준이다. 우리는 사과 크기가 다 다르고, 맛도 다 다르지만 한 덩어리의 열매라는 이유로 ‘한 개’라고 센다. 만약 사과를 봉지에 넣었다면 사과 가 몇 개든 신경 쓰지 않고 ‘사과 한 봉지’라고 할 것이다. 이런 간단한 숫자 사용에도 이미 전제가 적용된다. 세상의 수치 비교는 수많은 전제를 논리적으로 배치했을 때 수학이나 통계의 가치가 빛을 발하게 한다.

 

특정 시간에 남겨진 기록인 데이터는 더욱 고려할 사항이 많다. 데이터에는 기록 전에 형태를 잡는 과정부터 특정 정의와 합의를 포함한 많은 전제가 들어가 있다. 그렇게 쌓은 초기 데이터는 많은 가정과 합의에 의해 가지치기되고 단순화되어 요약되고 정리된다. 대개는 이런 과정을 거쳐 나온 단순한 숫자를 사용한다. 이 숫자를 제대로 사용하려면 당연히 그 아래 켜켜이 쌓아둔 많은 가정과 합의를 탐색하고 이해해야 한다. 가지치기된 내용을 풀어내는 데 여러 추론 방법과 가정을 사용해야 할 수도 있고, 이 과정에서 내용이 다소 유실되거나, 의도와는 다른 상황이 들어갈 수 있음도 이해해야 한다.

 

숫자는 눈에 보이고, 뺄셈은 단순하다. 하지만 다양한 상황에서 발생하는 다양한 숫자를 비교해야 한다. 숫자를 비교하려면 정의, 실험, 실제 수치, 상황 등 고려해야 하는 전제가 생각보다 많다. 무조건 숫자가 크고, 그래프가 잘 나오는 값을 고를 수는 없다. 이는 상관관계로 인과관계를 해석하려는 것만큼이나 덧없는 일이다.

 

데이터분석

[1] 푸아송 분포. 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 나타낼 때 사용되는 확률 분포 모형.

[2} 두 집단 간의 평균의 차이가 유의미한지 검증하는 통계 검정 방법

[3] 모집단의 속성을 살피기 위하여 추출된 표본의 통계값의 평균과 연구자가 이론적 혹은 경험적 배경에서 얻은 특정 값을 비교하는 통계적 방법

 

<원문>

[데이터 분석가의 숫자유감] 2화 숫자의 불확실성 : 큰 수를 더 크다고 말하지 못하고

 

요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.

좋아요

댓글

공유

공유

댓글 0
작가
138
명 알림 받는 중

작가 홈

작가
138
명 알림 받는 중
골든래빗은 쓰고 읽고 펴내면서 더 나은 나를 만드는 시간, 가치가 성장하는 시간이 되는 책을 만듭니다. 나눌수록 더 커지는 지식. 지식을 글로 정리하고, 나누는 책을 통해 더 큰 가치를 만들어갑니다. <개발자원칙> <처음부터 다시 배우는 서비스 디자인씽킹> <텐초의 파이토치 딥러닝 특강>등을 펴냈습니다.
홈페이지 : https://goldenrabbit.co.kr/

좋아요

댓글

스크랩

공유

공유

요즘IT가 PICK한 뉴스레터를 매주 목요일에 만나보세요

요즘IT가 PICK한 뉴스레터를
매주 목요일에 만나보세요

뉴스레터를 구독하려면 동의가 필요합니다.
https://auth.wishket.com/login