데이터 분석 실무에서 ‘인과추론’을 사용하는 방법
데이터 분석가들은 프로덕트와 마케팅 활동의 개선이 실제 성과로 이어졌는지 정확하게 평가하기 위해 단순 수치 비교 이상의 깊이 있는 분석을 수행합니다. 특히 변화의 ‘원인’을 분명하게 파악하는 것이 핵심입니다. 이처럼 원인을 파악하기 위해 알아야 할 개념이 바로 ‘인과추론(Causal Inference)’입니다.
인과추론이란 단순히 데이터 간의 관계를 파악하는 수준을 넘어 원인과 결과의 관계를 찾아내는 과정을 의미합니다. 이때는 ‘에비던스(Evidence)’를 확보하는 것이 매우 중요합니다. 일반적으로 에비던스는 간단히 어떤 현상에 대한 근거를 뜻하지만, 경제학 분야에서는 보다 엄격하게 ‘인과관계를 시사하는 근거’를 가리키는 말로 쓰입니다.
이러한 에비던스를 얻기 위한 대표적인 방법으로는 메타 분석(Meta-analysis), 랜덤화 비교 시험(Randomized Controlled Trials, RCT), 자연 실험(Natural Experiment), 준실험(Quasi-Experiments), 그리고 회귀 분석(Regression Analysis) 등이 있습니다. 이처럼 어떤 방법론을 적용했는지에 따라 신뢰 수준 또한 달라집니다.
아래 그림에서 나타난 것처럼, 일반적으로 신뢰 수준은 메타 분석 > 랜덤화 비교 시험 > 자연 실험과 준실험 > 회귀 연구의 순서로 평가됩니다.

가장 높은 수준의 신뢰도를 제공하는 ‘메타 분석’은 동일하거나 유사한 주제를 다룬 여러 독립적인 연구 결과를 통계적으로 통합해 분석하는 방법입니다. 따라서 이번 글에서는 독립적인 연구 결과이자 메타 분석의 근거가 되는 실험 설계 방식, 특히 랜덤화 비교 시험과 자연 실험, 그리고 준실험 개념을 중심적으로 살펴보고자 합니다.
랜덤화 비교 시험과 A/B 테스트
랜덤화 비교 시험은 인과관계를 검증할 때 가장 높은 신뢰성을 제공하는 실험 설계 방식 중 하나로 평가됩니다.
이 실험 방식의 핵심은 대상자를 무작위로 두 개 이상의 그룹(예: 실험군과 대조군)으로 나눈 뒤, 특정 개입(treatment)을 ‘실험군’에만 적용하고, 아무런 개입을 하지 않은 ‘대조군’과의 결과 차이를 비교하는 것입니다.
이때 개입 이외의 다른 모든 조건은 동일하게 유지되어야 하며, 이러한 설계 덕분에 개입 효과를 명확하게 식별할 수 있습니다. 만약 그룹을 무작위로 나누는 것이 아니라 사람이 임의의 기준으로 나눌 경우, 각 그룹에 특성 차이가 생겨 결과 해석이 왜곡될 가능성이 있습니다. 따라서 ‘무작위 배정’은 인과추론 분야의 ‘gold standard(가장 이상적인 기준)’로 불립니다.
실제로 실무에서 널리 쓰이는 A/B 테스트 또한 무작위 실험(Randomized Experiment)의 한 형태입니다. A/B 테스트는 다양한 버전의 프로덕트나 메시지를 마련하고, 사용자들을 무작위로 나눠 다른 버전을 경험하게 한 뒤, 전환율이나 클릭률 등 주요 지표를 비교하는 실험 방식입니다.
A/B 테스트 실무 예시: 채널톡/ 어떤 마케팅 메시지가 통할까?
예를 들어 채널톡의 경우, 마케팅 메시지에 대한 A/B/C 테스트를 수행해 그룹별 열람률과 응답률을 비교했습니다. 그 결과 B 메시지 버전이 가장 높은 성과를 기록했다고 합니다(가장 낮은 C 메시지 대비 열람률 약 135%, 응답률 약 220%).

단, 이처럼 A/B 테스트를 수행할 때는 결과에서 나타난 단순 수치의 차이보다 ‘통계적 유의성’을 평가하는 것이 중요합니다. 이때는 일반적으로 신뢰 수준(confidence level)과 유의 확률(p-value)을 기준으로 결과의 신뢰도를 판단합니다.
자연 실험
자연 실험(Natural Experiment)은 법률이나 제도의 변경, 자연재해 등 외생적 쇼크(외부적이고 우연한 요인)에 의해, ‘자연적으로’ 개입을 받은 그룹과 그렇지 않은 그룹이 나뉘는 상황에서 인과관계를 검증하는 방법입니다.
앞서 본 A/B 테스트는 에비던스의 신뢰 수준이 높지만, 실제 기업 환경에서는 제품이나 정책 변경 사항을 강제로 특정 유저에게만 적용하기 어려운 경우도 많습니다. 예를 들어 대규모 프로모션의 경우 특정 고객에게만 할인 혜택을 줄 수는 없을 것입니다. 이러한 상황에서는 이미 존재하는 데이터를 활용하여 분석할 수밖에 없습니다.
자연 실험은 외부 요인에 의해 자연스럽게 사용자가 무작위로 나뉘는 사례를 찾아냄으로써 두 변수 간의 명확한 인과관계를 밝혀낼 수 있는 방법입니다.
자연 실험 실무 예시: 에어비앤비/ 숙박세 자동 징수 정책은 어떤 영향을 끼쳤을까?

에어비앤비는 2014년부터 미국에서 ‘숙박세 자동 징수 정책’을 실시하였는데, 도시별로 협상을 거쳐 순차적으로 도입했기 때문에 그 시점이 도시마다 다른 데다 예측도 불가능했습니다. 그로 인해 자연스럽게 인과 추론에 유리한 자연 실험 구조가 발생하게 되었습니다.

에어비앤비 ‘숙박세 자동 징수 정책’ 구조 분석
1. 실험군, 대조군 나누기
- 실험군: 세금 자동 징수 정책을 도입한 도시의 호스트 & 사용자
- 대조군: 세금 자동 징수 정책을 도입하지 않은 도시의 호스트 & 사용자
2. 분석 지표 설정하기
- 호스트 관점: 호스트의 수익
- 사용자 관점: 예약 수
3. 분석하기
- 세금이 가격에 포함된 이후, 바로 매출/수익이 마이너스로 감소했습니다. 그러나 호스트가 가격을 줄임에 따라 매출/수익이 회복될 것을 예측할 수 있습니다.
- 여러 숙소를 운영하는 호스트의 경우 상대적으로 수익에 영향이 적었으나, 단일 숙소를 운영하는 경우에는 예약 감소가 상대적으로 크게 나옵니다.

이러한 예시와 같이 외부 요인으로 인해 자연스럽게 사용자 그룹이 무작위로 나뉘는 경우, 이를 분석하면 인과 관계를 도출할 수 있습니다.
다만 실제로 이 사례를 분석한 예시 논문에서도 자연 실험 상태에서 이중차분법(Difference-in-Differences, 이하 DID) 방법론으로 분석을 진행하였습니다. 예를 들어, 대조군인 ‘뉴욕’과 실험군인 ‘시카고’가 세금을 부과하기 이전부터 매출이나 수익, 가격 등에서 이미 큰 차이를 보이고 있었다면, 단순 비교만으로는 세금 부과에 따른 실제 효과를 명확히 파악할 수 없기 때문입니다. 아래 준실험 영역으로 넘어가며 DID를 더욱 자세히 알아보겠습니다.
참고 논문: Stojanovic, J., & Anderson, S. (2019). The Impact of Taxation on Sharing Economy: Evidence from Airbnb. SSRN.
준실험 1: 이중차분법(DID)
DID는 시간에 따른 변화와 집단 간의 차이를 모두 고려하여 특정 개입의 효과를 추정하는 방법입니다. 이 기법은 특히 마케팅 효과 분석이나 정책 평가, 서비스 운영 데이터 분석 등 실무 환경에서 폭넓게 활용됩니다.
기법의 핵심은 단순히 전-후 비교로는 정확한 개입 효과를 추정하기 어렵다는 점을 인식하는 데서 시작합니다. 따라서 DID는 실험군(개입 대상 집단)과 통제군(개입 비대상 집단) 각각에 대해 시간에 따른 변화량을 계산한 다음, 두 변화량 간 차이를 다시 비교하여 순수한 개입 효과만을 식별하는 방식입니다.
단, DID 방법론을 적용하려면 ‘평행 추세 가정(Parallel Trends Assumption)’을 반드시 만족해야 합니다. 평행 추세 가정이란, 만약 개입이라는 사건이 없었다면 실험군과 통제군이 시간이 지남에 따라 비슷한 추세를 보였을 것이라는 전제입니다. 만일 이 가정이 충족되지 않는다면 DID를 통해 계산된 효과 추정치는 편향될 위험이 있습니다. 그 때문에 DID 분석 시에는 반드시 개입 이전 기간(pre-treatment period)에 두 집단이 유사한 추세를 보였는지 사전에 충분히 검증하는 절차가 필요합니다.

준실험 2: 매칭법
매칭법이란, 분석의 결과에 영향을 줄 공변량(Confounding variables)을 활용하여, 대조군에서 실험군과 최대한 유사한 특성을 가진 샘플을 찾아 짝지은 다음 서로 비교하는 방법을 말합니다.
간단한 예시로, A 회사가 ‘광고를 집행한 지역’(실험군)과 ‘광고를 집행하지 않은 지역’(대조군)을 비교한다고 가정해 보겠습니다. 이때 매칭법을 적용하면, 두 그룹 전체를 한꺼번에 비교하는 것이 아니라 실험군의 점포와 가장 유사한 대조군의 점포를 찾아내어 이들만 비교해야 합니다.

이처럼 서로 짝을 지어 비교할 때 결과에 영향을 줄 ‘점장의 연령’과 같은 변수를 ‘공변량’이라고 부릅니다. 물론 위의 예시처럼 공변량이 단 하나만 존재하는 경우는 드물고, 실제 분석에서는 다양한 공변량이 존재할 수 있습니다.
따라서 현실적으로 모든 조건(공변량)이 같은 대조군을 찾는 것은 불가능에 가깝습니다. 그러므로 실무에서는 매칭법의 한 형태인 ‘성향 점수 매칭법(Propensity score matching)’을 주로 사용합니다. 성향 점수 매칭법의 전제 조건은, 결과에 영향을 줄 만한 모든 공변량은 수치화된 데이터로 나타낼 수 있어야 하며, 이것이 성향 점수를 계산하는 데 쓰여야 한다는 것입니다.
매칭법 실무 예시: 엔씨소프트/ PK를 당한 유저는 게임에서 이탈할까?
게임 회사에서는 특히 ‘매칭법’을 활용한 분석을 많이 진행합니다. 게임 회사의 경우, 전체 유저 중 1% 수준의 하드 유저가 나머지 99% 유저의 매출을 압도하는 경우가 존재하기 때문입니다. 이러한 특성으로 하드 유저와 일반 유저 사이에는 게임 사용 패턴이나 소비 성향에서 극명한 차이가 나타납니다.
따라서 게임 회사는 A/B 테스트를 수행할 때도, 이러한 특징을 반영해 사전에 유저를 ‘매칭’하고 테스트를 진행하기도 합니다. 또한 A/B 테스트 외에도 역시 이러한 유저 특성을 고려하여 매칭법을 활용한 분석을 진행합니다.
엔씨소프트 ‘PK와 유저 이탈’ 구조 분석
실제로 엔씨소프트의 예시를 살펴보겠습니다. 이들은 게임 내 PK(Player Killing)를 경험한 집단과 경험하지 못한 집단의 이탈률을 분석하기로 했습니다.
1. 1차 단순 비교 분석 결과
- PK 경험 이탈률 11%, 미경험 이탈률 79% → 68%p 차이
단순히 PK 경험의 유무로만 구분해 데이터를 분석하면, ‘역인과 관계’를 ‘인과 관계’로 잘못 해석할 위험이 있습니다. 예를 들어, 게임을 오래 지속할수록 PK를 경험할 확률 또한 높아집니다. 그 때문에 오히려 이탈하지 않았기에 PK를 경험했을 가능성도 있기 때문입니다. 이러한 잘못된 해석의 문제를 방지하고자 ‘매칭법’을 활용합니다.
2. 성향 점수 매칭(PSM) 방법을 활용한 분석 결과
이들이 해당 방법을 활용하기 위한 통제 변인, 즉, 공변량은 다음과 같습니다.
- 접속 일수 및 하루 평균 플레이 시간
- 하루 평균 결제 금액
- 캐릭터 레벨 및 기타 게임 콘텐츠 활동량
- 다른 유저를 PK한 경험(=스스로 다른 사람을 공격한 경험이 있는 경우는 제외)
이를 바탕으로 ‘유저 이탈 여부’라는 종속변수를 설정하고 로지스틱 회귀 분석을 수행했을 때, PK 여부에 따른 이탈률 차이는 매칭법을 적용하기 전 68%p에서 매칭 후 7%p로 많이 감소했다고 합니다. 즉, PK 경험이 유저 이탈에 미치는 실제 영향력은 약 7%p라는 뜻입니다. ‘PK를 당하면 유저가 이탈할 것이다’라는 기존의 일반적인 예상과 달리, 오히려 PK 경험이 유저 이탈률을 소폭 감소시키는 효과를 갖고 있음을 보여줍니다.
이러한 예시에서 알 수 있듯, 매칭법을 올바르게 활용하려면 분석하려는 주제, 즉 도메인(Domain)에 대한 데이터 분석가의 깊은 이해가 필요합니다. 만약 분석 과정에서 중요한 통제 변수를 제외한 경우, 그 변수가 결과에 미치는 영향력이 크다면 결과를 신뢰하기 어려울 것입니다.
마치며
이번 글에서는 인과추론의 핵심이 되는 ‘에비던스’ 개념을 중심으로, 랜덤화 비교 실험(RCT), 자연 실험, 준실험(이중차분법, 매칭법)을 사례와 함께 살펴보았습니다. 각 실험 방법의 특징을 정리하면 다음과 같습니다.
- 랜덤화 비교 실험(RCT): 실험군과 대조군을 무작위로 배정하여 인과관계를 명확하게 추정
- 자연 실험: 자연적으로 발생하는 사건이나 변화를 실험 변수로, 연구자 개입 없이 진행
- 준실험: 실험군과 대조군을 비교하되, 현실적으로 무작위 배정이 어려운 상황에서 활용
- 이중차분법(DID): 두 집단의 시간에 따른 변화와 차이를 비교
- 매칭법: 유사한 특성을 지닌 집단을 찾아 비교해 외부 요인의 영향을 최소화
이 중에는 랜덤화 비교 실험이 가장 높은 신뢰도를 지니지만, 실제 현업 환경, 특히 의료나 게임 분야에서는 무작위로 대상을 배정하는 것이 쉽지 않은 경우가 많습니다. 이런 영역은 준실험 방법을 많이 사용하고 있습니다. 물론 모든 회사가 준실험을 주 방법으로 활용하는 것은 아니며, 일반적으로는 A/B 테스트를 통해 유저를 분석하는 경우가 많습니다.
현장의 데이터 분석가에게 가장 중요한 역할은 결국 ‘문제를 해결하고 그에 적합한 인사이트를 제공하는 것’입니다. 따라서 특정한 방법론 자체에 지나치게 초점을 두기보다는, 실제 현장에서 마주한 문제를 풀기 위해 어떤 분석 방법을 활용하는 것이 가장 적절할지 고민하는 것이 더욱 중요할 것입니다.
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.