회원가입을 하면 원하는 문장을
저장할 수 있어요!
다음
AWS 이용 중이라면 월 최대 15% 할인받으세요
“해당 프로젝트는 지표 상승과 상관관계가 있습니다.”
회원가입을 하면 원하는 문장을
저장할 수 있어요!
다음
회원가입을 하면
성장에 도움이 되는 콘텐츠를
스크랩할 수 있어요!
확인
“해당 프로젝트는 지표 상승과 상관관계가 있습니다.”
지금은 데이터 시대다. 미래에 무엇을 꿈꾸든지 데이터가 있어야 한다. 즉 데이터는 조직의 성공을 좌우할 수 있는 핵심이라고 할 수 있다. 이를 위해 수많은 기획자들이 문제 해결 과정에서 데이터를 활용한다. 하지만 단순히 데이터를 보기만 한다면 데이터 의사 결정일까? 필자가 경험한 바에 의하면 많은 조직이 데이터 드리븐(Data Driven)이라는 명목하에 단순히 데이터를 뽑아보고 참고만 하거나, 기본적인 데이터 지식도 없이 잘못된 해석을 통해 의사 결정을 하는 경우가 많았다.
그중에서도 대표적으로 데이터의 상관관계와 인과관계를 혼용하여 사용하는 경우가 많다. 그럼 상관관계와 인과관계는 무엇일까? 단어만 들었을 때는 다소 어렵게 느껴지고, 데이터 분석가도 아닌 기획자가 이런 것까지 알아야 하는지 의구심도 든다. 그러나 상관관계와 인과관계는 실제 우리 일상과 실무에서도 자주 사용되고 있는 개념이다.
이번 글은 데이터 기반의 조직에서 알아야 하는 상관관계와 인과관계에 대한 개념을 알아보고, 기획자로서 최소한의 데이터 분석 지식을 겸비하여 올바른 의사 결정을 할 수 있도록 돕고자 한다.
평소 데이터에 관심이 있다면 ‘상관관계는 인과관계를 의미하지 않는다’는 말을 들어 봤을 것이다. 각 단어의 뜻을 기획자 입장에서 쉽게 해석하면 다음과 같다.
상관관계는 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미한다. 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따르는 식이다.
실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미하며, 원인과 결과가 명확한 것을 인과관계라고 한다.
앞서 언급한 것처럼 상관관계는 일상에서도 많이 사용한. 한 예시로 우리는 돈과 행복은 일정한 범위까지 유의미한 관계를 맺고 있다고 생각한다. 쉽게 설명하면 돈이 많으면 행복할 가능성이 높다는 것이다.
하지만 돈이 많아서 행복해진 것인지, 애초에 행복한 사람이 더 열심히 일해서 돈이 많은 것인지는 알 수 없다. 즉 돈이 행복을 충족함에 있어 어느 정도 상관이 있다고 생각할 수 있지만, 돈이 무조건 행복을 의미한다고 할 수 없는 것이다. 결국 돈은 행복과 상관관계가 있다고 볼 수는 있으나, 돈이 행복과 인과관계가 있다고는 할 수 없다.
사람들은 평소 특정 원인과 결과에서 관계가 존재한다 혹은 관계가 존재하지 않는다로 판단하여, 의사결정 하는 경우가 많다. 대표적으로 단순 상관관계만으로 잘못된 판단한 사례 중 1940년대 보건 전문가의 소아마비와 아이스크림 섭취 간의 연구 결과가 있다.
당시 보건 전문가는 소아마비와 아이스크림 섭취량의 상관관계가 있는 것을 발견하고, 전국에 소아마비 예방을 위해 아이스크림 섭취량을 줄일 것을 권고했다. 나중에 밝혀진 사실은 소아마비는 여름에 많이 발생하고, 아이스크림 또한 여름에 판매량이 급증한다는 것이었다. 즉 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 존재하지 않았고, 단순히 날씨라는 변수로 인해 공통으로 영향을 주었을 뿐이다.
상관관계와 인과관계를 구별하는 방법은 생각보다 쉽다. 우선 모든 상관관계는 인과관계가 아니라는 개념을 꼭 기억해야 한다.
만약 두 가지 사실 중 한쪽에서 원인이 발생하여 다른 한쪽에 결과가 생겨난 경우, 이 둘 사이에 인과관계가 있다고 이야기한다. 또한 한쪽에 이끌려 다른 한쪽도 변화한 것처럼 보이지만, 원인과 결과의 관계가 있지 않은 경우를 상관관계가 있다고 한다.
쉽게 설명하면 위 이미지처럼 커피와 심장병 발병에는 어느 정도의 상관관계가 존재하지만, 커피를 줄이거나 아예 먹지 않는다고 하여 심장병이 줄어드는 것은 아니다. 그러나 스트레스라는 원인은 커피 소비량과 심장 발병률을 증가시키기 때문에 인과관계가 있다고 볼 수 있다.
여기서 잘못된 판단을 하면 심장병을 줄이기 위해 커피를 불매하자는 결론이 나오는 것이다. 이처럼 단순 상관관계만으로 잘못된 판단을 하는 것을 ‘역인과관계(Reverse causation)의 오류’라고 한다.
핵심은 기획자로서 데이터의 상관관계와 인과관계의 개념을 이해하는 것이다. 개념을 알지 못한 상태에서 데이터를 보는 것과 개념을 이해한 상태에서 데이터를 보는 것은 천차만별이다. 기획자라는 직무 특성상 데이터를 자신이 원하는 방향으로 해석하려는 경향이 있다. 단순 상관관계가 존재한다는 사실만으로 올바르지 못한 의사 결정을 하게 된다면, 분명 좋지 못한 결과를 초래할 것이다.
똑같은 데이터를 두고도 보는 사람에 따라 전혀 다른 해석 결과가 나올 수 있다. 즉 기획자에 따라 방향성이 달라질 수 있다는 것이다. 예를 들어 기획자가 본인의 프로젝트를 진행 후 제품의 DAU(Daily Active Users)가 상승했는데, 이를 분석한 결과 본인의 프로젝트와 어느 정도 상관관계가 있다는 말을 들었다. 이때 기획자는 본인의 프로젝트가 제품 성장에 기여했다고 판단하여, 해당 프로젝트를 계속 지금처럼 유지하는 것으로 방향성을 정했다.
이때 상관관계가 있다는 것은 어느 정도 영향력이 있다는 것을 의미한다. 다만 다른 외생 변수는 고려하지 않고, 상관관계를 마치 인과관계와 같은 원인과 결과로만 바라보고 판단하면 문제가 발생할 수 있다.
참고해야 할 것은 상관관계 데이터가 무조건 잘못된 것은 아니라는 점이다. 그렇기에 수많은 상관관계 속에는 하나의 명확한 인과관계가 존재한다는 사실을 기억하자.
기획자로서의 핵심은 수많은 실험과 A/B 테스트를 통해 하나의 상관관계를 발견하고, 이를 통해 명확한 인과관계를 찾아 나서는 것이다. 물론 이 과정은 쉽지 않지만, 특정 지표의 상관관계를 계속해서 찾아낸다면 상관관계는 인과관계를 확립하는 기본적인 하나의 증거가 된다.
우리는 이를 통해 특정 지표의 특수성을 발견할 수 있고, 흔히 말하는 유저의 아하-모멘트(Aha-Moment)를 찾을 수 있는 계기가 될 것이다.
데이터 의사 결정이 중요한 요즘, 기획자들에게 요구하는 데이터 분석 능력은 데이터를 보고 올바른 해석으로 방향성을 결정하는 능력일 것이다. 그렇다면 이번 글을 통해 알아본 상관관계와 인과관계에 대한 개념을 이해하는 것에서부터 시작할 수 있다. 데이터를 분석한다고 해도 매번 완벽한 의사결정을 하긴 어려울 것이다. 하지만 이를 통해 한 단계씩 성장하는 기획자로 거듭날 수 있길 기대해본다.
요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.