이전 글 ‘사용자 행동 데이터 분석: ②넷플릭스와 아마존은 데이터 분석을 어떻게 할까요?’에서 넷플릭스와 아마존의 사례를 통해 사용자 행동 데이터 분석이 실제 비즈니스에서 어떻게 활용되고 있는지 알아보았습니다. 하지만 데이터를 무작정 분석해서 회사 서비스에 적용하면 문제가 생길 수도 있습니다. 그래서 오늘은 실제 회사에서 사용자 행동 데이터를 분석할 때 주의해야 할 점에 관해 설명해 보겠습니다.

사용자 행동 데이터를 분석할 때 주의할 점 4가지

1. 사용자들은 우리가 원하는 대로 서비스를 쓰지 않는다

사용자 행동 데이터를 분석하다 보면 예상한 대로 데이터가 안 나오는 경우가 빈번하게 있습니다. 위 이미지처럼 디자이너가 예쁘게 길을 만들어 놓아도 정작 이용하는 사람들은 편하고 빠른 지름길을 만들기 마련입니다. 웹 서비스도 비슷합니다. 기획자나 개발자가 ‘이렇게 사용하겠지’라고 예상하고 만든 기능들을 사용자가 그대로 사용할 것이라는 믿음은 잠시 접어두는 게 좋습니다.

그러니 예상한 대로 사용자 행동 데이터가 나오지 않아도 놀라지 않고 있는 그대로 데이터를 봐야 합니다. 사용자들은 언제나 예상치 못한 방법으로 서비스를 사용하기 때문에 이를 염두에 두고 분석해야 제대로 된 데이터를 얻을 수 있습니다.

2. 데이터가 기록되는 방식을 정확하게 이해해야 한다

가끔 사용자들이 예상한 대로 서비스를 잘 사용하고 있지만, 데이터가 쌓이는 시점이나 형식이 본인이 알고 있는 지식과 달라 분석 내용에 오류가 발생하는 경우도 있습니다. 예를 들어 특정 서비스 회원가입 프로세스의 사용자 행동 데이터를 분석하는 상황을 가정해보겠습니다.

이미지를 보면 로그인 화면에서 회원가입을 클릭한 후 → 회원 정보를 기입하고 → 이메일 인증을 한 후 → 회원가입이 완료되는 프로세스입니다. 이 과정에서 ‘Signup’ 데이터를 위 프로세스 어떤 단계에서 쌓아야 맞는 걸까요?

실제 데이터 기록 시점 — 내가 생각한 것과 실제 데이터가 기록되는 시점 비교

저는 이메일 인증까지 완료한 후에 최종 서버에 회원 정보가 등록될 때 ‘Signup’ 데이터가 저장되는 걸로 알고 있었습니다. 하지만 실제 데이터가 기록되는 건 회원가입을 시작한 시점, 즉 로그인 화면에서 회원 가입하기를 누른 순간이었습니다. 만약 전자의 상식으로 Signup 데이터를 분석했다면 ‘서비스 실제 사용자 수’를 ‘회원가입 완료 수’라고 해석했을 겁니다. 이처럼 사용자 행동 데이터는 제대로 된 정보를 바탕으로 분석하는 게 중요합니다.

사실 회원가입 프로세스에 별다른 이상이 없고 회원가입을 시작한 사람이 모두 회원가입 완료를 한다고 하면, 이 시점의 차이가 크게 문제가 되지 않을 수도 있습니다. 그런데 어느 날 이메일 인증 과정에서 문제가 생기면 데이터 분석할 때도 이슈가 생깁니다. 회원가입 시작할 때의 데이터만 쌓이고 있다면, 회원가입 시작한 이후 이메일 인증 과정에 문제가 생기더라도 ‘Signup’이라고 하는 데이터의 수치에는 문제가 전혀 없는 것처럼 보일 수 있기 때문입니다.

그렇게 되면 이제 이메일 인증에 문제가 있는 걸 나중에 알게 되어 서비스 운영에 문제가 생길 수 있습니다. 특히 문제 상황을 바로 알아채지 못하면 많은 유저가 불편함을 느낀 후에 문제를 파악하고 개선하게 됩니다. 유저가 이미 떠난 후에 말이죠. 실제 회사에서도 빈번하게 일어나는 일이라 꼭 주의해야 할 부분입니다.

3. 데이터는 언제나 잘못 기록될 가능성이 있다

사용자 행동 데이터를 기록하는 방식은 여러 가지가 있습니다. 구글 애널리틱스, 앰플리튜드 등의 서드파티 툴을 사용하거나 자체 로깅 시스템을 사용하는 방식 등 회사는 각자 사정에 맞게 여러 가지 방법으로 사용자 행동 데이터를 쌓고 있습니다.

모든 플랫폼에서 사용자 행동 데이터를 완전히 똑같은 방식으로 쌓을 수 있으면 참 좋을 텐데요. 데이터를 쌓는 플랫폼마다 사용자 행동 데이터가 쌓이는 조건이 조금씩 다를 수 있습니다. 그래서 똑같은 페이지뷰, 클릭 데이터를 보더라도 플랫폼별로 기록되는 방식이 달라 수치에 오차가 발생할 수 있습니다. 심지어 특정 플랫폼에서 의도치 않게 데이터가 중복으로 쌓이는 일도 충분히 발생할 수 있습니다.

앞서 사용자 행동 데이터의 특징에서 이야기했던 것처럼, 사용자 행동 데이터는 서비스 데이터에 비해 비교적 신뢰도가 낮은 데이터이기 때문에 분석할 때 항상 데이터의 정합성을 의심하며 살펴보는 습관이 필요합니다.

실제로 현업에서 업무할 때는 데이터의 신뢰도를 확보하기 위해 엔지니어와 분석가들이 데이터 QA를 열심히 합니다. 웹사이트를 운영하는 경우 데이터 QA를 위해 크롬 확장 프로그램인 Omnibug를 사용하여 데이터가 잘 들어가고 있는지 눈으로 확인해 보기도 하고요. 이렇게 많은 사람이 사용자 행동 데이터가 정확하게 쌓이도록 매일 노력합니다. 그럼에도 불구하고 사용자 행동 데이터는 신뢰도에 문제가 발생하지 않게끔 하는 게 굉장히 어려우니 조심해야 합니다.

4. 데이터를 조회할 때 주의가 필요하다

마지막으로 사용자 행동 데이터는 짧은 기간에도 매우 많은 데이터가 쌓이기 때문에 조회할 때 주의가 필요합니다. 아주 작은 서비스라고 하더라도 짧은 기간에 사용자 행동 데이터가 굉장히 많이 쌓일 수 있기 때문입니다. 결제는 한 사람이 하루에 100번 하기 어렵지만, 클릭은 100번, 1,000번도 할 수 있습니다. 그 때문에 사용자 행동 데이터가 저장된 데이터베이스에 쿼리를 잘못 설정하면 데이터베이스에 과부하가 걸리거나 심한 경우 서버가 다운될 수도 있기 때문에 주의가 필요합니다.