
데이터 분석가 채용 공고(JD)를 보면, 공통으로 '가설 기반 분석 경험'을 강조하는 것을 자주 볼 수 있습니다. 가설 없이도 데이터 분석은 가능해 보이는데, 기업들은 왜 기술 역량을 넘어 가설 설정까지 중요하게 여길까요? 그 이유는 데이터 분석이 단순히 데이터를 처리하거나 시각화하는 과정을 넘어, 명확한 문제 해결을 목표로 하기 때문입니다.
가설은 이러한 목적을 가장 효율적으로 달성하고, 검증할 수 있도록 돕는 핵심 도구입니다. 제 경험을 예로 들면, 과거 특정 지표 하락의 원인을 찾다가 아무런 계획 없이 생각의 흐름대로 데이터를 분석한 적이 있습니다. 결과적으로 많은 시간을 들였지만, 명확한 결론을 내리지 못했습니다. 그런 저에게 팀장님은 '가설이 없어서 그렇다'라는 피드백을 주셨고요. 그 이후부턴 분석 기획 단계에서 여러 가설을 설정하고, 이를 검증하기 위해 어떤 지표를 활용할지를 먼저 정리했습니다. 그 결과, 분석 시간이 줄고 더 효율적으로 분석 과제를 수행할 수 있었습니다.
이번 글에서는 데이터 분석에서 가설이 왜 필수적인지, 효과적인 가설 설정 방법은 무엇인지, 그리고 가설 수립이 어려울 때 AI를 어떻게 활용할 수 있을지 자세히 알아보겠습니다.
데이터 분석에서 가설이 필수적인 이유는 ‘짧은 시간에 효율적인 분석이 가능하기’ 때문입니다. 가설 없이 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)를 진행할 경우, 그 보고서의 끝은 장담할 수 없습니다. 예를 들어, ‘신규 회원 감소’라는 문제가 발생했을 때, 가설이 없다면 모든 부분을 살펴봐야 해서 결론을 내리기가 어려울 수 있습니다.
따라서 ‘가설 1. 신규 회원 마케팅 감소로 인해 신규 회원이 감소했을 것이다.’, ‘가설 2. paid 채널의 변화로 인해 신규 회원이 감소했을 것이다.’처럼 특정 목표를 두고, 데이터를 찾아가는 것이 좋습니다. 즉, 가설 사고는 이미 정해진 결론을 생각하고, 그것을 찾아가기 위한 분석과 증명입니다.
조건 1. 원인과 이유를 파악할 수 있는 가설이어야 한다.
조건 2. 행동과 연결해야 한다.
조건 3. 검증이 가능한 가설
좋은 가설에 대한 예시 1
가설: 7/1일 구매 전환율이 감소한 원인은 paid 채널의 변화 때문이다.
좋은 가설에 대한 예시 2
가설: 친구를 팔로우한 신규 사용자는 팔로우하지 않은 사용자보다 7일 후 리텐션이 더 높을 것이다. (ex. 듀오링고)
나쁜 가설에 대한 예시
가설: 특가 상품의 구매 전환율이 낮은 이유는 유저들은 상품 상세 화면에서 ‘쿠폰 혜택’을 인지하지 못했기 때문이다.
좋은 가설을 세우기 위해서는 ‘분석 동료’와의 토론이나 협업하는 동료들과의 ‘인터뷰’에서 힌트를 얻을 수 있습니다. 또한 기존 분석 보고서를 학습해 얻은 인사이트도 좋은 가설로 이어질 수 있습니다. 물론 동료들과 이야기를 나누고, 과거 분석 자료를 살펴봐도 뾰족한 가설을 찾기 어려운 경우도 있습니다. 이런 상황에서 활용할 수 있는 방법을 소개하고자 합니다.
데이터 분석 과정에서 어떤 가설을 세워야 할지 막막하거나, 가설이 더 이상 떠오르지 않아 고민될 때가 있습니다. 이럴 때 ChatGPT나 Gemini 같은 AI 도구를 활용하면 큰 도움을 받을 수 있습니다. 지금부터는 특정 분석 과제를 가정하고, AI를 활용하여 가설을 설정해 분석 개요를 작성하는 것에 대해 공유하고자 합니다. (이 방법이 정답이라기보다는 개인적으로 터득한 노하우임을 미리 알려드립니다.) 과제는 AI를 통해 가상의 상황을 제공받았습니다.
AI 도구 활용에 관심이 있다면, '프롬프트’라는 단어를 들어보셨을 겁니다. 프롬프트 작성은 쉽게 말하면, AI에게 역할을 부여하고 상황을 알려주는 역할극과 비슷합니다. 제가 프롬프트를 작성하면서 얻은 몇 가지 팁은 다음과 같습니다.
(1) 역할, 상황, 목표를 명확히 설정합니다. AI에게 "너는 전문 데이터 분석가야. 우리 회사가 겪고 있는 특정 문제 상황을 설명할 테니, 이에 대한 가설을 세우고 분석 방향을 제시해 줘."와 같이 명확한 지시를 내리는 것이 중요합니다.
(2) 더 좋은 분석을 위해 AI에게 부족한 점을 되묻습니다. 처음 프롬프트를 작성한 후, "내가 제공한 정보 중에 가설을 세우는 데 부족하거나 더 필요한 정보가 있을까?" 혹은 "이 상황에서 더 고려해야 할 비즈니스 맥락이 있을까?"와 같이 AI에게 역으로 질문하여 더 풍부한 답변을 유도할 수 있습니다.
(3) AI 답변 중 필요한 요소를 선별하여 완벽한 프롬프트를 만듭니다. AI의 초기 답변을 그대로 사용하기보다는, 우리 비즈니스 상황에 가장 적합한 요소들을 선택하고 조합하여 최종 프롬프트를 완성합니다. 이 과정을 통해 AI의 제안을 우리의 의도에 맞게 다듬을 수 있습니다.
프롬프트 작성을 완료했다면 이제 가설 설정 단계로 넘어갈 수 있습니다. 가설을 설정할 때 가장 중요한 것은 회사 도메인 지식과 비즈니스 상황에 대한 이해입니다. AI는 일반적인 지식을 기반으로 가설을 제안할 수 있지만, 우리 회사의 고유한 데이터와 비즈니스 환경을 완벽히 이해하기는 어려운데요. 따라서 AI에게 앞서 설명한 두 가지 요소(도메인 지식, 비즈니스 상황)를 충분히 설명해야 하며, AI의 답변에 대해서는 스스로의 비판적인 판단이 필요합니다.
이번 과제(온라인 학습 플랫폼 사용자 이탈률 감소 원인 분석)에 대해 저는 아래와 같은 두 가지 가설을 세웠습니다.
이 두 가설 중 어떤 가설을 먼저 분석하는 것이 좋을지 판단이 부족하다면, 이 역시 AI에게 질문하여 답변을 확인할 수 있습니다. 예를 들어, "위에 제시된 두 가설 중, 현재 이탈률이 급증하는 상황에서 가장 먼저 검증해 봐야 할 가설은 무엇이며 그 이유는 무엇인가?"와 같이 질문하여 분석의 우선순위를 설정하는 데 도움을 받을 수 있습니다.
가설이 정해진 후, 어떤 지표를 어떻게 봐야 할지 감이 오지 않을 때도 AI를 활용할 수 있습니다. "가설 1을 검증하기 위한 분석 개요를 작성해 줘. 필요한 지표와 분석 방법도 포함해 줘."와 같이 요청하면 대략적인 분석 개요가 작성되어, 분석을 시작하는 데 도움을 받을 수 있죠.
이처럼 데이터 분석에서 ‘가설 설정’은 단순한 분석의 출발점이 아니라, 문제 해결을 위한 가장 효과적인 사고의 도구입니다.
저는 좋은 가설을 정의하기 위해 아래와 같은 방법을 사용했습니다.
앞으로는 AI를 활용한 데이터 분석이 더욱 확대될 거라고 생각합니다. 실제로 AWS, Google, Databricks 등 다양한 기업에서 대시보드는 물론, 데이터를 바탕으로 지표가 하락했을 때 자동으로 분석 보고서를 작성하는 도구를 제작하고 있습니다. 따라서 AI를 더 잘 활용하는 기술을 익히는 것뿐만 아니라, 이 기능이 주는 인사이트가 명확한지, 혹은 불확실한지를 정확하게 판단할 수 있는 도메인 지식과 사고력을 기르는 것이 더욱 중요해질 것입니다.
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.