데이터 분석가 채용 공고를 보면 ‘통계학과 우대’, ‘통계 지식 자격 요건’이라는 말을 많이 볼 수 있습니다. 이처럼 통계는 데이터를 다루고 이해하는 데 중요한 학문이자 도구입니다. 따라서 데이터 분석가의 역량 가운데 ‘통계’에 대한 이해는 매우 중요한 부분입니다. 그렇기에 경험 자체를 증명하기 어려운 신입/주니어 면접에는 통계 관련 질문이 등장하고는 합니다. 특히, 면접에서 가장 자주 등장하는 질문은 평균, 분산, 표준편차, 가설 검정 등 기초 통계 개념입니다. 당근마켓 데이터 분석가 채용 공고 <출처: 원티드 캡처> 그런 만큼 이번 글에서는 실제 데이터 분석가 면접에서 나올 법한 통계 질문과 답변을 소개하겠습니다. 또한, 모든 실무자를 위해 실제 실무에서 이 통계 지식으로 어떻게 문제를 풀어가는지도 함께 설명할 예정입니다. 본문에 앞서: Q&A 구조 미리보기글에서 통계 Q&A 구조의 본문은 아래 형식으로 써보았습니다. Q: 작가가 실제 받았거나 예상한 면접 질문 ex. 상관관계와 인과관계의 차이점은 무엇인가? A1: 답변ex. 상관관계(Correlation)는 두 변수 간에 일정한 관계가 있음을 나타냅니다. 그러나 상관관계가 있다고 해서 한 변수가 다른 변수의 원인이라는 것을 의미하지 않습니다. 예를 들어, A와 B가 함께 증가하거나 감소하는 경향이 있을 수 있지만, A가 B의 원인이라고 단정할 수는 없습니다. 인과관계(Causation)는 한 변수가 다른 변수에 직접적인 영향을 미친다는 뜻입니다. 즉, 한 변수의 변화가 다른 변수의 변화를 초래한다는 개념입니다. 인과관계를 입증하려면 실험적 연구나 추가 증거가 필요합니다. A2: 실무 예시ex. 상관관계에 대한 분석 실무 예시, 인과관계에 대해 분석 프로젝트 예시 면접에서 만나는 통계 질문 Q&A Q. 유저의 후기 글자 수 통계량을 구한다면 어떤 수치를 구할 것인가? (혹은) 어떻게 할 것인가? A1. 답변유저의 후기 글자 수를 분석할 때는 단순히 평균 길이를 보는 것뿐만 아니라, 글자 수의 분포와 변동성을 함께 살펴보는 것이 중요합니다. 이를 위해 먼저 평균(Mean)을 구하면 후기의 일반적인 길이를 파악할 수 있습니다. 하지만, 평균은 일부 극단적으로 긴 후기나 짧은 후기의 영향을 받을 수 있습니다. 그 때문에 중앙값(Median)도 함께 확인하는 것이 좋습니다. 중앙값은 데이터를 정렬했을 때 한 가운데 위치하는 값으로, 후기가 대체로 어느 정도 길이를 가지는지보다 현실적인 기준을 제공합니다. 한편 특정 글자 수로 후기가 집중되는지 확인하려면 최빈값(Mode)을 구할 수 있습니다. 예를 들어, 사용자가 보통 100자 내외 후기를 작성하는지, 아니면 500자 이상의 긴 후기가 많은지 확인할 수 있습니다. 마지막으로, 후기 길이의 변동성이 큰지 역시 중요한 분석 포인트입니다. 이를 위해 표준편차(Standard Deviation)와 분산(Variance)을 계산하면 후기 글자 수가 얼마나 널리 퍼져 있는지를 알 수 있습니다. 만약 표준편차가 크다면, 유저들이 아주 짧거나 아주 긴 후기를 작성하는 경향이 강한 것이고, 표준편차가 작다면 후기 길이가 비교적 일정하다는 의미가 됩니다. <출처: 작가> A2. 실무 예시현업에서는 이러한 통계량을 활용해 사용자 리뷰 정책을 개선하거나, 분석 결과를 기반으로 마케팅 전략을 세우는 데 활용할 수 있습니다. 예를 들어,리뷰가 평균적으로 짧다면, 리뷰 작성 가이드를 추가하거나 최소 글자 수를 설정하여 더욱 유용한 후기를 유도할 수 있습니다.후기 길이의 변동성이 크다면, 긴 후기와 짧은 후기를 구분해 분석하고, 상세 리뷰 작성자를 리워드하는 캠페인을 기획할 수 있습니다.히스토그램을 활용해 후기 길이의 분포를 시각적으로 분석하면, 어떤 특정 구간(예: 50자 미만, 100자 이상)에 유저가 몰리는지 확인하고 적절한 인센티브 정책을 도입할 수 있습니다. 이처럼 후기 글자 수 분석은 단순 데이터 측정이 아니라, 유저 행동 패턴을 파악하고 서비스 운영을 최적화하는 데 중요한 역할을 합니다. Q. 웹사이트 방문자의 일일 접속 시간 데이터를 어떻게 분석할 것인가? 이 데이터는 어느 케이스에서 주요 지표가 되는가? A1. 답변웹사이트 방문자의 접속 시간 데이터를 분석하면 사용자들이 사이트에서 얼마나 오래 머무르는지, 어떤 패턴을 보이는지, 특정 시간대에 집중된 경향이 있는지 등을 파악할 수 있습니다. 이를 위해 히스토그램 시각화와 평균, 분산, 표준편차 등 통계 개념을 활용할 수 있습니다. 먼저, 히스토그램을 활용하면 방문 시간 분포를 한눈에 파악할 수 있습니다. 예시로 대부분 방문자가 1~3분 이내에 사이트를 이탈한다면 콘텐츠의 흡입력이 낮거나 원하는 정보를 빠르게 찾지 못하는 문제가 있을 수 있습니다. 반대로, 접속 시간이 10분 이상인 사용자가 많다면 충성도 높은 유저층이 형성되어 있다고 해석할 수 있습니다. 이를 통해 특정 구간의 유저 행동을 분석하고, 콘텐츠 개선이나 UI/UX 최적화 방향을 결정할 수 있습니다. 평균 접속 시간은 방문자의 전반적인 이용 시간을 대표하는 값으로, 사이트 체류 시간이 적절한지 판단하는 데 활용됩니다. 예를 들어, 평균 접속 시간이 8분이라면 대부분 유저가 콘텐츠를 충분히 소비하는 것으로 볼 수 있지만, 평균이 2분 이하라면 사이트의 구조나 콘텐츠 품질을 개선해야 할 가능성이 큽니다. 하지만 평균값만으로는 충분한 정보를 제공하지 않기 때문에 분산과 표준편차를 함께 분석해야 합니다. 표준편차가 크다면 방문 시간에 편차가 크다는 의미로, 일부 유저는 짧게 머물고 일부 유저는 오래 머무르는 경향이 강하다는 뜻입니다. 이는 사용자 유형이 다양하다는 것을 시사할 수 있으며, 신규 방문자와 기존 충성 고객의 행동 차이를 분석하는 기초 자료가 될 수 있습니다. 반대로 표준편차가 작다면 방문 시간이 비교적 일정하게 유지된다는 뜻으로, 유사한 행동 패턴을 보이는 유저층이 형성되어 있음을 의미합니다. A2. 실무 예시이러한 분석 결과는 웹사이트 운영 전략을 세우는 데 직접 활용됩니다. 예를 들어, 접속 시간이 짧은 사용자층을 늘리고 싶다면 랜딩 페이지나 첫 화면의 콘텐츠를 최적화해 볼 수 있습니다.긴 체류 시간을 유도할 유저층에는 맞춤형 추천 콘텐츠를 제공하는 방식으로 사이트 개선 방향을 설정할 수 있습니다. 이런 과정은 단순한 통계 숫자 분석이 아닌, 실제 사용자 경험 개선으로 연결할 주요 인사이트를 얻는 과정이라고 볼 수 있습니다. Q. 가설 검정이란 무엇인가요? 어떤 상황에서 사용하나요? 귀무가설과 대립가설의 차이점은 무엇인가요? A1. 답변가설 검정이란, 통계학에서 데이터를 기반으로 특정 가설이 참인지 여부를 판별하는 과정입니다. 주어진 데이터나 실험으로 어떤 현상이 우연히 일어난 것인지, 아니면 실제로 존재하는 차이나 효과인지 확인하는 과정입니다. 프로젝트 개편에 대한 성과 분석을 하거나 A/B Test 를 진행할 때 가설 검정을 진행할 수 있습니다. 이때 귀무가설이란 ‘차이가 없다, 효과가 없다’를 의미하며, 대립가설은 ‘입증하여 주장하고자 하는 가설이 의미 있다, 즉, 효과가 있는 주장이다’를 의미합니다. 예를 들어, 홈 개편을 할 경우 이렇게 설정할 수 있습니다.귀무가설: 홈 개편 전과 홈 개편 후의 구매 전환율이 동일하다.대립가설: 홈 개편 전과 홈 개편 후의 구매 전환율은 다르다. A2. 실무 예시“실무에서 어떻게 쓸까?”라는 질문이 어색할 정도로, 가설 검정은 많이 쓰이는 개념입니다. 직접 ‘가설 검정’이라는 단어를 쓰는 것은 아니지만, 각각 프로젝트를 평가할 때 자연스럽게 녹여져 있는 통계입니다. 예를 들어, 배달 플랫폼 데이터 분석가라면 아래와 같은 가설을 세우고 검정할 수 있습니다. 가설 1. “특정 할인 프로모션이 고객의 주문 빈도를 증가시킨다.”귀무가설: “프로모션 전과 후의 고객 주문 빈도는 동일하다.”대립가설: “프로모션 후 고객의 주문 빈도가 증가했다.” 가설 2. “배달 시간이 단축되면 고객의 만족도가 증가한다.”귀무가설: “배달 시간 단축 전과 후의 고객 만족도는 동일하다.”대립가설: “배달 시간이 단축된 후 고객 만족도가 증가했다.” 가설 3. “배달 앱 알림 기능을 개선하면 고객의 앱 재방문율이 증가한다.”귀무가설: “알림 기능 개선 전과 후의 고객 앱 재방문율은 동일하다.”대립가설: “알림 기능 개선 후 고객의 앱 재방문율이 증가했다.” Q. p-value를 초등학생도 이해할 수 있게 설명하라. A1. 답변p-value는 ‘우연히 그런 결과가 나올 확률’을 말합니다. 따라서 p-value가 매우 작으면 ‘우연이 아니’라고 판단할 수 있습니다. 반대로 p-value가 크면 ‘우연일 가능성이 높다’ 라고 판단합니다. 이를테면 3학년 1반의 수학 점수 평균이 1년 내내 90점이었는데 어느 날 평균 95점을 맞았다면, 이것이 실제로 ‘열심히 해서 성적이 오른 건지’ 아니면 ‘우연히 일어난 일인지’ 구별하는 것이 중요합니다. 이때, p-value를 계산해서 p-value가 0.05보다 작으면 ‘우연이 아닌, 실제로 성적이 오른 것!’이고 0.05보다 크다면 ‘우연일 가능성이 높다’라고 판단할 수 있습니다. <출처: 작가> A2. 실무 예시실제 A/B 테스트 혹은 모평균의 추정과 같은 다양한 가설 검정을 할 때, p-value를 계산해 실제 발생한 지표 차이가 우연일 가능성이 높은지 낮은지를 판단할 수 있습니다. p-value는 꼭 직접 계산하지 않고도 파이썬이나 엑셀(스프레드시트)로 구할 수 있습니다. 파이썬scipy.stats 라이브러리로 p-value를 계산p_value = stats.norm.sf(z_score) 엑셀NORM.S.DIST 함수를 사용해 p-value를 계산p-value = 1- NORM.S.DIST(z-점수, TRUE) 또한 A/B 테스트의 결과를 해석해 주는 홈페이지에서 결과를 쉽게 볼 수도 있습니다. 기초 통계는 데이터 분석가뿐만 아니라 모든 실무자에게 유용하다이 개념들은 데이터 분석 직군에 국한된 것이 아니라 다양한 실무에서도 활용됩니다. 예를 들어, 마케팅 담당자가 고객 만족도 조사 결과를 분석할 때 평균과 표준편차를 활용해 고객 반응의 분포를 파악할 수 있으며, 영업팀에서는 매출 데이터의 추세를 분석하는 데 활용할 수 있습니다. 특히, 복잡한 분석 도구 없이 엑셀만으로 충분히 기초 통계 분석을 수행할 수 있습니다.다음과 같은 엑셀 함수를 활용하면 쉽고 빠르게 데이터를 분석할 수 있습니다. 평균 계산: =AVERAGE()특정 기간의 평균 매출이나 고객 만족도 점수를 구하는 데 유용합니다. 표준편차 계산: =STDEV.P() 또는 =STDEV.S()데이터의 변동성을 확인하여 안정성을 평가할 때 활용합니다. 분산 계산: =VAR.P() 또는 =VAR.S()데이터의 값들이 평균을 기준으로 얼마나 퍼져 있는지 분석합니다. 최빈값(가장 자주 등장하는 값) 찾기: =MODE.SNGL()고객 선호 제품이나 가장 많이 발생한 오류 코드를 확인합니다. 가설 검정(T-검정): =T.TEST()신제품과 기존 제품의 평균 차이가 유의미한지 판단합니다. 피벗 테이블을 활용해 대량의 데이터를 요약하고 다양한 시각적 분석을 수행하는 것도 한 예시입니다. 따라서 데이터 분석가뿐만 아니라 엑셀을 다루는 모든 실무자가 기초 통계를 익혀두면, 데이터를 활용한 의사 결정이 훨씬 수월해질 것입니다. 마치며: 기초 통계만으로도 데이터를 해석하고 인사이트를 얻을 수 있다‘왜 머신러닝이나 고급 통계에 대한 내용이 없지?’라고 생각할 수 있습니다. 물론 이런 질문 외에도 실무에서 사용하는 통계 방법은 훨씬 다양하고 어려운 부분이 있습니다. 그러나 실제 업무에서는 기초 통계를 잘 이해하는 것만으로도 충분히 데이터를 해석하고 인사이트를 얻어내는 데 어려움이 없습니다. (다만, 고급 통계가 필요하고 그에 대한 능력치를 요구하는 순간과 회사도 분명 있기는 합니다) 당근마켓 데이터 분석가 채용 공고 <출처 : 원티드 캡처> 또한, 데이터 분석가는 이 채용 공고처럼 통계에 대한 이해를 바탕으로 두는 업무 외에도 로그 설계/데이터 구조 설계/데이터 추출 등 다양한 업무를 수행합니다. 그러니 ‘통계 지식이 뛰어나다’가 곧 ‘데이터 분석가의 역량이 뛰어나다’라고 말하기는 어렵습니다. 따라서, 특히 신입일수록, 기초 통계에 대한 확실한 이해를 바탕으로 어떤 비즈니스 인사이트를 줄 수 있는지 고민하는 게 더 중요합니다. 통계를 학습할 때는 이런 것을 반드시 염두에 두면 좋겠습니다. Appendix. 통계 공부 방법마지막으로, 통계학과를 다니지 않는 비전공자도 학교 외에서 공부할 수 있는 방법을 소개합니다. 강의KMOOC: 인터넷 대학 강의무료로 다양한 인터넷 대학 강의를 들을 수 있습니다. 책세상에서 가장 쉬운 통계학 입문: 고지마 히로유키 지음통계 기초를 쉽게 설명하고 배울 수 있는 책입니다. 유튜브통계의 본질통알못을 위한 통계튜브유튜브의 경우, 개념 단위로 쪼개진 영상이 존재하며 접근성이 높아 부족한 개념을 쉽게 이해할 수 있습니다. ©요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.