데이터 엔지니어나 분석가가 아닌 직군은 데이터를 다루기 위해 무엇을 공부해야 할까요? 데이터를 어떤 관점으로 바라보고, 어느 수준까지 활용하면 좋을까요? 오늘은 개발 또는 데이터 관련 직군은 아니지만, 업무에 데이터를 활용해야 하거나 조금 더 잘 활용하고 싶은 분들을 위해 도서 추천 글을 준비했습니다. 저 역시 데이터 분석가가 아님에도 업무 시 직접 데이터를 활용할 때가 많아 여러 고충이 있었는데요. 제가 공부하며 도움을 받았던 데이터 분야 책들을 여러분에게 소개하고자 합니다.
지금까지 비개발자, 비데이터 직군인 일반 사무직으로써 자주 사용하는 엑셀을 통해 온라인 서비스의 데이터베이스 중 하나인 RDB와 이를 활용해 데이터를 조회/추출하기 위한 SQL의 문법 중 기초 문법 일부를 살펴보았다. 이번 글부터는 조금 더 본격적이고 구체적인 문법과 함수들을 살펴볼 예정이다. 다만 이는 여전히 우리가 엑셀에서도 평소에 데이터를 정리/보고하던 때 사용하던 맥락과 모두 동일하며, 함수도 대부분 엑셀에서의 함수와 동일하거나 매우 유사하니 참고 바란다.
VOD 강의부터 부트캠프에 이르기까지, SQL(Structured Query Language, 데이터베이스 시스템에서 자료를 처리하는 용도로 사용되는 구조적 데이터 질의 언어)의 수요가 늘고 있다. 이제는 비단 백엔드 엔지니어와 데이터 엔지니어, 데이터 분석가가 아니더라도 DB에서 직접 데이터를 추출해서 분석하려는 업무가 늘었기 때문이다. 그런데 비개발자, 비데이터 직군인 우리에게 데이터 추출과 조회는 정말 처음일까? 그리고 SQL은 우리가 경험해보지 못한 신세계의 개념과 기술일까?
이전 글에서 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 방법과 해석에 관한 내용을 살펴보았다. 이때 해석 내용 중 계산기에서 ‘결과가 유의미하지 않다(Not Significant)’라고 했을 때 여러 변수가 생길 수 있다고 강조했다. 그래서 이번 글에서는 기획자와 PM, 마케터를 위해 ‘유의미하지 않은 결과’가 어떤 이유로 나온 것인지, 특히 ‘애초에 표본 사이즈와 유의미한 결과가 무슨 상관인지’를 알아보고자 한다.
서비스 기획, PM, 그리고 그로스 해킹과 관련한 부트캠프나 신입 교육 과정을 살펴보면, A/B 테스트에 관한 이야기가 많다. 아마도 서비스를 개선하는 실험 방안 중 하나로 A/B 테스트가 가장 유명(?)하기 때문일 것이다. 그런데, A/B 테스트는 정말 A와 B안(또는 경우에 따라 C, D, E안....)을 가져와 균등한 트래픽으로 나누어 동시간대에 진행하기만 하면 되는 걸까? A/B 테스트를 통해 우리가 알고 싶은 건 정말 ‘목표를 달성하기 위한 방안으로 A안과 B안 중 어느 게 더 효과가 좋은가?’가 끝인 걸까?