최근 빅데이터는 ‘21세기 원유’라 불리고 있습니다. 데이터를 소유함으로써 인사이트를 분석하거나 산업, 고객에 대한 트렌드를 파악할 수 있기 때문입니다. 여기에 최근 발전한 인공지능 기술이 모두 빅데이터를 그 원천으로 하고 있어 데이터의 가치는 더욱 올라가고 있습니다. 이러한 이유로 최근에는 정부와 민간을 가리지 않고 데이터 확보에 많은 노력을 기울이고 있습니다. 대량의 데이터를 확보해서 사업에 활용하려는 것은 물론, 정부 차원에서 가능한 많은 공공데이터를 체계적으로 정리해 이를 활용하도록 장려하고 있습니다. 여기에 개인 차원에서도 다양한 경진대회 제공 데이터, 웹 크롤링 기술 등을 통해 쉽게 데이터에 접근할 수 있게 되었습니다. 하지만 생성되고 수집되는 무수히 많은 데이터들을 모두 쉽게 활용할 수 있는 것은 아닙니다. 어떤 데이터는 다른 데이터와 반드시 연결되어야 하며 어떤 데이터는 심각한 오류를 가지고 있어 애초에 활용이 불가능합니다.

양질의 데이터란 무엇인가?

1) 데이터의 품질

빅데이터 생태계 속에 있는 많은 이해관계자들은 가능한 많은 데이터를 확보하려고 노력합니다. 가능한 많은 데이터를 확보하는 것은 곧 쓸 수 있는 데이터가 늘어난다는 것을 의미하기 때문입니다. 하지만 역설적이게도 다양한 데이터를 보유하는 것이 데이터를 통해 이익을 취하는 것에 직결되지는 않습니다. 이를 자세하게 알기 위해 데이터의 품질과 데이터 활용도의 구체적인 관계를 그려보면 아래 그림과 같습니다. 기본적으로 품질이 높은 데이터일수록 활용 가치가 높습니다. 데이터가 명확하고 깔끔하여 해석이 용이한 경향이 있기 때문입니다. 하지만 우리가 실제로 활용하는 모든 데이터가 고품질의 데이터라고 볼 수는 없습니다. 정말 필요한 데이터가 품질이 낮다면 어쩔 수 없이 이를 가공하고 보완하여 활용해야 합니다. 따라서 저품질 데이터라고 모두 활용되지 않는 것은 아닙니다. 한 가지 분명한 것은 고품질의 데이터일수록 실제로 활용될 확률이 높다는 것입니다.

그리고 또 하나 주의해야 할 점이 있습니다. 바로 우리의 생각보다 저품질 데이터가 많다는 것입니다. 데이터 분석가의 실력이나 창의성과는 별개로 도저히 활용이 불가능한 데이터가 상당수 존재하는 것이 현실입니다. 때문에 데이터를 무작정 많이 수집하는 것이 분석 소스 확보 측면에서 장점이 있는 것은 맞지만, 효율성을 고려하면 그리 추천할 만한 행동은 아닙니다. 결국 데이터 수집과 분석의 효율성을 높이기 위해서 양질의 데이터를 판별할 줄 아는 능력은 중요하게 작용합니다. 활용 가치가 없는 혹은 활용하기에 너무나 애로사항이 많은 데이터는 애초에 수집을 하지 않거나 분석을 시도하지 않는 것이 경제적인 비용과 시간적인 비용 측면에서 우수합니다. 그렇기에 우리는 데이터 중에서도 품질이 높은 데이터를 가능한 많이 수집하고 분석 시에도 이를 활용하는 노력을 기울여야 합니다.

2) 양질의 데이터를 판단하는 방법

아쉽게도 데이터 품질을 명확히 정의하는 방법은 없습니다. 다만, 분석을 하기 쉬운 데이터인가? 이 데이터로 분석을 하면 결과를 명확하게 받아들일 수 있는가?로 질문을 바꾸면 어느 정도 답이 존재합니다. 데이터를 수집하거나 분석하는 사람이라면 이 문제에 답함으로써 데이터의 품질을 대략적으로 파악할 수 있습니다. 다행히도 분석하기 쉬운 데이터, 분석 결과물을 이해하기 쉬운 데이터, 분석 결과를 수용하기 용이한 데이터들은 어느 정도 공통적인 특징이 존재합니다.

분석에 유리한 데이터를 양질의 데이터라고 정의 내릴 때, 양질의 데이터는 크게 다음과 같은 5가지 정도의 특징을 지니고 있습니다. ① 데이터의 수가 충분히 많다. ② 데이터 자체의 오류가 적다. ③ 관계형데이터베이스 형식을 잘 지키고 있다. ④ 수치형 데이터 형식을 많이 보유하고 있다. ⑤ 활용 목적에 적합하다. 물론 양질의 데이터라고 해서 5가지의 모든 조건을 철저히 지키고 있는 것은 아니며, 낮은 품질의 데이터라고 해서 5가지의 조건과 모두 어긋나는 것은 아닙니다. 앞선 그림에서 살펴보았듯 양질의 데이터가 아니라고 해서 분석이 아예 불가능한 것 역시 아닙니다. 하지만 이 특징들을 명확히 이해한다면, 보편적인 양질의 데이터를 판별하는데 큰 도움이 됩니다.

데이터가 충분히 많은가?

양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로 마주하게 되는 데이터들이 모두 방대한 양을 지니고 있지는 않습니다. 1,000개가 되지 않는 데이터를 보는 것은 다반사이며, 심한 경우에는 단 한 줄의 데이터가 ‘데이터’라는 이름으로 유포되고 있기도 합니다. 기본적으로 적은 데이터 수는 곧바로 분석 결과의 신뢰성 하락으로 연결됩니다. 많은 데이터를 통해 충분히 검증한 결과와 그렇지 않은 결과의 차이입니다. 물론 언제나 예외는 있기 때문에 데이터 양이 작은 것이 문제가 되지 않을 때도 있으며, 생각보다 적은 데이터로도 문제 해결을 충분히 해낼 수도 있습니다. 그렇기에 ‘양질의 데이터’와 ‘데이터의 양’의 관계를 더욱 깊이 이해하려면, 데이터의 터 양이 중요한 상황이 언제인지 그리고 충분한 양의 데이터란 어느 정도인지에 대해 답할 수 있어야 합니다.

1) 데이터 양을 중요하게 고려해야 하는 경우

데이터 양을 중요하게 고려해야 하는 경우 중 가장 흔히 발생하는 상황은 표본이 모집단을 대표하지 못할 때입니다. 표본이란 어떤 사건이나 현상을 파악하기 위해 수집한 데이터를 의미하며 모집단은 분석 대상이 되는 집합 전체를 의미합니다. 예를 들어, 우리나라 인구의 평균 키를 알기 위해 10,000명의 키를 조사해 이를 분석했다면 우리나라 인구 전체는 모집단이 되고 10,000명의 조사 대상은 표본이 됩니다. 데이터를 분석할 때는 언제나 ‘표본 데이터를 통해 모집단 데이터를 유추할 수 있다’는 것을 가정합니다. 10,000명의 키를 보면 우리나라 인구 전체의 키도 어느 정도 유추할 수 있다는 가정입니다. 하지만 데이터 수 자체가 너무 적다면 표본의 대표성에 대해 의구심을 가질 수밖에 없습니다.

위 표는 공공데이터 포털에서 제공하는 경기도 광주시의 기온 데이터입니다. 247,387개의 데이터로 언뜻 보았을 때는 데이터 수 측면에서는 문제가 없는 것으로 보입니다. 하지만 이 데이터는 측정주기가 일정하지 않습니다. 그리고 가장 중요한 점으로 데이터 시기가 2018년 1월부터 2019년 5월까지입니다. 만약 분석을 하는 사람이 ‘6월 15일에는 평균적으로 기온이 몇 도일까?’에 대해 답을 하고자 한다면 2018년 6월 15일의 데이터 하나만 바라보아야 합니다. 물론 한 개년도의 데이터만 보는 것도 어느 정도 도움이 될 수는 있겠지만 평균 기온을 답하기에는 턱없이 부족합니다. 평균적으로 어느 정도의 기온을 띄고 있다고 말을 하려면 최소한 2개년의 기온 데이터는 필요합니다. 모집단의 수치를 유추해야 하지만 표본의 데이터가 너무 적은 대표적인 사례입니다. 이를 보완하기 위해서는 가능한 많은 년도의 기온 정보가 담겨있는 데이터가 필요합니다.

AI 알고리즘을 적용해야 하는 경우에도 데이터 양은 매우 중요한 이슈입니다. 최근 많이 이용되고 있는 AI 기술 중 하나인 딥러닝 알고리즘에는 핵심적인 원칙 하나가 있습니다. 바로 데이터가 많을수록 AI 정확도가 높아진다는 점입니다. 똑같은 AI 알고리즘에 똑같은 데이터를 이용한다고 할지라도 데이터의 양이 많으면 더 훌륭한 AI가 완성됩니다. 반대로 말하면, 데이터의 양이 일정 수준을 넘기지 못한다면 AI 알고리즘을 적용하기에는 무리가 있습니다. 실제로 비즈니스나 연구 환경에서 데이터를 활용하는 방법은 다양합니다. 단순히 평균, 표준편차 등의 수치만 분석을 할 때도 있고 머신러닝 기술을 적용하고자 할 때도 있습니다. 이때 분석가의 목표를 이루기 위해 머신러닝, 딥러닝 기술이 반드시 필요하다면 데이터의 양을 우선적으로 확인해야 합니다.

2) 어느 정도의 데이터가 충분한 양일까?

데이터의 양이 중요하게 작용하는 경우를 알았다면 그다음은 어느 정도의 데이터를 가지고 있어야 충분한가에 대해 대답할 수 있어야 합니다. 하지만 아쉽게도 충분한 데이터 양 문제 역시 명확한 분류 방법은 없습니다. 몇 개 이상의 데이터라면 충분하다는 절대적인 기준이 없습니다. ‘1,000개 이상의 데이터면 충분하다’, ‘가지고 있는 데이터 변수의 수 보다 100개 더 많은 데이터면 된다’, ‘변수의 수에 10을 곱한 숫자만큼의 데이터면 된다’ 등 관련해서는 다양한 의견들이 있습니다. 하지만 한 가지 알아 두어야 할 점은 상황에 따라, 데이터를 분석하는 목적과 방법에 따라 그 정도가 달라집니다.

보통 데이터 분석은 통계적인 분석과 머신러닝(기계학습) 분야로 크게 나눌 수 있습니다. 충분한 데이터 양에 명확한 기준은 없지만 지금까지의 분석 경험을 되돌아볼 때 통계적인 분석을 할 때는 최소한 500개 이상의 데이터, 머신러닝 분야에서는 변수의 수에 100을 곱한 것보다 많은 양의 데이터가 필요합니다. 통계적 분석을 할 때는 대부분의 분석 알고리즘이 ‘통계적 유의미성’이라는 것을 산출합니다. 분석 결과를 통계적으로 신뢰할 수 있는가에 대한 지표인데, 보통 데이터 수가 약 300~500개 이상이 될 때부터 이 수치가 안정적인 흐름으로 산출되게 됩니다. 때문에 학계에서도 통계적 분석을 할 때 해당 숫자 이상의 데이터를 이용했다면 결과를 어느 정도 신뢰합니다. 머신러닝 분야에서는 충분한 양의 데이터를 논의하는 것이 조금 더 어렵습니다. 기본 전제는 데이터가 많을수록 좋다는 것입니다. 하지만 최소한의 수준은 어느 정도 존재합니다. 엑셀에서 A, B, C 등 세로 부분을 의미하는 컬럼(변수)의 개수에 따라 그 수준이 변합니다. 변수의 수가 많을수록 이를 학습하기 위한 데이터도 많이 필요하기 때문입니다. 일반적으로 변수의 수에 100을 곱한 것보다 데이터 수가 많다면 데이터 수 자체에 의구심을 가지지는 않습니다.

데이터 양은 분석 결과의 신뢰도로 연결됩니다.

빅데이터라는 말속에 방대한 양의 데이터라는 의미가 내재되어 있기 때문에 처음 데이터 분석을 하는 사람들이 데이터 양을 대수롭지 않게 여기는 것이 사실입니다. 하지만 이번 시간에 살펴보았듯 데이터 양은 분석 결과의 신뢰도와 직결됩니다. 동전을 던졌을 때 앞면이 나올 확률이 1/2라고 말하기 위해서는 1번 던지는 것보다는 10번 던지는 것이, 10번 던지는 것보다는 100번 던지는 것이 좋습니다. 심지어 딥러닝 분야에서는 적은 데이터의 양이 곧 부정확한 AI로 연결됩니다. 즉, 일반적으로 빅데이터를 다룰 때 크게 고려하지 않는 ‘데이터의 양’은 생각보다 중요한 역할을 합니다. 물론 데이터 양 외에도 양질의 데이터의 특징은 몇 가지 더 있습니다. 이 내용에 대해서는 다음 양질의 데이터를 판별하는 5가지 방법 2부부터 추가적으로 살펴보도록 하겠습니다.