요즘, 개발
언제, 누가 접속해도 고정된 콘텐츠만을 보여주는 홈페이지가 아니라면, IT 프로젝트에서 '개발'은 최소 2가지 방향으로 진행됩니다. 사용자가 시각적으로 인지하고 클릭 또는 스크롤 등으로 상호작용을 할 수 있는 '프론트엔드'영역과 그에 필요한 정보를 빈틈없이 제공하기 위해 화면 뒤에 숨어서 바쁘게 움직이는 '백엔드'영역입니다. 사실 이 이야기를 제대로 풀면 인터넷의 역사와 현재까지의 발전상까지 모두 풀어야 하는 장대한 대하드라마가 되겠지만, 지금 이 자리에선 간단히 다음과 같이 정리하겠습니다.
보통 빅데이터의 특성을 이야기할 때 3V라는 단어를 언급하는 경우가 많습니다. Velocity(속도), Volume(양), Variety(다양성)까지 V로 시작하는 3가지 단어의 묶음입니다. 이때 Variety(다양성)이라는 단어는 오해를 발생시키기 쉽습니다. 아무리 다양한 모습을 가지는 빅데이터라고 할지라도 활용하기 좋은 데이터들은 지키고 있는 공통의 형식이 분명히 있습니다. 이번 시간에는 양질의 데이터라면 반드시 지켜야 하는 ‘데이터 형식’에 대해 이야기하려 합니다.
데이터 신뢰성이란 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념으로 이해하면 좋습니다. 데이터 자체에 틀린 정보가 담겨있을 수도 있으며, 확실한 값이 아닌 추정 값을 데이터로 적재하는 등 데이터의 신뢰성을 떨어뜨리는 원인은 다양합니다. 당연한 말이지만, 신뢰도 높은 데이터를 수집하고 분석하는 것이 올바른 빅데이터 활용이라고 볼 수 있습니다. 이번 편에서는 데이터의 신뢰도를 떨어뜨리는 경우들이 구체적으로 어떤 것들이 있는지에 대해 살펴보도록 하겠습니다.
양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로 마주하게 되는 데이터들이 모두 방대한 양을 지니고 있지는 않습니다. 1,000개가 되지 않는 데이터를 보는 것은 다반사이며, 심한 경우에는 단 한 줄의 데이터가 ‘데이터’라는 이름으로 유포되고 있기도 합니다. 기본적으로 적은 데이터 수는 곧바로 분석 결과의 신뢰성 하락으로 연결됩니다. 많은 데이터를 통해 충분히 검증한 결과와 그렇지 않은 결과의 차이입니다.