1부에서는 AutoML이란 무엇인지, AutoML이 가진 장점과 주목받는 이유를 살펴봤습니다. 하지만 AutoML의 목적과 정의를 이해하는 것과 현실에서 AutoML 적용을 이야기하는 것은 다른 차원의 문제입니다. 이번 글에서는 AutoML이 어디까지 발전해왔고, 어떤 모습으로 AutoML을 맞이할 수 있는지에 대해 이야기합니다. 또한 최종적으로 현재 AutoML이 지니는 한계점은 무엇인지, 이를 바탕으로 우리가 주의해야 할 점은 무엇이 있는지 알아보겠습니다.
빅데이터를 활용하는 다양한 방법 중 단연코 가장 인기가 많은 것은 머신러닝입니다. 머신러닝은 빅데이터의 활용성을 비약적으로 발전하게 함과 동시에 AI의 근간이 되고 있습니다. 이에 따라 최근 머신러닝에 대한 교육이나 강의도 많이 개설되고 있습니다. 하지만 현실에서 머신러닝을 근사하게 구사하기란 매우 어려운 일입니다. 제대로 머신러닝을 이해한 이후에 상황에 맞는 방법론을 적용하는 것이 어렵기 때문입니다. 이러한 경향 속에서 최근 AutoML이 주목을 받고 있습니다. 이번 스마트하게 머신러닝 적용하는 법에서는 AutoML이 무엇이기에 최근 주목을 받고 있으며, 머신러닝과는 어떤 관계인지에 대해 이야기해보겠습니다.
보통 빅데이터의 특성을 이야기할 때 3V라는 단어를 언급하는 경우가 많습니다. Velocity(속도), Volume(양), Variety(다양성)까지 V로 시작하는 3가지 단어의 묶음입니다. 이때 Variety(다양성)이라는 단어는 오해를 발생시키기 쉽습니다. 아무리 다양한 모습을 가지는 빅데이터라고 할지라도 활용하기 좋은 데이터들은 지키고 있는 공통의 형식이 분명히 있습니다. 이번 시간에는 양질의 데이터라면 반드시 지켜야 하는 ‘데이터 형식’에 대해 이야기하려 합니다.
데이터 신뢰성이란 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념으로 이해하면 좋습니다. 데이터 자체에 틀린 정보가 담겨있을 수도 있으며, 확실한 값이 아닌 추정 값을 데이터로 적재하는 등 데이터의 신뢰성을 떨어뜨리는 원인은 다양합니다. 당연한 말이지만, 신뢰도 높은 데이터를 수집하고 분석하는 것이 올바른 빅데이터 활용이라고 볼 수 있습니다. 이번 편에서는 데이터의 신뢰도를 떨어뜨리는 경우들이 구체적으로 어떤 것들이 있는지에 대해 살펴보도록 하겠습니다.
양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로 마주하게 되는 데이터들이 모두 방대한 양을 지니고 있지는 않습니다. 1,000개가 되지 않는 데이터를 보는 것은 다반사이며, 심한 경우에는 단 한 줄의 데이터가 ‘데이터’라는 이름으로 유포되고 있기도 합니다. 기본적으로 적은 데이터 수는 곧바로 분석 결과의 신뢰성 하락으로 연결됩니다. 많은 데이터를 통해 충분히 검증한 결과와 그렇지 않은 결과의 차이입니다.
최근 엄청난 발전 속도를 보이고 있는 AI는 굉장히 고도화된 알고리즘으로 이루어져 있습니다. 지금 이 순간에도 더 정확한 AI를 만들기 위해 많은 연구자들은 새로운 AI 알고리즘을 개발하고 있습니다. 하지만 AI 역시 알고리즘을 기반으로 작동하는데도 AI는 알고리즘이라고 부르지 않고 AI라는 이름을 따로 붙여주었습니다. AI 즉, 인공지능이 일반적인 알고리즘과는 명확한 차이점을 보이고 있기 때문입니다. 이번 시간에는 AI가 일반적인 알고리즘과는 어떤 차이점을 가지고 있는지 알아보도록 하겠습니다.