오늘은 머신러닝의 비지도 학습 방법 중 군집화에 대해 알아보겠습니다. 먼저 군집화란 그룹이라는 일종의 카테고리(군집)를 만들고, 이후 데이터 값을 보고 특정 군집으로 결정짓는 것(군집화)을 말합니다.
보통 여러 데이터가 쌓인 표를 보면 어떻게 묶어줘야 할지 쉽게 결정하기 어려운데요. 이때 데이터의 양이 적은 경우, 좌표 평면을 사용하면 가까운 것들끼리 묶을 수 있습니다.
그러나 더 많은 양의 복잡한 데이터는 어떨까요? 2차원의 표로 정리하는 게 불가능할 수도 있습니다. 이때 군집화 방법을 이용하면 3차원 또는 4차원으로 정리된 데이터를 묶어줄 수 있습니다. 결국 군집화는 유사한 속성을 가진 데이터들을 묶어, 전체 데이터를 몇 개의 군집으로 잘 나눠주는 머신러닝 기법입니다. 좌표상에서 가깝다는 것은 데이터가 서로 비슷하다는 의미와도 같기 때문이죠.