요즘 IT 시장을 보면 온통 AI 이야기로 가득 차 있습니다. 특히 ‘챗GPT’가 등장한 이후로 정말 많은 것이 바뀌었죠. 이런 흐름에 ‘AI가 내 일을 대체할 거라는데, 정작 나는 아무것도 모르겠어.’라는 두려움이 퍼지고 있습니다. ‘AI 포모(AI FOMO)’라는 이름으로요.

두려움에 빠진 분들을 위해 AI를 이해할 때 필요한 최소한의 이야기를 준비했습니다. 어려운 이론은 뛰어넘고 실제 산업을 이해할 때 도움을 줄 것들만 다루겠습니다. 목표로 하는 것은 새로운 뉴스가 나왔을 때 적어도 “그 소식이 왜 중요한지” 정도는 이해할 수 있는 겁니다. 모두가 ‘이건 정말 중요하다!’라고 말할 때, 최소한 그 이유 정도는 알 수 있도록 말이죠. 집사 옆에서 식빵 굽던 고양이도 알아들을 수 있는, 생존을 위한 AI입니다.

AI에 대해 말할 때 가장 큰 허들이 뭘까 생각해 보면, ‘용어’가 떠오릅니다.

인공지능을 둘러싼 말들 자체가 무슨 뜻인지 이해하기 쉽지 않거든요. 특히 이쪽 용어는 주로 영어에서 출발하는데, 한글로 번역되는 과정에서 의미가 살짝 틀어지기도 하고, 때로는 복잡한 한자어가 섞여 더 어려워지기도 합니다. 원래 알고 있던 뜻과 업계에서 쓰이는 의미가 다른 경우도 종종 있고요.

어쩔 때는 어설프게 아는 것보다는 차라리 모르는 게 나을 수도 있습니다. 그냥 지나가면 그나마 다행이지만 잘못 이해하고 오해를 하는 경우는 문제가 되니까요. 예를 들어, ‘이거 쉬운 거 아님? AI로 충분히 되지 않아?’ 하고 일을 벌렸는데 실제로는 그렇지 않은 일들처럼요.

그래서 오늘은 이런 용어들을 살펴보려고 합니다. 그런데 그냥 용어들을 쭉 나열하고 뜻을 알아 보려면 너무 많기도 하고 이해하기도 어렵더라고요. 그러니 나름 기준을 잡고 맥락에 따라 조금씩 구분해 단계별로 살펴보려고 합니다.

고양이(요고): 이번에는 뭐 한다고요?
나: AI 이해하는 데 꼭 필요한 용어를 흐름 따라 알려드림

중학교 교과서의 DIKW 피라미드

물론 지금 우리가 다루는 AI 기술은 인간의 지능을 완벽히 따라 만들지는 않습니다. 그래도 지능을 가진 존재에 대한 연구는 대부분 인간 중심이다 보니까, 우리 인간이 지능을 배우고 활용하는 방식을 하나의 틀로 삼아 가져왔습니다.

중학교 정보 교과서에서 정말 자주 나오는 ‘DIKW 피라미드’라는 겁니다. 자료(Data)로부터 시작해 정보(Information), 지식(Knowledge)을 거쳐 마지막으로 지혜(Wisdom)에 도달하는, 즉 지식을 획득하는 과정을 나타낸 모델이에요.

첫 번째인 자료(Data)는 순수한 수치나 기호 같은 것으로, 의미를 부여받기 전의 상태라고 많이 표현합니다. 측정값이기도 하고 기록이기도 하죠. 영어로 하면 그 중요하다는, AI하면 따라 나오는 데이터입니다. 그다음 단계인 정보(Information)는 이 자료를 정제하고 가공해서 특정 목적에 맞게 의미를 부여한 것을 말합니다. 그러니까 데이터를 가공한 결과물이 정보인 거죠. 지식(Knowledge)은 이렇게 얻어진 정보를 체계화하고 일반화해서 실제 상황에 적용할 수 있도록 만든 겁니다. 마지막으로 지혜(Wisdom)는 지식을 활용해 상황에 맞게 판단하고 창의적으로 문제를 풀 해결책을 찾아내는 과정이라고 할 수 있고요.

더 쉽게 말하자면 자료 단계에선 그냥 받아들이고, 정보 단계에서는 ‘이게 뭔지’ 알아차립니다. 지식 단계에서는 이 정보를 내가 가진 다양한 상황, 지식, 감정과 연결해서 분류하고요. 마지막 지혜 단계에서는 내가 알고 있는 또 다른 상황과 맥락에 맞추어 알고 있는 걸 적용합니다.

이번에는 AI를 둘러싼 용어들을 이 단계에 맞춰서 한번 정리해보려고 합니다.

경고: 지식이 왜곡될 수 있음

여기서 미리 짚고 넘어가고 싶은 게 있어요. DIKW 피라미드를 가져온 이유는, 중학교 교과서에 나오는 만큼 가장 쉽게 익숙하게 접근할 수 있는 구조여서입니다. 어디선가 한 번쯤 본 듯한 구조라 친숙하니까요.

그런데 AI의 모든 과정이 항상 이런 구조로 진행된다고 보는 건 매우 위험합니다. 실제 기술은 이처럼 명확한 위계 구조를 가지고 있지 않아요. (애초에 인간 지능도 이렇게 위계로 구분하는 것이 ‘매우 적합하지 않다’ 말하기도 합니다)

오히려 AI는 서로 순환하고 흘러가면서 자료 단계에서 정보로, 또 정보에서 다시 자료로 되돌아가기도 하는 끊임없이 반복하고 순환하는 과정을 거칩니다. 그러니까 이 DIKW 구조를 엄격한 ‘계층’으로 생각하면 안 된다는 거죠. 편의를 위한 거다, 이 부분만 꼭 기억해 주시면 좋겠습니다.

고양이(요고): 그러니까 사람이 필요한 지식을 얻어 쓰는 과정대로 AI 용어들 정리한다는 거죠?
나: ㅇㅇ

자료: 이게 뭐라고요?

자료 단계부터 하나씩 살펴볼게요. 측정값이든 기록이든 무언가를 받아들이는 거잖아요? 이 단계에서는 “무엇을 인식하는지”를 중심으로 볼 겁니다.

모든 것의 시작, #데이터

가장 먼저 나오는 건 바로 ‘데이터’입니다.

AI에서 말하는 데이터는 컴퓨터 공학의 관점입니다. 이는 “컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료”고요. 여기서는 ‘컴퓨터가 처리할 수 있는’이 중요합니다.

그러니까 컴퓨터가 모르면 AI에서는 데이터로 치지 않는다는 겁니다. 이를테면 영혼이나 아주 복합적인 감정 같은 것들이요. 물론, 우리의 말과 표현 방식이 이런 문제를 해결하기는 합니다. 우리의 말은 영혼이나 감정을 잘 담아내어 전달할 수 있도록 진화해 왔으니까요.

고양이(요고): 영혼이 진짜 있는 거 맞아요?
나: 없음 말고요.

무슨?

그래서 AI에서는 처리하는 데이터 종류에 따라서 구분점을 삼는 경우가 많습니다. 특히 AI 개발 쪽에서는 이 데이터의 종류가 아예 직무나 연구의 기준이 되기도 합니다.

이 영역은 크게 두 가지, NLP와 CV로 나뉩니다.

자연어 처리; #NLP

먼저 볼 것은 NLP입니다. ‘자연어 처리(Natural Language Processing)’의 약자입니다. 해설이 필요한 단어: ‘자연어’는 말 그대로 우리가 일상에서 사용하는 사람의 언어를 뜻합니다.

사람이 쓰는 언어라는 것은 생각보다 정말 많은 내용을 담고 있어요. 언어는 단순히 현상을 설명하는 역할을 넘어, 그 안에 의미를 함축하기도 하고 어떠한 경향을 나타내기도 하죠. 또한 사람마다 하나의 언어를 받아들이고 이해하는 방식이 다 다를 수 있습니다. 게다가 언어 자체가 조금 많나요? 영어도 한국어도 프랑스어도 라틴어도 그 자체로 가지는 의미가 많습니다.

그러니 자연스럽게 언어를 정확하게 이해하고 처리하는 일이 굉장히 중요합니다. 언어는 인류 문명의 근간이자 고도화된 체계입니다. 그래서 인간 세상의 문제에 접근하려면, 언어를 잘 받아들이고 처리하며 최적화된 방식으로 다루는 능력이 중요합니다. 이를 다루는 영역이 바로 ‘자연어 처리’고요.

컴퓨터 비전; #CV

그다음은 CV입니다. CV는 ‘컴퓨터 비전(Computer Vision)’의 약자입니다. 한글로도 영어를 그대로 표기했네요.

우리가 인간의 오감 가운데 가장 중요한 게 뭐냐고 물으면 보통 ‘시각’이라고 하잖아요. 마찬가지로 컴퓨터에게도 시각은 매우 중요합니다. 그런데, 컴퓨터에게 있어서 시각이라는 게 뭘까요? 이미지를 인식하고 처리하거나 특정 대상을 탐지하는 능력을 말할 겁니다.

이렇게 “컴퓨터에게 사람과 같은 시각 능력을 부여하는 전반적인 분야”, 이 영역을 ‘컴퓨터 비전’이라고 부릅니다.

고양이(요고): NLP는 말을 이해하는 것, CV는 컴퓨터에 눈을 달아주는 것!
나: 정확합니다

컴퓨터는 바보, 하나밖에 몰라

이 구분이 중요해진 이유가 또 있습니다. 지금까지 대부분 AI는 이 두 가지 분야 중 하나만 잘 할 수 있었기 때문이죠. NLP를 하는 AI는 NLP만 할 줄 알았고, CV를 하는 AI는 CV만 처리할 수 있는 겁니다.

언어는 특히 기억이나 연관성이 굉장히 중요하거든요. 사람이 말을 할 때 단어만 똑똑 끊어서 말하지 않고, 단어와 단어를 서로 연결해서 맥락에 따라 의미를 부여하잖아요. 그래서 NLP 분야에서는 단순히 단어만 보는 게 아니라, 이 단어들이 어떤 맥락에서 쓰이는지, 어떤 의미로 연결되는지 이해하는 연속성이나 상호 관계를 파악하는 게 무척 중요했습니다.

반면에 이미지 쪽은 좀 다릅니다. 우리가 무언가를 볼 때는 하나하나 자세히 뜯어보지는 않죠. 보통 전체 이미지 속에서 가장 쉽게 눈에 들어오는 특징을 보고 인식하게 됩니다. 그래서 CV에서는 이미지의 가장 중요한 특징을 파악하고, 이 특징을 빠르게 추출하는 능력이 매우 중요했던 거예요.

이렇게 언어를 다루는 NLP와 이미지를 다루는 CV는 처리하는 방식 자체가 정말 다르다 보니까, 초창기 인공지능 기술로는 이 두 가지 분야를 함께 처리하는 게 정말 어려웠습니다. 실제로 AI 분야 전공자들끼리는 서로 “너 전공 뭐야?” 하면, “나 NLP 쪽.”이라고 답할 정도로 데이터 기반 구분이 기본적으로 쓰였습니다.

#멀티 모달; MM

그래도 이왕이면 기계 하나가 언어와 이미지를 다 알면 당연히 좋겠죠. 그래서 최근에는 하나의 인공지능이 이 두 가지를 모두 할 수 있는 방향으로 많이 진화하고 있습니다.

이런 흐름에서 등장한 용어가 바로 ‘멀티 모달(Multi-modal)’입니다. 쉽게 말해, NLP와 CV 같은 두 가지 이상의 영역 처리를 한 번에 할 수 있는 인공지능이라고 생각하면 됩니다.

그렇게 예전에는 NLP와 CV가 각각 명확히 나뉘어 학술 분야나 업무 영역에서도 뚝 잘라 구분했는데, 최근에는 전반적으로 통합되는 추세예요. 즉, 여러 작업을 한 번에 알아서 잘 처리하는 똑똑한 AI로 바뀌고 있다고 봐도 좋습니다.

*간혹 여러 영역을 처리할 수 있다는 표현 덕에, 멀티 모달 모델이 마치 사람처럼(혹은 사람을 뛰어넘어) 모든 일을 잘 하는 모델처럼 표현되기도 합니다. 범용 인공지능, 강인공지능, AGI 이런 표현이 섞여서요. 둘은 사실 꽤 다르니 주의해서 보는 것이 좋습니다.

고양이(요고): 멀티 모달이면 뭘 할 수 있는 거예요?
나: 최근 챗GPT에 이미지 올리고 해석해 달라 채팅 치면 잘 해주잖아요. 이거 멀티모달 지원해서 그런 거임

웹과 센서와 IoT

데이터 측면에서 알면 좋은 것이 하나 더 있습니다. 요즘 인공지능이 데이터를 학습할 때는 대부분 웹(Web), 즉 인터넷상에서 구할 수 있는 데이터를 주로 사용합니다. 우리가 자주 얘기하는 GPT 같은 모델도 대부분 인터넷상에 돌아다니는 수많은 데이터를 학습했죠.

하지만 인터넷에서 얻는 데이터만으로는 분명히 한계가 있어요. 왜, 온라인이면 좀 더 과장되게 말하기도 하고 그렇잖아요.

그래서 요즘은 이렇게 웹에서 얻을 수 있는 데이터뿐 아니라 다양한 출처에서 데이터를 모으는 것도 중요하게 다루고 있습니다. 대표적으로 센서, 혹은 사물인터넷(IoT, Internet of Things) 같은 분야가 있죠. 실제 현실 세계에서 더 다양하고 풍부한 데이터를 수집할 수 있는 최전방으로 주목받고 있어요.

전통적이긴 하지만, 결국 현실 세계의 데이터를 얼마나 잘 수집하느냐 역시 AI 기술의 발전에서 굉장히 중요한 요소입니다.

정보: 데이터가 서 말이어도 써야

데이터가 있긴 한데요, 그럼 어떻게 써야할까요? 우선 그 전에 적절하게 처리해서 잘 쌓아두는 과정이 필요합니다. 여기서 중요한 건 데이터를 어디까지 처리하고, 얼마나 효율적으로 저장했느냐 하는 점이고요. 즉, 우리에게 필요한 데이터를 잘 관리하고 모아야 나중에 의미 있는 지식으로 변환할 수 있습니다. 정보 단계는 주로 이를 준비하는 과정을 둘러싼 용어가 나올 거라고 보면 좋겠습니다.

요즘 우리나라 기업들을 보면 대부분 AI 하려다가 이 단계에서부터 막히는 경우도 많은 듯합니다. 아주 많은 데이터를 수집하고 저장하고 처리해서 전달하는 그런 과정들이 쉽지 않거든요. 그래서 특히 더 중요하게 느껴집니다.

#빅데이터

가장 먼저 등장하는 키워드는 바로 ‘빅데이터(Big Data)’입니다. 빅데이터라는 단어는 정말 많이 들어보셨을 텐데요, 그런 만큼 오해도 많이 생기는 단어입니다.

≠ 많은 데이터

많이들 단순히 ‘데이터가 많으면 빅데이터다’라고 생각하는데, 사실은 그렇지 않습니다. 빅데이터라는 건 정확히 말하면, “많은 양의 데이터를 효과적으로 처리하고 관리할 수 있는 기술 자체”를 의미한다고 보는 게 맞아요.

고양이(요고): 헉, 빅데이터가 빅데이터가 아니라고 하니 갑자기 헷갈리는데요?
나: 어쨌든 핵심은 데이터가 많은데, 이를 ‘잘 처리해서 쓸 수 있어야 의미가 생긴다’까지 포함한다는 거임.

3가지 특징

이런 빅데이터의 특징을 설명할 때는 데이터의 ‘양(Volume)’, ‘속도(Velocity)’, ‘다양성(Variety)’ 이 세 가지를 모두 확보하는 게 중요하다고 이야기합니다.

먼저 데이터의 양은 말 그대로 양입니다. 대표적인 연관 기술로는 하둡(Hadoop)이라는 게 있습니다. 데이터를 여러 곳에 나누어 저장하고 처리하는 ‘분산 저장’ 방식을 쓰는 기술인데요. 이렇게 하면 처리 효율이 높아져서 많은 양의 데이터를 효과적으로 다룰 수 있게 됩니다.

그다음 속도는 ‘빠르게 처리할 수 있을 것’을 의미합니다. 아무리 많아도 이십년 뒤에야 쓸 수 있다면 의미가 없으니까요. 속도와 엮어서는 스파크(Spark)라는 기술이 나올 수 있겠습니다. 이 기술은 데이터 처리 속도를 대폭 높이는 데 주로 쓰입니다.

물론 하둡과 스파크가 오직 양이나 속도에만 관여한다고 할 수는 없지만, 주로 그런 부분에서 중요한 역할을 하다 보니까 자주 등장하는 용어입니다. 마지막으로 데이터의 다양성이라는 건 데이터 형태나 유형에 관한 개념입니다. 이를 이해하기 위해 또 다른 키워드로 넘어갑니다.

#정형 데이터

데이터의 다양성을 이해하려면 우선 두 가지 유형을 알아야 합니다. (엄밀하게는 유형이 훨씬 더 많습니다)

먼저 첫 번째 유형은 ‘정형 데이터(Structured Data)’입니다. 우리가 흔히 보는 ‘표(Table)’ 형태라고 생각하면 이해하기 쉬워요. 데이터를 테이블 형태로 설명하고 관리하는 방식이라서 관계형 데이터베이스(RDB, Relational Database)의 근간이 되는 형태이기도 하죠.

사실 이 정형 데이터는 컴퓨터가 가장 익숙하게 다루는 데이터입니다. 과거에 만들어졌고 또 현재까지 유지되는 대부분 시스템도 정형 데이터를 처리하는 데 최적화된 상태로 구축되어 있고요. 그래서 지금도 웬만한 서비스는 RDB를 기본으로 깔고 가는 경우가 많습니다. IT에 관심을 두고 있다면 들어봤을 법한 RDBMS, 오라클, SQL, ACID 이런 용어들이 정형 데이터를 둘러싸고 나온 말이고요.

쉽게 말해 데이터도 딱딱하게 선 그어서 나누고 구분하고 이래야 컴퓨터가 더 잘 알 수 있다는 거죠. 아마 이런 점들 때문에 우리가 딱딱하고 융통성 없는 사람을 흔히 ‘컴퓨터 같다’라고 하나 봐요.

#비정형 데이터

그런데 현실에서 실제 접하는 대부분의 데이터는 사실 표 형태가 아닙니다. 우리는 보통 텍스트, 이미지, 음성, 영상 같은 데이터를 훨씬 더 많이 접하니까요. 이것이 사람의 소통 방식이고요.

이런 데이터들을 ‘비정형 데이터(Unstructured Data)’라고 합니다. 말 그대로 정해진 형식이 없는 데이터들을 의미합니다.

앞서 말했듯 사람이 자주 쓰는 방식이니까요, 인공지능이 제대로 동작하려면 비정형 데이터들도 당연히 처리할 수 있어야 하죠. 그런데 이 비정형 데이터는 표 형태가 아니다 보니 다루기가 쉽지 않아요. 그래서 이런 데이터를 잘 다루기 위한 도구가 또 따로 있습니다. ‘비관계형 데이터베이스(Non-relational Database)’라고 불리는 것들입니다. 좀 더 친숙한 용어로는 NoSQL이라고 부르고요.

왜 이름이 ‘NoSQL’이냐고요? 정형 데이터 환경에서 사람들이 데이터를 표 형태로 불러오거나 추출할 때 쓰는 언어가 있습니다. 이 언어가 SQL인데요. NoSQL은 이름 그대로 SQL을 사용하지 않는다는 겁니다. (이게 전부입니다. SQL이 많이 싫었나봐요) 몽고DB, GraphDB 등이 나름 대표적인 NoSQL 계열의 데이터베이스입니다.

고양이(요고): 데이터 유형 설명이 고봉밥이네요?
나: 정형 데이터는 ‘컴퓨터가 잘 이해하는 표 형식 데이터’, 비정형 데이터는 그 외 대부분: 텍스트, 이미지, 음성 등!

그러니 빅데이터에게 필요한 ‘다양성’은 이처럼 아주 다양한 유형의 데이터를 모두 처리할 수 있어야 한다는 겁니다. 컴퓨터가 잘 이해하는 데이터 뿐만 아니라 그렇지 않은 데이터까지 모두요.

그래서 데이터를 어디에 둡니까?; #데이터센터

데이터라는 게 아무리 무형의 자원이라고 느껴져도 어쨌든 기록입니다. 흔적이 있죠. 따라서 이러한 데이터를 저장하고 관리하려면 결국 컴퓨터 장치가 필요합니다. 그런데 우리가 흔히 아는 컴퓨터 하드웨어는 본체까지 포함하면 꽤 무겁고 크잖아요? 열도 많이 나고요. 데이터가 워낙 크고 많다 보니 이를 모아둘, 더 최적화된 별도의 공간이 필요해졌습니다.

이렇게 데이터를 따로 보관하고 처리할 장치나 설비, 혹은 이를 모아둔 공간 자체를 ‘데이터센터(Data Center)’라고 부릅니다.

이 데이터 센터에서는 데이터를 단순히 모아두기만 하는 게 아니라 처리도 하고, 여러 가지 컴퓨팅 작업들을 수행할 수 있는 환경까지 제공합니다. 실제로는 컴퓨터 본체가 모여 있는 공간이기 때문에 데이터 보관뿐만 아니라 다른 다양한 작업들도 수행할 수 있죠. (곧 알아볼 인공지능의 ‘학습’이 주로 이뤄지는 공간이기도 합니다)

대신 이게 돈이 많이 드는 일이라, 누구나 다 만들기는 조금 어렵습니다. 그래서 아마존(AWS)이나 MS(Azure), 구글(GCP) 같은 덩치 큰 테크 기업들이 주로 이런 데이터 센터를 운영하고 있습니다. 일반 회사들은 자기 데이터를 보관하려고 보통 이런 기업들에 돈을 내며 서비스를 쓰죠.

고양이(요고): 데이터도 머물 공간이 필요하다는 거죠?
나: 네, 그 공간은 컴퓨터 장치고 이것들 모아둔 곳이 데이터센터!

어떻게 쌓을까요? #데이터 웨어하우스 vs. #데이터 레이크

데이터를 쌓아두는 방식도 크게 두 가지로 나눠볼 수 있어요.

하나는 필요한 데이터만 잘 정제해서 차곡차곡 관리하는 방식입니다. 이런 방식으로 관리하는 것, 또 그런 저장 형식을 ‘데이터 창고’, 영어로 하면 ‘데이터 웨어하우스(Data Warehouse)’라고 부릅니다.

반면에 데이터를 조금 더 자유롭게, 미리 정제하지 않고 그냥 던져놓는 방식도 있어요. 나중에 필요할 때마다 적당하게 조건을 걸어서 데이터를 꺼내 쓰는 거죠. 이런 방식을 ‘데이터 호수’, 영어로는 ‘데이터 레이크(Data Lake)’라고 합니다. 보통 데이터 레이크처럼 데이터를 그냥 던져두는 저장소들은 비정형 데이터를 보관하는 데 많이 쓰입니다. 텍스트, 이미지, 영상 같은 데이터들이죠.

어떻게 흐르나요?#데이터 파이프라인

쌓아두기만 하는 것도 의미는 없습니다. 필요할 때 제깍 나오면 더 좋겠죠. 또, 데이터는 지금 이 시간에도 끊임없이 새로 생겨 납니다. 여러분이 이 글을 읽고, 스크롤을 내리고, 필요하면 형광펜 치고 한 모든 것이 하나의 데이터니까요. 이렇게 새로 생긴 데이터를 잘 처리해 보내는 것도 중요합니다. 그렇게 수집하고 처리해서 저장했다가, 필요에 따라 잘 나오게 하는 구조가 있으면 좋습니다.

이처럼 데이터를 수집하고 처리해서 저장하고 분석하기 좋게 전달하는 모든 일, 또는 그런 구조를 데이터 파이프라인(Data Pipeline)이라고 합니다. 요즘 기업들은 이 데이터 파이프라인 잘 만드는 것이 중요하다고들 많이 하는데요, 다 필요할 때 잘 쓰기 위해서입니다.

여기까지 요약 with 고양이(요고AI):

사람이 지식을 획득하는 자료→정보→지식→지혜 흐름으로 AI 용어를 정리
자료: 컴퓨터가 이해하는 데이터부터 출발. 언어 이해는 NLP, 이미지 탐지는 CV, 둘 다 하는 건 멀티모달
정보: 아주 많은 데이터+를 처리하는 기술인 빅데이터. 정형과 비정형, 저장용 데이터센터와 흐르는 파이프라인

마치며

아직 DIKW 피라미드의 ‘지식’ 영역이 안 나왔는데 왜 벌써 ‘마치며’가 나왔냐고요?

지금까지 우리는 데이터를 수집해서 가공하고 처리해서 정보로 만들어 두었는데요. 지식 단계에서는 이제 이 정보를 어떻게 지식으로 바꾸느냐, 이 부분을 알아볼 겁니다. 쉽게 말하면 “정보를 ‘학습’해서 의미 있는 패턴을 찾아내는 과정”이라고 볼 수 있습니다.

다만 여기서부터 이야기가 조금 길어질 겁니다. 그 유명한 ‘머신러닝(Machine Learning)’과 ‘딥러닝(Deep Learning)’이 등장하기 때문입니다.