회원가입을 하면 원하는 문장을
저장할 수 있어요!
다음
AWS 이용 중이라면 월 기본 5% 할인받으세요
지난 12일(현지 시각) OpenAI에서 새로운 AI 모델 ‘o1’을 공개했습니다. o1은 과학 분야에서 박사급 수준의 능력을 갖췄다거나, IQ 테스트에서 약 120으로 평가받는 등 이번에도 역시 성능 면에서 크게 발전한 모습을 보여주며 주목받고 있습니다.
회원가입을 하면 원하는 문장을
저장할 수 있어요!
다음
회원가입을 하면
성장에 도움이 되는 콘텐츠를
스크랩할 수 있어요!
확인
지난 12일(현지 시각) OpenAI에서 새로운 AI 모델 ‘o1’을 공개했습니다. o1은 과학 분야에서 박사급 수준의 능력을 갖췄다거나, IQ 테스트에서 약 120으로 평가받는 등 이번에도 역시 성능 면에서 크게 발전한 모습을 보여주며 주목받고 있습니다.
이미 큰 관심을 받고 있는 만큼, 기본적인 정보나 성능에 관한 정보는 많은 곳에서 다뤄지고 있는데요. 이번 글에서는 표면적인 정보에서 한 발짝 벗어나, 잘 알려지지 않은 'o1' 모델의 흥미로운 면모들을 조명해 보려고 합니다.
2022년 11월, OpenAI는 ChatGPT라는 이름의 서비스를 출시했습니다. 여기서 GPT란, ‘Generative Pretrained Transformer(사전에 훈련된 생성 변환기)’의 약자로, 2018년 6월 처음 선보인 GPT-1 이후 GPT-2, GPT-3, GPT-4, GPT-4o 등으로 발전하며, OpenAI 모델의 상징적인 이름으로 자리 잡았습니다.
그러나 이번에 출시된 모델은 ‘o1’이라는 이름을 사용하면서, 약 6년 동안 이어온 ‘GPT’라는 명칭을 처음으로 버린 꼴이 됐는데요. 이러한 이름의 변화는 GPT와 차별화된 새로운 모델의 출발을 알리는 OpenAI의 의도로 해석할 수 있습니다. (그 의도는 후술해 보겠습니다.)
GPT의 경우 GPT-1 출시 이후, 새로운 모델이 나올 때마다 이전 모델보다 모든 면에서 크게 향상되어 왔습니다. 이러한 이유로 업데이트가 되면 이전 버전을 배제하고, 최신 버전만 사용할 수 있도록 하는 것이 일반적이었죠. 그러나 이번에는 o1이 출시되었음에도 여전히 GPT-4o가 메인 모델로 자리 잡고 있습니다. o1이 아직 프리뷰 단계라는 이유도 있지만, 더 중요한 이유는 o1이 GPT-4o를 완전히 대체할 수 없기 때문입니다.
우선 o1은 음성이나 비디오 입력을 처리할 수 있는 멀티모달 기능을 지원하지 않습니다. 또한 첨부파일 업로드와 인터넷 검색도 불가능합니다. 이후 정식 버전이 나오면 이러한 부분이 개선될 수 있겠지만, 그전까지는 활용성 측면에서 크게 뒤떨어질 것으로 보입니다. 특히 o1은 수학, 코딩과 같은 복잡한 추론 및 문제 해결에 특화된 모델로, 일반적인 대화나 다양한 작업 수행 능력은 오히려 GPT-4o가 더 뛰어난 성능을 보여줍니다.
OpenAI가 GPT라는 이름을 사용하지 않고 o1으로 명명한 이유도 여기에서 기인합니다. o1은 GPT-4o를 대체하는 모델이 아니며, 상호보완적인 모델로 목적에 맞게 사용하는 것이 더 효과적입니다.
ChatGPT가 처음 세상에 등장했을 때 일반 사용자들은 열광했지만, 전문가들은 비교적 차분했습니다. 그 이유는 ChatGPT를 모델의 크기와 학습 데이터 양, 그리고 컴퓨팅 파워를 증가시키면 증가시킬수록, AI 모델의 성능이 향상된다는 이른바 ‘스케일링의 법칙’을 따른 결과물로 인식했기 때문입니다.
그럼에도 OpenAI가 주목받은 이유는 모두가 알고 있었지만, 누구도 쉽게 시도하지 못했던 방법을 과감히 실행에 옮겼다는 점입니다. ChatGPT의 성공 이후, 경쟁사들은 더 큰 모델을 만들기 위해 가진 자원을 모두 쏟아부었습니다. 그러나 이렇게 크게 만들어 놓고 보니, 정작 서비스화하는 데 많은 어려움이 발생했는데요. 이에 따라 최근에는 다시 경량화와 효율성이 중요한 과제로 떠오르고 있습니다.
그러나 o1은 이러한 흐름을 정면으로 반박하는 모델입니다. “생각의 사슬(Chain-of-Thought)”이라 불리는 고급 추론 기능에 집중하면서, 응답 속도가 수십, 수백 배 증가한 것입니다. 따라서 간단한 질문에도 복잡한 절차를 거쳐야 하므로, 리소스를 많이 소모하고 속도가 느린 것이 특징인데요. 재밌는 점은 이러한 방식 역시 OpenAI만의 독창적인 방식이라기보다, 이미 산업 내에서 공감대를 얻은 방법이라는 겁니다.
지난 8월, 구글 딥마인드와 UC 버클리 연구진은 컴퓨팅 리소스를 전략적으로 할당해, LLM 성능을 개선하는 방법을 아카이브에 게재했는데요. 여기서 “추론 시간에 컴퓨팅 자원의 사용을 최적화하여, 큰 모델이나 광범위한 사전 훈련 없이도 LLM이 상당한 성능 향상을 달성할 수 있다.”라고 언급했습니다. 이는 구글도 이미 o1과 유사한 방식을 연구하고 있다는 의미로, 스케일링의 법칙에 이어 추론의 법칙에서도 OpenAI가 다시 한번 눈치싸움에 승리하며, 1등 자리를 차지한 것으로 해석할 수 있습니다.
생성형 AI 산업이 어느 정도 무르익으면서 일반적인 프롬프트 엔지니어링에 대해 정형화된 방법들이 있었습니다. 예를 들어, 어떠한 문제를 해결하려고 할 때 “단계별로 생각하세요”와 같은 요청을 합니다. 그러나 이제 그럴 필요가 없어졌습니다. 아니, 오히려 방해될 수 있습니다. 이미 o1은 순서대로 생각할 준비가 되어 있는 모델이기 때문입니다.
또한 더 나은 답변을 얻기 위해 “당신은 마케팅 전문가입니다”와 같이 특정 역할을 부여하는 경우도 많은데요. o1에서는 그럴 필요 없이 간단명료하게 지시하는 것이 더 효과적입니다. o1 모델은 스스로 생각하고, 효율적인 답변을 도출하기 때문입니다.
OpenAI 응용 연구 책임자인 보리스 파워(Boris Power)는 o1 릴리즈에 대해 다음과 같이 설명했습니다.
“이번 릴리즈는 ChatGPT 릴리즈보다 GPT-3 릴리즈에 가깝습니다. 이는 새로운 패러다임을 제시하며, OpenAI조차도 예측할 수 없는 엄청난 가치를 제공할 것입니다. 곧 또 다른 ChatGPT의 순간이 올 것이라 확신합니다.”
과연 무슨 의미일까요? 이를 이해하려면 잠시 과거로 돌아갈 필요가 있습니다. 사실 ChatGPT 공개 당시, OpenAI는 자신들의 성공을 전혀 예상하지 못했다고 합니다. 외부 전문가들의 의견과 마찬가지로 자신들의 기술이 전혀 특별하지 않다고 생각했기 때문입니다. 특히 바로 이전 버전인 GPT-3을 미세 조정하여 대화형 AI로 만든 것이 전부였고, 성능 면에서도 GPT-3와 큰 차이가 없었습니다. 그러나 결과는 대성공이었죠.
따라서 o1을 GPT-3에 비유한 것은 제2의 ChatGPT와 같은 혁신이 곧 찾아올 것임을 암시하며, o1은 그 혁신을 위한 원석 상태라고 이해할 수 있습니다.
생성형 AI와 같은 첨단 기술은 개발 자체도 어려운 일이지만, 특히 마지막 1%를 완성하는 것은 더욱 까다로운 과정입니다. 여러 정황을 종합해 보면, o1 역시 제2의 ChatGPT로 완성되기까지 얼마 남지 않은 것으로 보이는데요. OpenAI는 이 까다로운 최종 단계를 집단지성의 힘으로 해결하고자 했습니다. o1이 프리뷰 상태로 공개된 이유입니다.
그러나 불완전한 상태로 공개하기 위해서는 반드시 보장되어야 할 요소가 있는데요. 바로 ‘안전성’입니다. OpenAI 역시 이점을 우려했는지, o1 시스템 카드(안전 보고서) 전반에서 안전성 평가 결과에 많은 신경을 썼음을 확인할 수 있었습니다. 대표적으로 탈옥 평가 부분에서 GPT-4o보다 ‘significantly(유의미하게, 크게)’ 발전됐다는 것을 기울임체로 강조한 것이 그 예입니다. (참고로 GPT-4o 시스템 카드에서는 기울임체를 한 번도 사용하지 않았습니다.)
이처럼 인간의 안전성에 대해 많은 노력을 기울인 OpenAI지만, 정작 지구의 안전에 대한 고려는 충분하지 않았던 것 같습니다. 일반적으로 AI 모델을 사용할 때보다 개발할 때 더 많은 전기를 소모한다고 알려져 있지만, o1과 같은 모델이 추론 과정을 거친다면 이야기가 달라집니다. 모델이 더 깊이 생각할수록 더 많은 에너지를 소비할 것이며, 탄소 배출량도 증가할 가능성이 큽니다. o1 사용량에 제한을 두는 것 역시 자원 소모를 우려한 불가피한 결정이었을 것입니다.
특히 OpenAI의 연구원 노엄 브라운은 새로운 암 치료제 개발, 리만 가설 증명, 혁신적인 배터리 개발 등의 대의를 위해 AI 모델이 앞으로는 몇 시간, 며칠, 심지어 몇 주 동안 생각할 수 있도록 개발할 계획이라고 밝혔는데요. 에너지 효율화에 대한 대책 마련도 시급할 것으로 보입니다.
o1은 ‘스트로베리(Strawberry)’라는 프로젝트명으로 출발했습니다. 이 이름은 기존 AI 모델들이 ‘Strawberry’라는 단어 속 ‘r’의 개수를 정확히 맞추지 못하는 문제로 주목받았고, 이를 극복하려는 의미에서 붙여졌는데요. o1-preview 모델을 선택했을 때, 아래와 같은 프롬프트를 당당하게 제안하는 이유도, 자신들이 이 문제를 해결했다는 것을 보여주기 위함입니다.
이와 동시에 9.8과 9.11 중 더 큰 수를 묻는 질문에 기존 AI 모델들은 모두 오답을 냈지만, o1은 정확한 답변을 내놓으면서 화제가 됐는데요. 이 지점에서 o1의 역설적인 면모를 확인할 수 있습니다.
국제 수학 올림피아드에서 상위 500명에 속하는 성적을 내고, 프로그래밍 분야에서 상위 89번째 백분위수에 해당하는 성과를 달성하는 o1이지만, 동시에 유치원생도 쉽게 풀 수 있는 문제를 십수 초에 걸친 추론 끝에 겨우 해결하고, 이를 자랑한다는 점에서 아이러니함을 보여주고 있습니다. 일부에서는 o1이 박사급의 두뇌를 가졌다고 평가하지만, 이러한 사례를 통해 아직 AI 모델이 진정한 통찰력과 창의성 면에서 부족한 부분이 있다고 평가할 수 있습니다.
OpenAI의 o1 모델은 그 자체로 많은 화제를 불러일으키고 있습니다. 특히 GPT 시리즈와 차별화된 모델로, 새로운 패러다임을 제시하고 있는데요. 과거 OpenAI가 이룬 성과를 고려하면, 이 모델 역시 AI 기술의 새로운 장을 마련할 잠재력이 커 보입니다. 다만 아직은 미완성된 원석이라는 점, 에너지 효율 측면에서 개선이 필요하다 등의 과제가 남아있습니다.
이제 또 한 번 주사위가 던져졌습니다. o1이 이러한 과제를 잘 해결해 AI 산업에서 선두 자리를 유지할 수 있을지, 앞으로의 행보를 흥미롭게 지켜보아야겠습니다.
요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.