
오늘날 인공지능(AI)은 여러 분야에서 혁신을 이끌고 있으며, 디자인 영역도 예외가 아닙니다. 텍스트 기반 명령만으로 놀라운 이미지를 만들어내거나, 복잡한 코딩 없이 웹사이트를 구축할 수 있는 AI 도구들이 빠르게 등장하고 있습니다. 그러나 이러한 AI 생성 디자인의 품질과 유용성을 객관적으로 평가하고, 개선하기 위한 표준화된 기준은 여전히 부족합니다. 그 결과, 사용자는 자신의 상황과 조건에 맞는 서비스를 직접 하나씩 경험하며 찾아야 하는 불편을 겪고 있습니다.
바로 이러한 문제의식에서 출발한 서비스가 오늘 소개할 ‘Design Arena AI’입니다. Design Arena 는 AI가 생성한 디자인을 실제 사용자들이 참여해 평가하고, 이를 통해 AI 디자인 모델의 성능을 객관적으로 벤치마킹하는 플랫폼입니다.
단순히 기술적인 측면에서의 리더보드를 제공하는 것이 아니라, 사용자의 참여로 순위를 매긴다는 점에서 차별점을 갖고 있죠. 이번 글에서는 Design Arena AI가 어떻게 디자인 관점에서 인공지능 서비스를 판단하며, 그 과정에서 우리가 얻을 수 있는 점은 무엇인지 살펴보고자 합니다.
Design Arena는 AI가 생성한 디자인의 품질을 평가하고, 더 나은 AI 디자인 모델을 만드는 데 기여할 수 있는 다양한 기능을 제공합니다. 일반 사용자의 관점에서 이 플랫폼이 제공하는 핵심 기능과 참여 방법을 자세히 알아보겠습니다.
먼저 가장 핵심적인 기능은 바로 'AI 디자인 평가'입니다. 이 플랫폼은 다양한 AI 모델이 생성한 디자인 결과물들을 사용자에게 제시하고, 사용자는 이 디자인들을 비교하여 더 나은 디자인을 선택하는 방식으로 평가에 참여합니다.
예를 들어, 두 개의 AI가 만든 웹사이트 레이아웃을 보고 어떤 것이 더 직관적이고 사용하기 편리한지, 혹은 어떤 AI가 만든 로고가 더 창의적이고 브랜드에 적합한지 등을 판단하여, 투표할 수 있습니다. 우리가 한 투표는 AI 모델의 성능을 측정하는 중요한 데이터가 되며, 누구든 가장 최신의 평가 데이터를 리더보드 형태로 살펴볼 수 있습니다.
참여 방법 또한 간단합니다. 우선 웹사이트, 게임 개발, 3D 디자인, UI 컴포넌트, 이미지, 영상 등 제작을 원하는 대상을 선택한 뒤 프롬프트를 입력합니다. 그럼 다양한 모델을 활용해, 동일한 요청에 대한 여러 비교군(결과물)을 확인할 수 있습니다.
Design Arena AI는 프론트엔드 디자인(웹사이트 UI/UX), 오디오(AI 생성 음악이나 효과음), 이미지(AI 생성 그림, 사진, 로고), 비디오(AI 생성 짧은 영상 클립) 등 매우 광범위한 AI 생성 디자인을 평가 대상으로 삼습니다. 덕분에 단순히 화면 디자인뿐 아니라, 관심 분야에 맞는 다양한 디자인 평가에 참여할 수 있죠.
위 이미지는 제가 UI 컴포넌트를 선택한 뒤, 회원가입 화면을 만들어달라고 요청한 뒤 가장 먼저 확인한 두 개의 결과물입니다. 우리는 이렇게 결과물을 보고, 보다 나은 결과에 투표할 수 있습니다. 이 과정을 몇 번 반복하게 되며, 최종적으로 어떤 디자인이 가장 좋은지 판단할 수 있게 됩니다.
모든 선택이 끝나면 제가 선택한 최종 결과가 어떤 모델로 만들어졌는지 확인할 수 있습니다. 제가 요청한 ‘회원가입 화면’ 기준으로는 클로드 소넷4가 가장 좋았다는 사실을 알 수 있습니다. 간단한 시안을 만들 때, 여러 모델에 동시에 입력해본 경험이 있는 분들이라면 이런 방법이 꽤 편리하다는 것을 알 수 있습니다. 몇 번 반복해 보면, 특정 유형의 컴포넌트 디자인을 잘 해내는 모델을 알아차릴 수 있고요.
투표가 끝난 결과는 모두에게 공개됩니다. 사용자는 자신이 선택한 가장 좋은 결과의 순서를 기준으로 확인할 수 있고, 각 결과가 어떤 모델에 의해 생성된 것인지도 알 수 있습니다. 또한 화면을 확대해 세부적인 모습까지 살펴볼 수 있죠. 이처럼 직접 결과물을 생산하고, 평가에 참여하는 것이 이 서비스를 활용하는 첫 번째 방법입니다.
또 다른 참여 방법은 다른 사용자가 생성한 결과물을 살펴보는 것입니다. 예를 들어, 위 이미지는 제가 투표에 참여하기 전에 등록된 결과로, “A dark theme landing page, dark blue background, electric blue cards, with gradients, font white and teal. Make it extremely modern”라는 프롬프트를 바탕으로 제작된 페이지입니다.
이 사용자는 GPT-5 mini를 가장 우수한 모델로 선택했음을 확인할 수 있습니다. 마찬가지로 각 모델이 생성한 결과를 전체 화면으로 자세히 살펴볼 수 있으며, 활용된 모델에 따라 코드까지 확인할 수 있습니다.
이런 식으로 전 세계 다양한 사용자들이 진행한 투표 결과를 리스트로 볼 수 있는데요. 직접 참여하지 않더라도 모델을 어떻게 활용할 수 있는지 알 수 있죠. 또 구체적으로 어떤 결과를 만들어낼 수 있는지도 확인할 수 있어 많은 도움이 됩니다. 저는 특히 컴포넌트에 관심이 있어, 관련된 투표 결과를 자주 살펴보고 있습니다.
또 앞서 살펴본 것처럼, 투표별로 사용된 프롬프트를 확인할 수 있습니다. 다음에 활용하고 싶은 프롬프트는 개인 메모장에 저장해 두고, 필요한 경우엔 편집해 활용하는 방법도 자주 쓰고 있습니다.
우리가 참여한 평가 결과는 Design Arena AI의 벤치마크 시스템에 반영되어, AI 모델들의 순위를 결정합니다. 위 이미지는 UI 컴포넌트 분야에서 모델별 순위를 보여주는 예시로, 1위부터 4위까지 모두 클로드(Claude) 모델이 차지한 것을 확인할 수 있습니다.
이 플랫폼은 ‘Elo 랭킹’과 ‘리더보드’를 활용해 각 AI 모델의 성능을 객관적인 지표로 제공합니다. 마치 게임에서 플레이어의 실력을 점수로 환산하듯, AI 디자인 모델의 ‘디자인 실력’을 점수화해 보여주는 방식입니다. 또 하나 주목할 점은 단순 종합 순위가 아니라, 요청한 유형(예: 게임 개발, 웹사이트 등)에 따라 세분화된 순위를 확인할 수 있다는 점입니다.
LLM뿐만 아니라, 피그마 메이크(Figma Make) 같은 빌더 성격의 모델에 대한 평가 순위도 확인할 수 있습니다. 현재 순위를 보면 피그마 메이크가 3위, 러버블이 4위, 커서가 6위를 기록하고 있습니다. 이러한 리더보드는 전체 기간뿐만 아니라, 특정 기간별로도 나눠서 살펴볼 수 있습니다.
또한 회원가입을 하면, 평가에 반영되지 않는 ‘개인 전용 모드’를 통해 모델을 직접 비교하고 확인할 수도 있는데요. 이때의 결과는 나만 볼 수 있어 자유롭게 실험해 볼 수 있습니다.
서비스에 따르면 지금까지 투표에 참여한 사용자는 약 138,512명(9월 22일 기준)에 이릅니다. 국내에서도 이미 1,000명이 넘는 사람들이 참여했다고 하고요. 별도의 가입 과정이 필요 없기 때문에, 모든 결과가 익명으로 등록된다는 점도 눈에 띕니다.
정리해 보면 이곳에서는 나에게 맞는 AI 모델을 쉽게 찾을 수 있고, 다양한 사람들이 생성한 결과물을 확인할 수도 있습니다. 이는 다른 곳에서는 쉽게 접하기 어려운 특징으로, 저 역시 서비스를 처음 접한 뒤 틈틈이 살펴보면서 장점이라고 느꼈습니다. 특정 상황에 맞는 인공지능 모델을 빠르게 찾고 싶다면, 현재로서는 이만한 공간이 있을까 싶습니다. 특히 여러 AI 모델을 직접 비교해보고 싶거나, 디자인 결과물의 차이를 한눈에 확인하고 싶은 분들께 추천할 만한 서비스입니다.
<참고>
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.