시각 AI는 사진 분류나 딥 페이크 외에도 다양한 기능과 서비스가 있습니다. [AI 서비스의 모든 것] 시리즈는 다양한 AI 기술과 서비스의 현황을 소개합니다. 이번 글은 시각 AI 중 "1. 이미지 인식 AI"를 다룹니다. 이미지 AI의 현황을 알아보기 위해, 20년 대표 AI 기업 리스트 중 컴퓨터 비전 기업을 조사했습니다.

1. 이미지 인식 AI

이미지 인식 AI는 인물, 객체, 그리고 글자(텍스트)를 인식합니다. 각각의 AI에 대해 더 자세히 알아볼까요?

1.1. 인물 인식

| 기술

인물 인식 AI는 이미지와 영상에 있는 사람을 인식합니다. 이미지 안에 얼굴이 존재하는지, 위치는 어디인지부터 인식한 인물이 누구인지와 어떤 감정을 느끼는지까지 알려줍니다.

| 쓰임새

a. 인구통계학적 정보 (나이, 성별, 인종) 인식

인물 인식 AI로 고객의 인구통계학적 정보를 자동으로 수집할 수 있습니다. 현재 편의점 직원들은 구매가 이루어질 때마다 고객의 나이대와 성별을 수동으로 입력합니다. 인물 인식 AI를 사용하면 CCTV에 잡힌 구매자의 정보를 자동으로 분류할 수 있습니다.

b. 유명인 인식

연예인들은 수집할 수 있는 사진이 많습니다. 학습할 이미지가 많으니 AI가 인식하기도 쉽습니다. 얼굴은 아는데 이름이 기억나지 않는 배우의 이름이 궁금할 때가 있습니다. 그 배우의 사진만 가지고 있다면 문제는 금방 해결됩니다. 사진으로 검색하기 기능에 이름을 알고 싶은 배우의 사진을 첨부하면 이름은 물론이고 필모그래피까지 한방에 나오니까요.

| 실제 서비스 사례

a. 아마존 프라임 비디오 X-Ray 서비스

아마존의 OTT 플랫폼인 아마존 프라임 비디오는 AI로 비디오의 등장인물을 인식합니다. 재생 중 등장한 배우가 누군지 궁금할 때, 비디오 재생 화면을 탭 하기만 해도 그 배우가 누군지 알 수 있습니다.

아마존은 영화와 TV 프로그램의 출연진, 제작진, 평점 등의 메타 정보를 담은 IMDb(Internet Movie Database)를 보유하고 있습니다. 프라임 비디오의 인물 정보 제공 서비스는 아마존이 기존에 보유한 콘텐츠 메타 정보와 비디오 서비스를 이어 붙인 서비스입니다.

b. B tv INSIDE

아마존 X-Ray와 유사한 국내 IPTV 서비스입니다. 아마존과는 다르게 인물의 등장 장면까지 제공합니다. 관심 있는 인물의 특정 등장 장면을 찾아 재생하거나, 모든 등장 장면을 연속으로 재생할 수 있습니다.

c. 유튜브 썸네일 추천 (출처)

유튜브에 영상을 업로드하면 유튜브는 자동으로 3개의 썸네일을 추천합니다. (위 그림) 요즘 유튜버들은 직접 제작한 썸네일을 많이 사용하지만 유튜브는 기본 썸네일 추천에도 소홀하지 않습니다. 유튜브는 심층 신경망 (Deep Neural Network) AI 기술로 새로운 썸네일 추천 알고리즘을 개발했습니다.

유튜브는 조회수가 많은 영상의 썸네일을 좋은 썸네일, 영상을 랜덤으로 캡처한 것을 나쁜 썸네일로 구분해 새로운 썸네일 추천 모델을 학습시켰습니다. (위 그림) 좋은 썸네일은 주인공이 중앙에 위치하고 초점이 잘 맞는 반면 나쁜 썸네일로는 영상의 주제를 알 수 없습니다.

기존 알고리즘의 썸네일(위 그림 상단)과 새로운 알고리즘의 썸네일(위 그림 하단)을 비교했습니다. 기존보다 초점이 더 잘 맞고, 주인공이 중앙에 있는 썸네일이 추출되었습니다.

1.2. 객체 인식

| 기술

객체 인식 AI는 수천 개의 객체(자전거, 전화기, 건물 등)와 장면(주차장, 해변, 도시 등)을 식별합니다. 비디오를 분석할 경우, "택배 배달" 또는 "축구하기"와 같은 다양한 활동을 인식합니다.

마이크로소프트 Azure는 사진을 넣어 직접 테스트할 수 있는 기능을 제공합니다. 사진을 넣으면 사진 속 객체와 상황을 묘사하는 한 문장이 나옵니다.

테스트로 고양이가 있는 사진 두 개를 인식시켰습니다.

첫 번째 사진은 "빌딩 위에 앉아 있는 고양이" (예상 정확도: 0.58)로 나왔습니다. 고양이 뒤에 있는 격자무늬 배경을 빌딩으로 오해한 모양입니다. 예상 정확도가 낮은 것으로 보아 배경 인식이 어려웠던 것 같네요.

두 번째 사진은 "가죽 의자 위에 누워있는 고양이" (예상 정확도: 0.75)로 나왔습니다. 나무 바닥을 가죽 의자로 오인식했습니다. Azure AI의 배경 인식 정확도는 객체 인식보다 낮은 것으로 보입니다. 하지만 "누워있는" 고양이라는 것은 정확히 예측했습니다.

AI는 "고양이"라는 객체만 인식하지 않고 어떤 상황과 배경에 있는 고양이라는 것을 식별했습니다. 이미지 인식 AI는 사진의 전반적인 상황까지 인식하는 단계에 다다른 것입니다.

| 쓰임새

a. 특정 장면 검색

객체 인식 AI로 원하는 장면을 빨리 찾을 수 있습니다. 장면 검색 기능을 활용하면 영상 중간에 광고를 삽입하기 적절한 위치를 찾을 수 있습니다. 예를 들어, 드라마에서 "삼성" 노트북 PPL 씬이 나온 후 삼성의 광고를 삽입하고, "자전거 타는 장면"이 나온 후 삼천리 자전거 광고를 넣는 방식입니다.

b. 부적절한 영상/이미지 제거

이미지와 비디오에서 잔인하거나 선정적인 사진과 장면을 분류합니다. 사용자가 정한 기준에 따라 허용할 콘텐츠의 범위를 정할 수 있습니다. 예를 들어, 온라인 커뮤니티는 부적절한 콘텐츠가 유통되는 것을 방지하기 위해 인력으로 콘텐츠를 검열합니다. AI가 부적절한 콘텐츠를 구별하면 검열의 상당 부분을 자동화할 수 있습니다.

| 실제 서비스 사례

a. 실험용 쥐의 상태를 알려주는 AI

https://deepomatic.com/en/business_case/sanofi

제약회사는 약의 성능을 검사하기 위해 실험용 쥐를 사용합니다. 그런데 실험실에 있는 수많은 쥐의 상태를 24시간 감시하는 것은 비효율적입니다.

프랑스의 글로벌 제약회사 사노피는 쥐의 이상행동을 검출하기 위해 객체 인식 AI를 사용합니다. AI는 쥐의 활동 및 정지 기간과 먹고 마시는 시간 측정합니다. 그리고 이러한 정보를 기반으로 쥐의 건강 상태가 좋은지, 급속도로 악화되고 있는지 알려줍니다. 사노피는 쥐를 감시하는 비용을 아껴 연구 개발에 투자할 수 있게 되었을 것입니다.

b. 아마존의 미디어 분석 AI

오늘날 OTT, VOD 서비스는 다음 회차 이어 보기 서비스를 제공하고 적절한 지점에 광고를 넣기 위해 다수의 인력을 고용합니다. 아마존의 미디어 분석 AI는 건너뛰거나 광고를 넣기에 적절한 구간을 자동으로 추출합니다.

아마존의 미디어 분석 AI는 비디오의 암전과 엔딩 크레딧 지점을 찾아냅니다. 암전 화면은 광고를 삽입하기 적절한 지점입니다. 또한, 아마존은 제작진 목록만 나오는 간단한 엔딩 크레딧부터 영상과 제작진 목록이 함께 나오는 복잡한 버전까지 모두 엔딩 크레딧 구간으로 인식합니다. AI가 드라마의 회차 별 엔딩 크레딧 지점을 찾으면 다음회차 바로보기 버튼을 자동으로 삽입할 수 있습니다.

샷이란 하나의 카메라로 촬영한 짧은 장면입니다. 예를 들어, 배우 A가 대사를 치는 장면이 배우 B의 장면을 넘어가기 전까지를 하나의 샷으로 구분합니다. 미디어 AI는 샷의 시작과 끝 지점을 인식합니다. 샷 인식 기술을 활용하면 배우의 대사 중간에 광고를 넣는 것을 피할 수 있습니다.

1.3. 글자 인식 (OCR)

| 기술

OCR(Optical Character Recognition)은 문자 인식 기술로, 이미지와 영상에 있는 글자(텍스트)를 인식합니다. 인식한 텍스트를 기계가 읽을 수 있는 형태로 변환해 다양한 서비스에 활용할 수 있습니다.

Naver Clova는 텍스트 이미지를 직접 인식할 수 있는 기능을 제공합니다. 저는 테스트로 "고양이 밥 주지 마세요"라는 표지판을 인식시켰습니다. 프린트된 공지 글과 손으로 작성한 답글이 있어 인식 성능을 테스트하기 좋은 예시입니다.

OCR은 프린트된 글씨를 정확하게 인식했습니다. 크게 작성된 손글씨도 꽤 정확하게 인식했네요. 손글씨의 경우 띄어쓰기 인식까지는 완벽하지 않습니다. 하지만 대각선으로 작성된 글자도 인식한다는 점이 인상 깊었습니다.

| 쓰임새

a. 이미지의 텍스트 검색

특정 텍스트를 포함한 이미지를 찾습니다. 예를 들어, 특정 키워드가 포함된 뉴스 클립을 검색할 수 있습니다.

b. 콘텐츠 통찰력

텍스트에 자주 출현한 단어나 형식을 기반으로 텍스트의 주제와 감정을 분석합니다.

예를 들어, 법률 AI 스타트업 인텔 "지능형 계약서 분석기"는 계약서에 대한 통찰(insight)을 제공하는 AI 서비스입니다. 사용자의 계약서를 분석해 위험 요소, 누락 요소, 메타 정보를 분석하고 수정 방향까지 제시합니다.

*참고: 지능형 계약서 분석기가 OCR 기술을 사용하는지는 알 수 없습니다. 자연어 처리, 딥러닝, 기계 독해, 법률 추론 기술을 사용하는 것으로 기재되어 있습니다.

| 실제 서비스 사례

a. Naver Clova 램프

Naver Clova 램프에 동화책을 비추면 램프가 책을 읽어줍니다.

램프 아래에 책을 놓으면 이미지 인식 AI로 제휴 도서 여부를 인식합니다. 제휴 도서일 경우, 사전에 녹음된 음성을 재생합니다. 제휴 도서가 아니면 OCR 기술로 텍스트를 인식한 후 음성 합성 기술로 책을 읽습니다.

제휴 도서는 녹음된 음성을 재생하니 정확도가 떨어질 문제가 없지만, OCR로 동화책을 읽을 때는 인식의 정확도가 중요합니다. 동화책은 일반 책 보다 삽화와 심미성이 중요하기 때문에 폰트가 그림 같고 일관적이지 않습니다. 이러한 동화책에 특성에 맞게 OCR 인식 기술을 개선하는 것이 앞으로 Naver Clova 램프가 해결할 과제일 것입니다.

b. B tv 예능 코너 탐색

예능 VOD의 좌측 상단 코너 제목을 OCR로 인식해 코너 별 재생 구간을 구분합니다. OCR이 구분한 코너 구간 정보를 기반으로 코너를 탐색하거나 검색할 수 있습니다.

예능 프로그램마다 사용하는 폰트와 소제목 형식이 다르므로 OCR 기술은 이러한 다양성을 감안해야 합니다. OCR 인식이 틀리면 사람이 텍스트를 하나하나 수정합니다. 즉, OCR 인식의 정확도가 보장되지 않으면 사람이 처음부터 다 쓰는 것만 못할 수 있습니다.

마무리하며

오늘 소개한 세 가지 이미지 인식 AI의 정의입니다.

1) 인물 인식 AI: 사람의 얼굴을 인식합니다. 누구의 얼굴인지부터 감정까지 인식할 수 있습니다.

2) 객체 인식 AI: 객체와 장면, 활동을 인식합니다. 객체 별로 이미지와 장면을 분류합니다.

3) OCR 텍스트 인식 AI: 이미지 안에 있는 글자(텍스트)를 인식합니다.

소개한 AI 서비스 중에 실제로 사용해본 서비스도 있고 처음 보는 서비스도 있을 것입니다. 가장 재미있거나 유용하다고 생각한 서비스는 무엇인가요? 반대로 이런 건 굳이 필요한가 싶은 서비스도 있었나요? 다음 화에서는 이미지 인식 AI 서비스보다는 발전이 느리지만 빠른 속도로 성장하고 있는 "이미지 생성 AI 서비스"를 만나보도록 하겠습니다. 다음에 또 봐요!