어느 날 OCR이 사라지면 어떤 일이 생길까?
나는 지금껏 OCR(광학 문자 인식, Optical Character Recognition) 기술에 대해서는 아무 신경도 쓰지 않고 살아왔다. 종이에 끄적인 메모를 노션으로 옮길 때 사용한 것이 전부였다. 처음에는 별도의 OCR 앱을 설치해 메모를 추출하곤 했지만, 이제는 카메라 앱만 있으면 바로 복사할 수 있게 되었다.
그러다 문득 이 편리한 기술은 어디서 왔을까 궁금해졌다. 일상에서 흔히 쓰이지만 나는 정말 OCR에 대해 아무것도 모르고 있다는 자각이 들어 이 글을 쓰기 시작했다. OCR은 여행지 메뉴판을 실시간으로 번역해 주는 것 이상으로 널리 쓰인다. 이 기술이 사라지면 사회 인프라의 대부분이 제대로 굴러가지 않을 것 같은데, 과연 어떨까?

1. OCR은 누가 만들었는가
OCR 기술은 오랜 세월을 거쳐 발전해 왔는데, 문자를 전보 형태로 변환하는 것에 뿌리를 두고 있다. 제1차 세계대전 시기에 엠마누엘 골드버그(Emanuel Goldberg)라는 러시아 출신의 과학자가 기계를 하나 발명했다. ‘Statistical machine’이라는 이름의 이 기계는 인쇄된 문자를 전보에 쓰이는 모스 부호로 변환해 주었다. 이후 비슷한 시기에 구스타프 타우셰크(Gustav Tauschek)라는 오스트리아 발명가가 ‘Analog Reading Machine’이라는 기계를 만들어낸다. 빛 감지 센서 등을 활용해 문자를 인식하고, 인식한 문자를 최종적으로 종이에 인쇄하는 기계였다.

두 기계 모두 소프트웨어 기반은 아니었지만, 글자를 기계가 인식할 수 있는 전기 신호로 변환한다는 점에서 OCR의 원형이라 볼 수 있다.
1950년대 들어 사회에 흐르는 데이터의 양이 폭발적으로 증가했다. 기존의 기계로는 한계가 있었다. 이때 데이비드 셰퍼드(David Shepard)와 하비 쿡 주니어(Harvey Cook Jr.)라는 발명가 두 명이 GISMO라는 기계를 개발한다. GISMO는 문자를 디지털 신호로 변환할 수 있었을 뿐만 아니라 이를 대량으로 소화해 낼 수 있어 시대에 딱 어울리는 제품이었다.
이 둘은 회사를 설립해 GISMO를 판매하기 시작했고 출판사, 은행, 통신회사에서 주로 활용하게 되면서 사회 인프라로 자리 잡아갔다. 이후 1959년에 IBM이 이 둘과 특허 라이선스 계약을 맺게 되고, IBM이 새롭게 개발한 기계의 이름을 OCR이라 지으며 대표적 이름으로 퍼져나가게 되었다.
그렇다고 지금의 OCR 관련 특허를 모두 IBM이 보유하고 있는 것은 아니다. 처음에 OCR 기술을 사용하는 회사들이 모두 IBM에 라이선스 비용을 지불하는 방식이라 생각했으나 그렇지 않았다. OCR 관련 특허는 IBM뿐만 아니라, 프린터로 유명한 제록스나 구글도 여러 개 보유하고 있다. 모두 ‘이미지 속 텍스트를 인식한다’라는 목표를 달성하지만, 인식을 위해 사용하는 기술이 다르기 때문이다. 그에 맞춰 특허도 다양해졌고, 현재도 계속해서 추가되고 있다.
OCR 기술은 디지털 트랜스포메이션과 AI의 발전이 가속화됨에 따라 그 수요가 꾸준히 늘어나고 있다. 리서치 업체 Grand View Research에 따르면, 2023년 기준 OCR 기술 시장의 규모는 125.6억 달러(약 18.3조 원)이며, 2030년에는 330억 달러(48.1조 원)까지 성장할 것이라 예상하고 있다.
2. OCR은 어떤 식으로 작동할까?

과거의 OCR은 단순했다. 최대한 많은 양의 폰트와 텍스트 패턴을 데이터로 저장해 놓은 뒤, 식별할 때 한 글자씩 대조하는 방식이었다. 저장된 대화 패턴 외에는 대답하지 못하는 챗봇과 똑같았다. 이 세상 폰트를 모두 저장할 수는 없는 노릇이니까 말이다. 또 사람마다 다른 손 글씨를 인식하기에도 한계가 있었다.
이후 OCR 기술이 기계학습 모델을 활용하기 시작하면서 인식률이 급격히 향상됐다. 단순히 폰트와 패턴을 대조하는 방식에서 벗어나, 이미지 속 곡선, 직선, 선과 선 간의 교차점, 명암의 구분 지점 등 텍스트만의 특징을 조합해 인식하는 방식으로 진화했다. 암기가 아닌 이해의 단계로 들어선 것이다.
<OCR의 기본적인 작동 프로세스>
1) 이미지 파일 입력
2) 텍스트로 보이는 영역 감지
3) 텍스트일 가능성이 낮은 영역 제거
4) 정확도 향상을 위해 밝기, 색상, 기울기 보정
5) 곡선, 직선, 교차점 등 다양한 특징을 분석하여 글자 인식
6) 사전에 설정된 조건을 적용 (예: 우편번호 인식 OCR은 항상 숫자일 것이라 가정함)
7) 판단하기 애매한 텍스트는 확률 기반으로 추론 (예: WIN / W1N 중 WIN일 확률이 더 높음)
8) 최종 결과 출력
애플은 2021년 iOS에 Live Text라는 기능을 추가했는데, 이 기능을 통해 사진 속 글자를 손쉽게 복사할 수 있다. 이때부터 이미지 속 텍스트를 추출하는 기능이 대중적으로 확산하게 된다. 이전에도 텍스트를 추출하지 못했던 것은 아니지만, 손가락 동작 한 번으로 추출할 수 있는 편리함이 대중성을 이끌었다. 지금은 스마트폰이라면 당연히 있어야 할 기능으로 자리 잡았다.
3. OCR은 어디에 활용될까?

우리나라 직장인이라면 대부분 ‘리멤버(Remember)’라는 앱을 알 것이다. 리멤버는 명함 관리 서비스로, 명함을 스마트폰으로 찍으면 명함 속 내용이 모두 디지털화되어 저장된다. 서비스 초창기에는 명함 내용을 직원들이 모두 수기로 입력했으나, 현재는 대부분의 입력이 OCR 기술로 이루어진다고 한다. 개인적으로도 자주 쓰는 앱이다.
여행지에서 메뉴판이나 안내문을 카메라로 번역할 때도 OCR 기술이 활용된다. 스마트폰 앱이 패턴 분석을 통해 어떤 언어인지 인식하고, 해당 언어의 문자 패턴을 대입해 글자를 해독해 낸다. 이러한 번역은 이제 여행에서 빼놓을 수 없는 도구가 되었다. 나는 주로 여행지 마트에서 물건을 살 때 상품 안내 문구를 카메라로 찍어 번역한다. 그 외의 일상적인 예시로는 노트의 메모를 디지털로 옮길 때, 네이버 영수증 리뷰를 처리할 때, 은행 앱에 가입할 때 운전면허증을 스캔할 때 등이 떠오른다.
이렇듯 OCR 하면 일상적인 예시부터 떠오른다. 그러나 OCR 기술이 활용되는 범위는 훨씬 넓다. 우리 사회 인프라 전반에서 사용된다. 우리는 디지털 사회에 진입했지만, 아직 모든 정보가 디지털화되지는 않았다. 따라서 실물에 인쇄된 문자를 디지털로 처리해야 하는 상황이 꽤 많고, 이때 OCR 기술이 반드시 필요하다.
- 은행과 같은 금융기관이 영수증, 지로통지서, 수표 등 금융 문서를 처리할 때
- 보험회사가 고객이 업로드한 진료비 세부내역서와 처방전을 처리할 때
- 공항에서 탑승객의 여권 정보를 스캔할 때
- 택배사가 배송 정보를 저장하거나 물류정보를 확인할 때
- 우체국에서 주소와 우편번호를 확인할 때
- 병원에서 환자의 진료 기록을 전자 의료 기록(EMR)으로 변환할 때
- 공무원 필기시험 답안지를 채점할 때
- 종이책을 전자책 형태로 변환할 때
- 과속 단속 카메라가 차량 번호판을 인식할 때
- 공장에서 제품 시리얼 번호를 인식하거나 제품 라벨의 정보를 검수할 때
- 역사 유물 속 문자를 해독할 때
이외에도 활용 예시는 끝이 없다.
4. 그래서 OCR이 사라진다면 어떻게 될까?

OCR이 사라지면 단순히 명함을 직접 입력해야 하는 불편함만 있지는 않을 것이다. 모든 곳의 효율성이 극심한 타격을 받아, 사회 전반에 걸쳐 마비 현상이 나타나게 된다. 각 분야별로 살펴보자.
1) 은행, 보험사, 공공기관에서 자동으로 처리하는 서류 작업을 모두 손으로 해야 한다. 각종 문서를 사람이 일일이 입력하고 확인하게 될 것이다. 프로세스가 느려질 뿐만 아니라 오류 발생률도 증가할 것이다. 코로나 때처럼 전 국민의 요청이 몰리게 될 때 업무 마비로 이어질 수 있다. 실제로 일본에서 코로나19 특별 지원금을 지급할 때 여러 시청과 구청의 업무가 마비되었던 사례가 있다.
2) 물류 서비스의 효율성 또한 급감한다. 운송장 정보를 하나하나 손으로 입력하고 눈으로 확인하는 작업은 모든 프로세스를 지연시킬 것이다. 우리의 삶은 개인적으로든, 업무적으로든 상당 부분이 물류 스피드에 최적화되어 있다. 물류와 우편이 느려지면 우리가 사는 속도도 그에 맞춰 조절해야 할 것이다. (자영업자분들의 비명소리가 들린다…)
3) 의료 행정이 전체적으로 지연된다. 환자의 의료기록이나 처방전이 수기로 처리되면서, 병원 및 보험회사와의 소통이 오래 걸릴 수밖에 없다. 몸이 아픈 것도 힘든데, 정신적으로도 고통을 받을 것이다. 엉뚱한 약을 처방받는 사고도 늘어날 것이다.
4) 전자책 시장이 아예 사라질 수도 있다. 나는 지하철에서 무엇을 읽어야 할까 혼란에 빠질 것이다.
5) 과속 단속 카메라의 번호판 인식률이 현저히 저하된다. 과속 단속 카메라는 ANPR(Automatic Number Plate Recognition, 번호판 자동 인식)이라는 기술을 사용하는데, 이 시스템에서 문자를 추출해 낼 때에는 OCR 기술이 활용된다. OCR이 사라지면 과속 벌금을 부과하는 프로세스에 사람이 투입되어야 할 것이다.
6) 유물이나 고문서 속 문자를 해독할 때 전적으로 사람의 전문성에 기대야 한다.
7) 공장 제조라인의 생산성이 떨어진다. 사람이 눈으로 확인하는 절차가 늘어날 것이다. 물류와 마찬가지로 제조의 속도 저하는 우리 삶의 속도를 재조정할 것이다.
물론 OCR 기술이 대체 불가능한 것은 아니다. 효율을 위한 도구이기 때문에 사람이 직접 작업해도 된다. 아니면 문자를 인쇄할 때 항상 QR코드가 붙어있도록 해도 된다. 신분증을 스캔할 때도 OCR이 아닌 UV나 QR코드, NFC 기술을 활용해도 된다. 없으면 없는 대로 굴러는 갈 것이다.
그러나 이것은 효율성의 문제이고, 속도는 결과물 자체만큼이나 중요하다. 새벽 배송은 우리의 생활패턴을 뒤바꿔놓을 정도의 영향력을 보여주었다. “속도도 기능이다(Speed is a feature)”라는 말도 있지 않은가.
결론: 있어 줘서 참 고마운 기술
<내용 정리>
- OCR 기술은 문자를 전보 형태로 변환하는 것에 뿌리를 두고 있으며, 1959년에 특허 라이선스를 얻은 IBM이 새로 개발한 기계를 OCR이라 부르며 이름이 자리 잡게 되었다.
- OCR은 이미지 파일에서 텍스트 영역을 감지, 밝기와 기울기 등을 보정, 텍스트를 인식, 설정 조건 체크, 확률 기반 추론을 통해 인쇄된 문자를 디지털로 변환한다.
- OCR은 명함 인식이나 카메라 번역처럼 일상에서뿐만 아니라, 금융기관, 의료기관, 공항, 물류, 공공기관, 출판사, 공장 등 안 쓰이는 곳이 없을 정도다.
- OCR 기술이 대체 불가능한 것은 아니므로, 없으면 없는 대로 굴러갈 것이다. 그러나 사회 효율성에는 극심한 타격이 있을 것이다.
현재 OCR 기술의 미래는 밝다. 기계학습 및 LLM(대규모 언어 모델)과 찰떡궁합이기 때문이다. 결국 문자를 얼마나 정교하게 인식할 수 있느냐가 핵심인데, AI 기술이 발전할수록 인식률이 개선될 수밖에 없기 때문이다. 안타까운 점은 현재는 영어 위주로 사용되는 기술이라는 점이다. 예를 들어, 영어와 아랍어의 OCR 인식률은 차이가 크다(관련 논문). 영어가 표준이 되는 기술이므로, 그 표준과 차이가 많은 언어일수록 인식률이 떨어진다. AI는 이 차이를 빠른 속도로 좁힐 것이다.
나아가 OCR은 단순히 문자를 디지털로 변환하는 것을 넘어, 추출한 문자의 맥락을 분석하고 의미를 해석해 주는 역할로 확장될 것이다. 1900년대처럼 OCR용 기계가 따로 있는 것이 아니기 때문에 소프트웨어 통합은 꾸준히 진행될 것이다. 또한 문자에 국한되지 않고 이미지나 얼굴을 인식하는 기술과 통합될 수도 있다. 그냥 눈에 보이는 모든 것을 인식, 분류, 해석해 주는 단일 기술로 거듭날 수도 있다. 결국 OCR은 ‘무엇을 읽는가’를 넘어, ‘어떻게 이해하고 활용할 것인가’를 고민하는 기술이지 않을까 싶다.
<참고>
- The Brief History of OCR Technology
- JUSTIA Patents
- Optical Character Recognition Market Trends
- What is OCR (Optical Character Recognition)?
- What Is OCR (Optical Character Recognition)? Meaning, Working, and Software
- How Does Optical Character Recognition (OCR) Work?
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.