‘부산대 맞춤법 검사기’는 누가 만들었을까?

10분

2025.04.25.

Chapter 1. 한국어 맞춤법/문법 검사기는 왜 만들어졌을까?

Q. 안녕하세요, 교수님. 먼저 요즘IT 독자들을 위해 간단한 자기소개를 부탁드립니다.

안녕하세요. 저는 1988년부터 2024년 2월까지 부산대학교 정보컴퓨터공학부 교수를 지냈으며, 현재는 ㈜나라인포테크 대표이사를 맡고 있는 권혁철입니다. 1990년부터 지금까지 한국어 맞춤법 검사기를 개발하고 있습니다. 전공 분야는 인공지능(AI)과 한국어 정보 처리인데, 국내에서는 이 분야 연구자 1세대라고 할 수 있습니다.

Q. 처음 ‘한국어 맞춤법/문법 검사기’를 개발하게 된 계기는 무엇인가요?

1990년 당시만 해도 개인용 컴퓨터(PC)의 주메모리 크기가 512킬로바이트(KB)를 넘지 않았어요. 그래서 그 당시의 기술로는 개인용 컴퓨터에서 한국어 맞춤법 검사기를 사용하는 게 불가능했죠. 한국어 단어 15만 개를 주기억장치에 저장할 수 있는 새로운 아이디어가 떠올랐습니다. 이 아이디어는 한국어 한 단어를 평균 3.5바이트(Byte) 정도로 저장할 수 있는 아주 획기적인 방법이었죠. 아직 이 기술의 구체적인 원리는 외부에 공식적으로 발표하지 않았습니다. 저는 이 기술을 바탕으로 1991년에 한국어 맞춤법 검사기를 만들어 발표했고, 지금까지 꾸준히 개발을 이어오고 있어요.

당시 서버 환경에서는 이미 기계번역 시스템이 활발히 개발되고 있었어요. 저 역시 대학원 시절엔 기계번역 기술을 연구했습니다. 하지만 일반 사용자들이 실생활에서 쓸 수 있는 언어 처리 시스템이라고는 영어 맞춤법 검사기 정도가 전부였죠. 당시 기술계에서는 개인용 컴퓨터에서 한국어 맞춤법 검사기를 구동하는 건 거의 불가능하다는 의견이 일반적이었죠.

Q. 그렇다면 초기 개발 과정에서 가장 어려웠던 점은 무엇이었나요?

역시 주기억 장치(메모리)의 용량 문제였습니다. 앞서 말씀드린 방법으로 이 한계를 극복한 것이 사실상 개발의 출발점이었죠. 그렇지만 당시 컴퓨터 기술 자체의 제약 때문에, 다양한 기술을 도입할 수도 없고 성능도 떨어질 수밖에 없었어요. 그래서 처음에는 상당한 비난과 지적도 많이 받았습니다.

게다가 당시 국내 시장에는 아래아한글, MS워드, 삼성 워드프로세서 등 여러 제품이 있었는데요. 저희가 한컴과 계약을 체결했더니, 다른 기업에서는 별도의 기관에 개발을 위탁하더라고요. 또 이미 서버 버전으로 일부 한국어 맞춤법 검사기가 개발된 사례도 있었기 때문에, 저희는 연구비와 개발비 지원 부족이라는 현실적인 문제에 직면했습니다.

다행히 그때 당시 문화부 장관이셨던 고) 이어령 선생님께서 이 문제를 듣고 적극적으로 도움을 주셨어요. 덕분에 비용 문제를 해결하며 개발을 이어갈 수 있었습니다. 또 기술적 한계를 전혀 고려하지 않고, 무조건 비난만 하는 사람들 때문에 마음고생도 많았죠. 그런 어려움을 하나씩 넘으면서 여기까지 오게 됐습니다.

Q. 이 서비스를 만들면서 가장 중요하게 생각한 철학이나 목표가 있었나요?

“모든 자료와 규칙은 제가 직접 만들고 넣고 검증하겠다”라는 것이 철학이라고 할까요? 대학 연구실이라는 특성상 대학원생들은 끊임없이 바뀌기 마련인데요. 만약 책임 교수가 전체 시스템을 제대로 파악하지 못하면, 안정적인 상용 시스템을 만드는 것은 사실상 불가능합니다. 그래서 저는 시스템 전체를 직접 책임지고 관리하는 것을 원칙으로 삼았습니다.

또 하나는 처음부터 모든 것을 완벽히 구현하려고 무리하기보다는, 현재 기술로 가능한 요소들을 하나씩 추가해 가면서 장기적인 안목으로 접근하자는 목표도 있었습니다.

Chapter 2. 맞춤법 검사기엔 어떤 원리가 적용될까?

Q. 맞춤법 검사기는 어떤 방식으로 오류를 찾아내고 수정하나요?

먼저 한 어절을 보고, 그 어절이 한국어 어법에 맞는지 조사합니다. 이를 위해 형태소 분석을 수행하는데요, 이 과정에서 ‘오얏’ 같은 잘못된 단어나 조사, 어미와 같은 오류 형태도 함께 분석하고 찾아냅니다. 분석을 통해 오류라고 판단되면 이에 대한 대체 단어(대치어)를 생성하는 방식이죠. 현재 시스템에는 약 40만 개의 오류 형태가 등록돼 있습니다.

만약 형태소 분석으로 판단이 어려운 경우라면, 띄어쓰기 오류, 잘못 입력한 글자, 발음의 유사성 등을 기준으로 다시 어절 오류를 수정합니다. 이후 이런 결과물들을 통계적 정보를 활용해 적절한 순서로 재조정하는 과정을 거칩니다. 또한 각 어절의 주변 문맥을 보면서 문법 또는 의미상으로 오류가 있는지, 규칙 기반으로 판단합니다. 특히 우리나라 사람들이 자주 틀리는 형태를 중심으로 문맥에서 오류를 찾도록 시스템이 설계돼 있습니다. 현재 구축된 규칙만도 약 8만 개 정도에 달합니다.

기본적으로 저희 맞춤법 검사기는 규칙에 기반을 둔 전통적인 방식을 따르는데요. 이런 규칙 기반 시스템*의 특성상, 가끔은 규칙이 잘못 작동해서 맞는 것을 틀렸다고 하거나, 틀린 것을 맞다고 판단하는 경우도 생깁니다. 이러한 부분에서는 최근 인공지능(AI) 언어 모델을 적용하면 성능을 개선할 수 있습니다. 물론 GPU를 장착한 컴퓨터 환경에서는 이러한 언어 모델을 사용하는 것도 가능하죠.

*규칙 기반 시스템: 규칙 기반 시스템(Rule-based system)은 특정 작업을 수행하기 위해 사전에 정의된 규칙이나 조건을 사용하는 컴퓨터 시스템이다. <출처:위키독스>

Q. ‘한국어 맞춤법/문법 검사기’만의 차별점이 있다면 무엇인가요?

맞춤법 검사기의 사전 규칙과 프로그램을 직접 꼼꼼히 검증했다는 점을 말씀드릴 수 있을 것 같습니다. 대학 연구소의 특성상 개발자가 자주 바뀌다 보면 시스템의 일관성을 유지하기 어려운데, 시스템의 기초부터 지금까지 꾸준히 관리하며 일관성을 지켜왔어요. 이러한 부분이 저희 맞춤법 검사기의 차별점이자 장점이라고 생각합니다.

Q. 자연어 처리(NLP) 기술 등이 맞춤법 검사기에 어떻게 적용되었나요?

맞춤법 검사기는 자연어 처리(NLP, Natural Language Processing) 기술의 거의 모든 영역을 활용해야 합니다. 하지만 사용자가 문장을 입력할 때 바로 교정이 이루어져야 하는 특성상, 모든 언어 처리 기술을 전부 사용할 수는 없죠. 현재 맞춤법 검사 시스템은 형태소 분석을 기반으로 하면서, 문법과 의미 처리를 규칙 기반으로 처리하는 방식을 택하고 있어요. 이때 규칙은 한국어의 어법적 특성을 반영하고 있죠.

Chapter 3. 맞춤법 검사기의 운영과 미래 계획

Q. 현재 서비스를 유지하는 데 가장 큰 도전 과제는 무엇인가요?

가장 큰 도전 과제는 역시 생성 인공지능(Generative AI)이에요. 저희가 가진 데이터를 학습 자료로 사용하면, 현재 시스템의 성능을 약 90%까지 따라잡는 데 일주일도 걸리지 않아요.

특히 몇몇 유명한 생성 인공지능 시스템이 저희가 제공한 검사 결과를 가져가서 학습한 것으로 보입니다. 아마 신문으로 치면 수십 년 치 자료를 가져갔을 텐데, 그 업체가 직접 수집했는지 아니면 다른 업체에 맡겼는지 정확히는 알 수 없어요. 맞는 한국어 표현을 우리 시스템의 규칙이 잘못되어 오류로 판정할 때가 있습니다. 당연히 생성 인공지능은 바르다고 판단해야 하는데도 틀렸다고 판단할 때가 생각보다 많습니다. 생성 인공지능인 만큼 고칠 때는 문맥에 맞는 다른 표현으로 바꿉니다. 그 결과가 원래 의미와 비슷하기는 하지만, 어울리지 않습니다. 심지어 맞는 한국어 어절을 우리 시스템이 틀렸다고 했는데, 대부분의 생성 인공지능 시스템이 고치기도 합니다.

현재 생성 인공지능 분야는 서로 다른 시스템의 결과를 가져와 학습하는 것을 문제 삼지 않습니다. 그러다 보니 모든 시스템의 성능이 비슷해지고 있죠. 2024년 7월부터는 이를 막는 조치를 해서, 그 이후에 만들어진 규칙은 생성 인공지능이 제대로 고치지 못하는 상황이 되었습니다.

Q. 그렇다면 생성 AI 시대에도 맞춤법 검사기가 꼭 필요한 이유는 무엇일까요?

생성 인공지능은 몇 가지 사례만 학습해도 잘 교정하기 때문에, 이렇게 규칙 기반 시스템의 성능을 따라잡는 게 어렵지 않습니다. 비용도 거의 들지 않고요. 하지만 처음부터 규칙 기반으로 만들어진 시스템은 규칙을 만들고 검증하는 데 정말 오랜 시간이 걸립니다. 결국 저희가 개발을 포기하면, 앞으로 새로운 유형의 맞춤법이나 문법 오류에 대해서는 제대로 교정할 수 없을 겁니다. 물론 통계적 방법으로도 한국어 맞춤법 검사기를 개발할 수 있지만, 한국어는 학습할 수 있는 자료가 부족해 그 결과가 썩 좋지 않습니다. 반면, 저희가 제안한 알고리즘을 이용해 영어 맞춤법 검사기를 개발하면(이미 논문으로 발표한 바 있습니다), 매우 뛰어난 성능을 얻을 수 있습니다.

저희도 생성 인공지능이나 ‘BERT’ 같은 기술을 활용해 한국어 맞춤법 검사기를 만들었지만, 비용 문제로 실제 서비스로 내놓진 못하고 있습니다. 대신 BERT를 언어 모델로 활용해, 현재 시스템의 성능을 개선한 연구 결과는 확보하고 있어요.

물론 생성 인공지능은 아주 강력한 언어 처리 도구입니다. 하지만 저희 시스템은 사용자가 입력과 동시에 실시간으로 오류를 찾아내는 것이 가능합니다. 이는 생성 인공지능으로는 아직 쉽게 구현하기 어렵습니다. 게다가 저희 시스템은 내부 자료가 외부로 유출될 가능성이 없고, 운영 비용도 매우 낮다는 장점이 있습니다. 올해 들어 회사 수익이 급격히 떨어지는 등 어려움도 있지만, 개인적으로는 맞춤법 검사기가 여전히 중요한 역할을 하고 있다고 믿고 있습니다. 그래서 앞으로도 계속 개발을 이어 나갈 계획입니다.

Q. 최근엔 서비스에 광고가 붙은 걸로 아는데, 운영비로 쓰시나요?

광고 수익이 크지는 않지만, 운영비에 큰 도움이 되고 있습니다. 아마 광고를 붙이지 않았다면 1년 이내에 개발을 포기했을지도 모릅니다. 제가 교수로 있을 때는 연구비로 개발을 진행할 수 있었지만, 퇴직한 현재 10여 명의 인건비를 감당하는 게 쉽지 않습니다. 10년 전에는 한 분이 지금 사용 중인 맞춤법 검사기 인터페이스를 유료로 만들어주셨고, 최근에도 일곱 분이 모여 새로운 검사기 인터페이스를 무료로 만들고 계십니다. 이런 분들의 도움이 정말로 큰 힘이 됩니다.

Q. 맞춤법 검사기의 향후 업데이트 계획이 있을까요? 혹은 정기적으로 어떤 업데이트가 진행되고 있는지 궁금합니다.

현재 업데이트는 매주 하고 있습니다. 이미 내부적으로는 생성 인공지능 기법을 적용한 관련 기술도 개발해 두었죠. 향후 컴퓨터 비용이 더 낮아지면 이 기술도 활용할 겁니다. 특히 한국어 맞춤법 관련 학습 말뭉치를 풍부하게 보유하고 있어서, 이를 활용하면 다른 어떤 시스템보다도 뛰어난 생성 인공지능 기반의 맞춤법 및 문법 검사기를 개발할 수 있습니다.

또 사용자 인터페이스가 불편한 점이 많은데, 현재 고마운 분들이 재능 기부로 새로운 사용자 인터페이스를 개발하고 있어요. 조만간 더 편리하고 개선된 사용자 인터페이스를 제공할 수 있을 겁니다. 비용만 더 충분하다면, 맞춤법 검사기뿐 아니라 문장 요약이나 제목 추출 등 한국어 정보 처리 전반에 거친 다양한 시스템 개발도 진행할 수 있습니다.

Q. 현재 맞춤법 검사기 외에 진행 중인 또 다른 프로젝트도 있나요?

예전에는 생성 인공지능을 활용한 자연어 데이터베이스 질의 시스템이나, 정보 검색 시스템과 같은 다양한 연구를 진행했는데요. 정년 퇴임 이후부터는 맞춤법 검사기와 관련된 기술 개발에만 집중해 오고 있습니다.

Chapter 4. 사용자들과 오랜 세월 함께 해온 한국어 맞춤법 검사기

Q. 맞춤법 검사기를 만든 이후, 사용자들에게 들었던 인상적인 피드백이 있나요?

특별히 생각나는 것은 없지만, 제 소개를 하면 대부분 “아!”하고 말씀해 주십니다.

Q. 연구진의 관점에서 맞춤법 검사기가 한국어 사용 문화에 어떤 영향을 미쳤다고 생각하시나요?

바른 우리말 생활에 어떤 형태로든 도움을 줬다고 생각합니다. 실제로 ‘야채’보다 ‘채소’를 쓰자는 권장 표현들이 언론 매체 등에는 어느 정도 받아들여지고 있는 것으로 알고 있고요. 그러나 지나치게 순화하여 싫다는 반응이 있어, 현재는 외래어라도 순화한 용어가 뜻에 차이가 크면 허용합니다. 외래어 표기법을 최대한 따르도록 힘을 쓰지만, 이 부분은 아직 큰 영향을 주진 못한 것 같습니다. 사용자의 선호에 따라 ‘강한 규칙 적용하기’로 나누었지만, 이 역시 아직 큰 영향은 없어 보여요.

Q. 한국어 맞춤법 검사기와 관련해 더 많은 사람들에게 어떤 점을 알리고 싶으신가요?

무엇보다 우리말을 바르게 쓰는 것이 중요하다는 점입니다. 어법을 조금만 공부하면, 일상에서도 올바르게 사용하는 게 생각만큼 어렵지 않거든요. 그래서 많은 분들이 평소 생활 속에서도 바른 한국어 사용에 좀 더 관심 가지면 좋겠습니다. 특히 이메일을 비롯한 인터넷상의 언어생활에서도 맞춤법을 바르게 지켜지면 좋겠고요. 이렇게 작은 관심이 모여 우리말을 더 아름답고, 정확하게 만드는 데 큰 도움이 될 거라고 생각합니다.

Q. 교수님도 평소에 맞춤법 검사기를 자주 활용하시나요?

저도 자주 사용합니다. 사실 저 역시 맞춤법을 완벽하게 알고 있지는 않아요. 입력할 때 생기는 오타를 전부 찾아내기도 쉽지 않고요. 특히 합성어나 복합어처럼 구별이 까다로운 단어들은 저도 헷갈리는 경우가 많거든요. 그래서 늘 맞춤법 검사기를 통해 다시 한번 확인하고 도움말을 참고합니다. 물론 표준국어대사전도 자주 활용하고요. 그래도 해결되지 않고 의문이 남을 땐 직접 국립국어원에 문의도 하고, 의견을 전달하기도 합니다.

Q. 오래된 서비스지만, 한국어 맞춤법/문법 검사기가 꾸준히 사랑받는 이유는 무엇일까요?

지난 30여 년 동안 쉬지 않고 꾸준히 서비스를 업데이트하고, 개선해 왔기 때문이라고 생각합니다. 저희는 힘이 닿는 데까지 계속해서 시스템을 발전시켜 나갈 계획이니, 앞으로도 많은 관심 부탁드립니다.

Q. 마지막으로 맞춤법 검사기를 이용하는 분들에게 전하고 싶은 말이 있으신가요?

규칙을 기반으로 맞춤법 검사기를 만드는 일은 생각보다 많은 시간과 노력이 필요한 작업입니다. 저희 역시 오랫동안 최선을 다해 시스템을 관리하고, 개선해 나가고 있습니다. 다만 무단으로 데이터를 가져가거나, 학습 목적으로 과도하게 사용하는 경우도 종종 있는데요. 작년 10월 이후로는 이런 사례가 많이 줄었지만, 아직도 하루에 수백 건씩 학습 자료로 무단으로 활용하려는 접근이 있습니다. 누군가는 어렵게 만든 서비스라는 점을 많은 분들이 존중해 주신다면, 더욱 좋은 서비스로 보답할 수 있을 거라 생각합니다.

30여 년 넘게 사랑받아 온 ‘한국어 맞춤법/문법 검사기’는 오늘날 우리가 사용하는 다양한 맞춤법 검사기의 토대가 된 서비스입니다. 저 역시 오랜 시간 애용해 왔고, 지금 이 인터뷰도 검사기의 도움을 받아 꼼꼼히 교정했는데요. 이번 인터뷰에서는 특히 생성 AI의 시대에도 흔들림 없이 검사기의 업데이트와 개발을 계속 이어가겠다는 교수님의 의지가 매우 인상깊었습니다. 모든 것이 빠르게 변하는 시대지만, 결국 ‘꾸준함’이라는 가치는 우리가 잊지 않아야 할 가장 중요한 가치 아닐까요?

<참고>

https://nara-speller.co.kr/speller/

김소희 에디터 sohee@wishket.com