문서를 처리하는 AI 서비스를 만들다 보면 필연적으로 마주치는 벽이 있습니다. 바로 '복잡한 문서 구조'입니다.
단순한 텍스트라면 기존의 LLM과 RAG(검색 증강 생성)로 처리가 가능하지만, 복잡한 표, 그래프, 다단 편집이 섞인 문서는 텍스트 추출 단계에서 정보가 유실되거나 엉망이 되기 일쑤입니다.
"PDF 속의 표와 차트 내용을 정확하게 검색할 수 없을까?"
"이미지와 텍스트가 섞인 문맥을 AI가 사람처럼 이해하려면 어떻게 해야 할까?"
이 문제를 해결하기 위해 Vision-Language Model(VLM)을 학습시키고, 실제 멀티모달 RAG 시스템을 구축해본 현업의 이야기를 공개합니다.
이번 세션은 이론적인 개념 설명에 그치지 않습니다.
RAG와 임베딩, 파이프라인 구축 분야에서 깊이 있는 기술력을 인정받은 사이오닉AI(Sionic AI)의 실무 경험을 공유합니다.
텍스트뿐만 아니라 이미지와 레이아웃을 동시에 이해하는 '멀티모달 모델'을 어떻게 학습시켰는지, 그리고 이를 서비스에 적용할 때 필연적으로 발생하는 성능, 비용, 레이턴시(지연 시간) 문제를 어떻게 해결해 나갔는지 '진짜 실무의 노하우'를 들어봅니다.

"문서 속의 내용은 단순히 텍스트로만 존재하지 않습니다. 이번 발표에서는 텍스트와 이미지를 결합해 정보를 온전히 이해하는 모델을 어떻게 만들고 운영하는지, 그 치열한 고민의 과정을 공유하려 합니다.
양호진 Sionic AI ML Researcher
*발표자료는 1월 5일(월) 오후 5시 이후부터‘요즘IT 디스코드’에서 다운받을 수 있습니다
아래 링크를 통해 등록해주시면, 등록한 이메일로 참가 링크가 발송됩니다.
➡️ [참가 신청 하러 가기]
신청 폼에 질문을 남겨주시면, Q&A 시간에 양호진 연구원님이 직접 답변해 드립니다. (현장 질문보다 우선 채택됩니다!)
AI 빌더 스쿨은 AI 시대의 모든 IT 실무자가 'AI 빌더'로 성장할 수 있도록 돕는 요즘IT의 플래그십 시리즈입니다. 직군에 관계 없이 현업 빌더, 팀, 기업을 초청해 실전 경험을 공유합니다.
첫 번째 파트너는 사이오닉AI입니다. RAG, 임베딩, 파이프라인 등 AI 엔지니어링 분야의 깊은 실무 경험을 가진 팀과 함께 진행합니다.
*개인, 팀, 기업 모두 가능!
➡️ 여기에서 자세한 내용 확인하고 신청폼 제출하기
©️요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.