한글과컴퓨터는 PDF 문서에서 인공지능(AI) 데이터를 추출하는 소프트웨어 개발 키트(SDK) ‘한컴 데이터 로더(Loader)’를 출시한다고 18일 밝혔다.
한컴 데이터 로더는 PDF에서 텍스트를 추출, AI가 학습하기 쉬운 여러 포맷(JSON·CSV·TXT·XML 등)으로 변환해 주는 도구다. PDF뿐만 아니라 오피스 문서에서도 텍스트를 포함한 다양한 객체를 AI 학습용 데이터로 추출해 제공한다.
한컴은 국내 대기업을 대상으로 데이터 로더 테스트를 마치고 내달부터 국내를 비롯해 최근 투자한 스페인 AI 보안 솔루션 기업 ‘페이스피’와 협업해 유럽 시장을 공략할 예정이라고 설명했다. 이를 위해 최근 해외 고객을 대상으로 한컴 데이터 로더와 자사의 AI 기술, SDK 기술을 소개하는 다국어(영어·독일어·스페인어·일어) 사이트를 열었다.
한컴이 이 기술을 개발한 것은 최근 대규모 언어모델(LLM)의 환각 현상을 최소화하는 해결책으로 활용할 수 있기 때문이다. AI 업계에서는 환각 현상을 최소화하기 위한 방법 중 하나로 ‘검색 증강 생성(RAG)’ 기술을 꼽는다. RAG는 특정 데이터베이스나 문서들로부터 관련 정보를 검색한 뒤 그 정보를 LLM에 적용해 적절한 답변으로 텍스트를 생성하기 때문에 실시간으로 정보가 업데이트돼 정확도가 높다. 글로벌 기업과 기관들은 RAG 도입을 검토 중이지만 구조화되지 않은 문서에서는 데이터 추출이 어렵다 보니 방대한 문서를 AI가 학습하기 좋은 형태로 데이터화하는 전처리 기술이 중요해졌다.
김연수 한컴 대표는 “한컴은 올해를 글로벌 빅테크 기업으로 나아가는 원년으로 삼고, 인수·투자·협력을 여러 방면으로 진행하며 AI 사업을 본격화하고 있다”면서 “한컴 데이터 로더로 글로벌 AI 시장에 진출할 것”이라고 말했다.