국내 연구진이 사람처럼 문서를 이해하고 원하는 정보를 찾을 수 있는 인공지능(AI) 기술을 개발했다. 필요한 내용을 빠르게 파악해 업무 생산성을 높이고 정보 활용도를 높이는 데 도움이 될 것으로 기대된다.
한국전자통신연구원(ETRI)은 오피스 문서에서 사용자 질문에 답하고, 두 문장이 같은 의미인지 이해하는 기술 2종을 개발했다고 7일 밝혔다.
이번에 개발한 기술 중 하나인 ‘행정문서 질의응답(QA)’은 딥러닝 언어모델을 이용해 단락과 표를 인식하고 원하는 내용을 뽑아내는 기술이다. 예를 들어 ‘출장 경비가 100만원 들 때, 결재를 어느 선까지 받아야 할까요?’라고 질문을 입력하면 ‘100만 원 이하인 경우, 실장 전결’과 같은 사내 규정 정보를 담은 문서와 근거 정보가 어디에 있는지를 찾아준다. 공동연구기관인 한글과컴퓨터이 블라인드 평가를 진행한 결과 단락을 대상으로 검색해 나온 상위 5개는 89.65%, 표를 대상으로 검색한 나온 값은 81.5%의 정확도를 기록했다.
또 다른 기술인 ‘패러프레이즈 인식’ 기술은 문서를 보고 다른 형태의 문장이 같은 뜻을 갖는지 파악하는 기술이다. AI과 딥러닝 기술은 사람과 달리 문장이 조금만 달라져도 의미를 제대로 인식하는 데 한계가 있었다. ‘그는 빨간 자전거를 샀다’와 ‘그가 산 자전거는 빨간색이다’라는 문장은 쉽게 구분하지만, ‘그는 빨간 자전거를 안 샀다’와 같이 부정 부사만 추가돼도 구분을 명확히 하지 못한다. ETRI 평가 결과 레퍼르레이즈 인식 기술은 96.63% 정확도를 기록해 기존 오픈소스 딥러닝 기술보다 성능이 크게 개선됐다.
새로 개발된 두 가지 기술은 당장은 한글 문서 대상으로만 서비스가 제공되지만 기술 자체는 워드, PDF 등 다른 문서에도 활용될 수 있도록 만들어졌다. 임준호 ETRI 언어지능연구실 박사는 “한국어 AI 서비스 시장이 더욱 활성화돼 외산 AI 솔루션의 국내 잠식을 막고 국민들이 유용한 지식 정보를 쉽고 빠르게 습득하는 데 도움이 되기를 기대한다”고 말했다.