사회 사회이슈

추출 요약보다 높은 수준의 ‘추상 요약’ 방식으로 데이터 구축

㈜알토비전 컨소시엄, AI 학습용 요약문 오류 데이터 10만 세트 구축




AI 기술이 발전하며 문서 요약 서비스가 증가하고 있는 추세다. 신문 기사, 구인/구직 사이트뿐만 아니라 각종 보험사 약관, 은행 등에서도 AI를 활용한 서비스를 선보이고 있다. 그러나 요약문이 본문을 발췌한 정도의 수준으로 간혹 중요한 내용을 빠뜨린다거나 전후 문장을 살펴보지 않으면 이해할 수 없는 내용으로 요약되는 현상이 발생하기도 한다.

추출 요약 방식은 본문에서 중요한 문장을 선택하여 그대로 요약문에 제시하는 방식이다. 일반적으로 포털에서 접할 수 있는 기사 요약 서비스에서 볼 수 있다 각 문장의 완성도가 높다는 장점이 있지만 문맥이 연결되지 않는 문장이 선택될 경우, 문장의 연결이 어색하거나 중요한 내용의 누락, 비슷한 내용이 중복으로 제시되는 등의 한계가 있다.


추상 요약은 추출 요약의 단점을 보완하여 나온 요약 방식으로, AI가 본문의 내용을 요약한 새로운 문장을 작성한다. 추출 요약보다 발전된 요약 방식으로, 내용을 보다 충실히 요약한다는 장점이 있다. 그러나 각 문장에 문법 오류가 있거나 어색한 문장이 작성될 수 있다는 한계점이 지적돼왔다.

추상 요약의 한계점을 보완하고 완성도를 높이기 위해 ㈜알토비전 컨소시엄은 한국지능정보사회진흥원(이하 NIA)의 ‘추상 요약 사실성 검증 데이터’(이하 추상 요약 사업) 10만 세트를 구축했다.


이 컨소시엄은 ㈜알토비전을 주관기관으로하고 ㈜나라지식정보와 비플라이소프트㈜가 참여하여 지난 7월부터 이 사업을 추진해 왔다. 컨소시엄에서는 비플라이소프트㈜에서 원시데이터 수집 및 정제와 원천데이터 생성을, ㈜알토비전이 데이터 가공을, ㈜나라지식정보에서 검수 및 품질 관리를 맡았다. 추상 요약 사업은 AI와 사람이 추상 요약문을 각각 작성하고, 요약문에 포함된 오류를 AI가 학습할 수 있는 데이터로 구축했다.

관련기사



오류의 유형은 문장 생성 과정의 오류인 문장 오류와 내용 요약 과정의 오류인 내용 오류로 구분되고 세부적으로는 6가지 유형으로 분류되었다. 문장 오류는 △한글맞춤법, 띄어쓰기 오류 △단어 선택 오류 △비문 △미완성 또는 불완전한 문장 등으로 나뉘고 내용 오류는 △키워드 또는 중요 내용 오류 △유사한 내용 반복 오류 등으로 나뉜다.

또한 AI가 오류를 학습할 수 있도록 하나의 데이터 세트에 오류 요약문, 요약문 오류의 위치, 오류 유형 정보, 오류를 고친 정보가 들어 있고 json 파일 형태로 구축했다.

알토비전과 ㈜테디썸은 사람이 쓴 문장 또는 AI가 만든 문장의 오류를 지적하거나 수정을 할 수 있는 ‘선생님 AI’ 솔루션을 개발할 예정이다.

사진 설명. 한국지능정보사회진흥원(지능정보원, NIA)사진 설명. 한국지능정보사회진흥원(지능정보원, NIA)


㈜알토비전 AI NLP Lab. 김태훈 실장은 “기존 맞춤법 검사기의 한계를 극복하고 실시간으로 올라오는 언론 기사의 맞춤법 오류를 자동으로 교정하는 AI서비스를 개발하여 궁극적으로 포털에서 정확한 기사를 볼 수 있도록 하는 것이 목표”라며, “NIA를 중심으로 AI 학습용 데이터가 많이 구축되고 있는데 기존 구축 데이터의 오류를 수정하여 학습용 데이터의 품질을 높이는 데에도 기여하고 싶다”고 전했다.

㈜알토비전은 2020년 설립된 중소기업으로 AI학습용 데이터 구축 전문 기업이다. NIA의 데이터 구축 사업, 정보통신산업진흥원(NIPA) 사업 등을 수행해 왔다.

김동호 기자
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기