문체부·국립국어원, 인공지능용 한국어 말뭉치 155억어절 구축…5년간 175억 지원

문화체육관광부와 국립국어원은 한국어 인공지능 기술의 발전을 위해 2018~2022년 총 154억7,000만 어절의 말뭉치를 구축하는 국어 정보화사업 계획을 마련했다고 9일 밝혔다. 이를 위해 5년 동안 총 175억원의 예산을 투입하기로 했으며, 우선 내년도 예산 11억5,700만원을 편성했다.


이 계획은 기초 언어자원으로 시기·매체·장르별로 다양한 한국어 말뭉치 152억7,000만 어절과 구성·형식·분석체계 등이 정제돼 준거가 될 수 있는 표준 말뭉치 1억3,700만 어절을 구축·보급하는 것이 골자다. 언어처리 성능 평가의 객관적 기준이 될 평가용 말뭉치 6천만 어절과 번역·사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종(몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축·보급하는 내용도 포함됐다. 아울러 언어자원의 구축·연계·배포 전 과정을 효율적으로 지원하고 통합하기 위한 시스템도 구축하기로 했다.

이번 사업은 문체부와 국립국어원이 1998~2007년 10년간 추진한 ‘21세기 세종계획’의 후속 사업이다. 1차 세종계획은 총 150억원의 예산을 들여 소설 4,000권 분량인 2억 어절의 말뭉치를 구축하고 60만개 어휘를 담은 전자사전과 다양한 언어 정보화 검색 프로그램을 개발하는 성과를 남겼다. /나윤석기자 nagija@sedaily.com

한국어 지원하는 IBM의 인공지능 로봇 왓슨 /연합뉴스



<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>