한국어 빅데이터 '모두의 말뭉치' 공개

국립국어원이 지난 25일 한국어 분야의 빅데이터인 ‘모두의 말뭉치’를 공개했다고 26일 밝혔다.


모두의 말뭉치에는 인공지능(AI)의 한국어 처리능력 향상에 필수적인 한국어 학습자료 13종, 18억어절 분량이 수록돼 있다.

문화체육관광부와 국어원은 1998~2007년 추진한 ‘21세기 세종계획’에서 약 2억어절의 자료를 구축, 공개한 바 있는데 이번 자료는 이에 더해 일상 대화, 메신저 등 구어체의 비중을 높였다.

모두의 말뭉치에는 최근 10년간의 신문기사와 책 2만188종, 음성 대화와 메신저 대화, 방송자료, 대본, 블로그·게시판 자료 210만건 등이 공개돼 있다. 이 자료들은 모두의 말뭉치 사이트에서 온라인 약정서를 작성한 후 승인되면 파일을 내려받아 이용할 수 있다.
/송영규기자 skong@sedaily.com


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>