[두잇] NLP 기반 인공지능이 OCR을 만나면 생기는 일(영상)

서울경제썸 | Do IT(두잇)
눈 달린 AI스피커 '클로바 램프' 편

최근에 종영된 tvN 토일드라마 '스타트업'에서 '장영실'이라는 AI(인공지능) 스피커가 등장했습니다. 한지평(김선호 분)의 질문에 동문서답할 때가 더 많아서 시청자들에게 또 다른 재미 포인트가 되기도 했죠. 해당 장면을 보면 몇 년 전 AI 스피커 보급 초기 모습이 떠오릅니다. 성능이 떨어지는 음성인식 기능에 불편함을 느낀 이용자가 많았죠. 하지만 최근에는 여러 기능과 콘텐츠를 탑재하며 다양한 모습을 지닌 AI 스피커가 출시되고 있습니다.



그중에서도 가장 눈에 띄는 AI 스피커가 있었죠. 바로 지난 10월에 네이버가 출시한 AI 스마트조명 ‘클로바 램프’입니다. 조명과 AI 스피커가 합쳐진 생소한 모습의 기기인데요. 이 기기는 특이하게 책을 읽어준다고 합니다. 주부 유튜버 후기나 블로그 후기만 봐도 클로바 램프는 학부모에게 압도적으로 인기가 좋은 편입니다. 램프가 책의 글자를 인식해서 읽어주기 때문에 ‘자녀의 독서습관 기르기’에 최적화됐다고 입소문을 타고 있는데요.




/이미지투데이


클로바 램프는 한글과 영어로 된 어떤 책이든 글자를 읽어줍니다. 필기체도 무난하게 인식하는데요. 음성도 아이나 어른의 목소리로 자연스럽게 읽어줍니다. 어떻게 램프가 글자를 인식하고 마치 사람처럼 자연스럽게 읽어줄 수 있는 걸까요? 바로 네이버 클로바 램프에 탑재된 광학 문자 인식(Optimal Character Recognition, 이하 OCR)과 자연어 처리(Natural Language Processing, 이하 NLP) 기술 덕분인데요.



OCR은 사람이 직접 쓰거나 이미지 속에 있는 문자를 이미지 스캔으로 얻은 다음, 이를 기계가 인식할 수 있도록 문자를 디지털화하는 기술입니다. 클로바 램프에 탑재된 OCR 기술은 방대한 데이터 학습을 통한 독자적인 글자 텍스트 영역 검출 및 인식 능력을 자랑하죠.



과거 OCR 기술은 텍스트 라인을 찾는 모듈, 문자를 나누는 모듈 등 세분화된 여러 모듈로 동작하고 문자를 구분하는 기준이 되는 특징을 사람이 직접 등록해야 했는데요. 과거와 달리 지금의 OCR은 사진이나 영상 속 문자까지 인식하는 기술로 발전했습니다.



우리 생활 곳곳에서 사례를 찾아볼 수 있습니다. 스마트폰의 신용카드, 신분증 인식 서비스부터 공항의 여권 자동 인식기 등 여러 방면에서 사용되고 있죠. 이외에도 과속단속 카메라가 차량 번호를 인식할 때, 다양한 문서에서 정보를 추출할 때 등 OCR은 주변 곳곳에서 생활과 업무 편의성을 높여주고 있습니다.



서울경제썸 | 오늘은 '네이버 클로바 램프'에 탑재된 여러가지 기술을 체험해보고 AI산업에 대해서 전망해보는 시간을 가져봤습니다.



/이미지투데이


클로바 램프와 같은 AI 스피커가 질문자의 질문 의도를 이해할 수 있는 것은 바로 NLP 기술 덕분인데요. NLP는 컴퓨터와 인간 언어 사이에서 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나입니다. 90년대 이후에는 말뭉치 데이터를 활용하는 기계학습 기반 및 통계적 자연어 처리 기법이 주류를 이뤘습니다. 최근에는 딥러닝 기반의 자연어 처리 연구 개발이 전 세계적으로 진행되고 있습니다.



텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료인 말뭉치는 양이 많을수록 AI가 인식할 수 있는 자연어의 정확도가 높아지며, AI가 얼마나 많이 학습하느냐에 그 성능을 좌우하는데요. 일본의 경우 150억 어절, 중국은 300~800억 어절, 미국은 300억 어절을 구축했지만 우리나라는 주요 경쟁국보다 1%도 채 안 되는 실정이라고 합니다.



정부도 자연어 처리 등 AI의 핵심기술 개발을 위한 국어 자료 구축이 필요하다고 판단해 지난해 국립국어원 예산 중 말뭉치 구축을 위한 204억 원을 별도로 책정해 10억 어절을 말뭉치로 구축하는 사업을 진행한 바 있습니다. 최근 들어 AI 음성인식 기반 서비스들의 인식률과 성능이 좋아진 것은 우연이 아닌 셈이죠.




네이버 '클로바 램프' / 출처 : 네이버 클로바


NLP에 기반을 둔 AI 서비스는 향후 몇 년 동안 기하급수적으로 성장할 것으로 예상됩니다. 최근 주니퍼리서치는 보고서를 통해 디지털 음성 비서만의 사용 건수가 향후 4년 이내에 25억 건에서 80억 건으로 증가할 것으로 예측했습니다. 또 가트너는 지난해 발표를 통해 오는 2021년까지 모든 고객 서비스 상호작용의 15%가 AI로 완전히 처리될 것이라고 전망했죠.



이처럼 차세대 초연결, 초지능 사회를 만들어가는 OCR과 NLP 기술은 다가오는 새해 더욱 많은 활약을 앞두고 있습니다. 향후 또 어떤 놀라운 제품이 우리 앞에 등장하게 될지 벌써 기대되네요.



/정민석 인턴기자 dudu@sedaily.com

<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>