네이버가 자연어처리(NLP) 분야 학회인 ‘EMNLP 2021’에서 초대규모 인공지능(AI) ‘하이퍼클로바’의 핵심 연구 논문 등 총 7개 논문을 발표한다고 3일 밝혔다. EMNLP는 ACL과 함께 NLP 분야의 최고 AI 학회로 꼽힌다.
하이퍼클로바는 네이버가 지난 5월 국내 기업 최초로 공개한 초대규모 AI이다. 현존 가장 우수한 초거대AI로 평가받는 ‘GPT-3’보다 한국어 데이터를 6,500배 이상 학습하며 한국어 초대규모 언어모델에 특화되기도 했다.
네이버가 발표할 연구는 하이퍼클로바와 하이퍼클로바 학습에 사용된 데이터를 소개하고, 다양한 크기의 모델들이 갖는 성능을 검증하는 내용이다. 논문은 하이퍼클로바가 다양한 한국어 과제(task)에 대해 제한된 예제만으로도 뛰어난 학습(in-context learning) 성능을 보인다는 것을 증명했다. 이 연구에는 네이버의 클로바 및 AI랩 연구진뿐만 아니라, 소프트웨어 플랫폼 엔지니어, 검색 엔지니어 등 다양한 팀에 걸쳐 총 37명이 저자로 참여했다.
네이버는 이밖에 하이퍼클로바 관련, 초거대 언어모델을 활용해 데이터를 자동 생성 및 라벨링해 데이터를 효율적으로 증강·증류(distillation)시키는 기법에 대한 연구도 소개할 예정이다. 또 OCR 과제에서 문서 정보를 효율적으로 추출할 수 있는 방식을 제안하는 논문, AI 언어모델이 바이오메디컬 분야의 지식 베이스로서 활용될 가능성을 탐구하는 논문 등을 발표할 예정이다. 네이버는 KAIST, 고려대, 서울대 등 다양한 국내외 대학들과 적극적으로 협력한 결과라고 덧붙였다.
하정우 네이버 AI랩 소장은 “지난해 하반기부터 초대규모 AI 기술에 집중적으로 투자하고 연구 역량을 결집시킨 결과 국내 최초로 하이퍼클로바 기술을 공개하고 성공적으로 상용화한 데 이어 세계 최고 권위의 학회에서 그 기술력을 인정받는 쾌거를 거뒀다”면서 “이번 논문은 영어 중심이었던 기존의 언어모델 연구를 넘어, 한국어 AI의 가치를 글로벌 자연어처리 학계가 인정했다는 점에서도 매우 의미 있는 성과”라고 강조했다.