‘실생활처럼 소리·장면·글 동시 이해’…팀 네이버, 자체 개발 옴니모달 AI 공개 : 서울경제

국가대표AI 발표 D-1…네이버클라우드 2개 모델 준비
이미지·소리 맥락도 이해 ‘옴니모달’ 전면 적용
현장 작업 등 현실 학습 용이…“미래 AI 출발점”
멀티모달 모델도 발표…수능 결과 대부분 ‘1등급’

김유원 네이버클라우드 대표가 지난달 6일 서울 강남구 코엑스에서 열린 팀네이버 콘퍼런스 ‘단25’에서 옴니모달을 적용한 독자 AI 파인데이션 모델에 대한 계획을 설명하고 있다. 네이버

정부가 추진하는 국가대표 인공지능(AI) 1차 발표일을 하루 앞두고 팀 네이버가 텍스트는 물론 음성과 장면을 동시에 이해하는 자체 AI 모델을 발표했다. 단순 텍스트 뿐 아니라 실생활 맥락을 이해하는 미래 AI의 핵심 기술로 꼽히는 이른바 ‘옴니모달’을 적용한 모델이다.

팀네이버는 이와 함께 기존 추론형 AI모델을 옴니 모달로 활용할 수 있도록 개발한 별도의 AI모델도 함께 공개했다. 이 모델은 수능시험 대다수 과목에서 1등급을 받는 정도의 성능을 가진 것으로 확인됐다.

네이버클라우드는 과학기술정보통신부 ‘독자 AI 파운데이션 모델’ 프로젝트의 주관 사업자로서 추진 중인 ‘옴니(Omni) 파운데이션 모델’ 개발 과제의 첫 번째 성과로 29일 2개 모델을 외부 공개했다고 이날 밝혔다. 공개한 모델은 네이티브 옴니모델인 ‘하이퍼클로바X 시드 8B 옴니(HyperCLOVA X SEED 8B Omni)’와 고성능 추론모델인 ‘하이퍼클로바X 시드 씽크(HyperCLOVA X SEED 32B Think)’다.

우선 8B 옴니 모델의 경우 텍스트·이미지·오디오 등 서로 다른 형태의 데이터를 단일 모델에서 처음부터 함께 학습하는 네이티브 옴니모달 구조를 전면 적용한 모델이다. 모달은 ‘모달리티(modality)’의 약자로 AI가 처리하는 다양한 정보의 형태를 말한다. 기존의 멀티 모달의 경우 텍스트만 이해하는 AI가 이미지나 음성을 나중에 접하고 이를 단어와 연결해가면서 세상을 이해하는 방식이라면, 옴니모달은 처음부터 글과 이미지, 음성, 소리를 한꺼번에 학습해 주어진 정보를 통합적으로 이해해 추론한다. 정보의 형태가 달라지더라도 옴니모달을 적용한 AI 모델은 하나의 의미 공간에서 상황과 맥락, 환경을 통합적으로 이해할 수 있기 때문에 말과 글, 시각·음성 정보가 복합적으로 오고 가는 실제 현실 환경에서 활용도가 높은 차세대 AI 기술로 주목받고 있다.

이에 8B 모델은 텍스트 지시를 기반으로 이미지를 생성·편집하는 옴니모달 생성 기능도 갖췄다. 이를 테면 한 사람이 야외에서 사진을 찍고 있는 이미지를 보여준 뒤 “이 카메라를 든 사람이 찍었을 것 같은 풍경을 사진으로 그려줘”라고 요구하면 적합한 풍경 사진을 만들어주는 식이다. 회사 관계자는 “이는 글로벌 프런티어 AI 모델들이 제공해온 기능”이라며 “네이버클라우드는 이번 모델을 통해 해당 수준의 멀티모달 생성 역량을 확보했음을 보여준 것”이라고 의미를 부여했다.

네이버클라우드가 자체 개발한 네이티브 AI 옴니모델인 ‘하이퍼클로바X 시드 8B 옴니’를 이용해 생성한 이미지(오른쪽). 왼쪽 이미지를 보여준 후 텍스트로 명령하면 두 입력 값을 통합적으로 이해해 결과물을 적합한 이미지 형태로 제시한다. 네이버클라우드

네이버클라우드는 8B옴니 모델의 성능을 평가하기 위해 △오디오 입력-오디오 출력 △텍스트 입력-이미지 출력 등 13가지 테스트 기준을 적용해 4개의 글로벌 멀티모달 AI모델과 비교했다. 이에 따르면 네이버클라우드의 8B옴니는 13개 기준 항목 중 11개에서 가장 높은 성능을 보였다. 성낙호 네이버클라우드 하이퍼스케일 AI 기술총괄은 “모델을 대규모로 키워도 데이터 다양성이 한정되어 있다면 AI의 문제 해결 능력도 특정 영역 또는 특정 과목에만 집중되어 나타날 수밖에 없다”며 “이에 디지털화되지 않은 생활 맥락 데이터나 지역의 지리적 특성이 반영된 공간 데이터 등 차별화된 현실 세계 데이터를 확보하고 정제하는 과정이 선행돼야 한다”고 옴니모델의 개발 의미를 설명했다.

네이버클라우드는 이번 모델 공개를 통해 네이티브 옴니모달 AI 개발 방법론을 검증했다고 보고 앞으로 본격적인 학습을 통해 단계적인 스케일업에 나설 계획이다. 이와 관련 네이버클라우드는 옴니8B 모델을 활용한 상담 에이전트나 한국어 사투리의 외국어 변환 에이전트 등을 실생활 활용사례로 선보이기도 했다. 네이버클라우드는 “텍스트·이미지·음성 모델을 결합하는 방식의 기존 멀티 모달 접근과 달리 단일 모델 구조의 옴니모달 AI는 규모 확장이 상대적으로 용이하다는 점도 특징”이라며 “산업과 일상 밀착 서비스에 필요한 다양한 크기의 특화 옴니모달 모델을 효율적으로 확장하는 전략을 추진할 것”이라고 말했다.

네이버클라우드가 자체 개발한 ‘하이퍼클로바X 시드 8B 옴니’ 모델과 4개의 글로벌 멀티모달 LLM의 성능을 비교실험한 결과. 13개 벤치마크 항목 가운데 11개 항목에서 하이퍼클로바X 시드 8B 옴니(짙은 분홍색)가 가장 높은 성능을 나타냈다. 네이버클라우드

네이버클라우드가 옴니 8B 모델과 함께 공개한 32B 씽크의 경우 기존 추론형 AI인 ‘하이퍼클로바X 시드 씽크’ 모델에 시각 이해와 음성 대화, 도구 활용 능력을 결합한 모델이다. 텍스트와 이미지를 이해하고 추론하는 비전언어모델(VLM)의 능력을 유지하면서 음성 대화를 추가한 모델로 멀티모달을 바탕으로 옴니모달 에이전트 경험을 구현한 것이 특징이다.

네티버클라우드가 공개한 성능 평가결과에 따르면 32B 씽크 모델로 올해 대학수학능력시험 문제를 풀이한 결과 국어·수학·영어·한국사 등 주요 과목에서 모두 1등급에 해당하는 점수를 받았다. 영어와 한국사에서는 만점을 기록했다. 회사 측은 “다수의 AI 모델이 문제를 텍스트로 변환해 입력해야 하는 방식과 달리, 해당 모델은 이미지 입력을 직접 이해해 문제를 해결했다는 점에서 차별화된다”고 말했다.

성 총괄은 “텍스트·시각·음성 등 AI의 감각을 수평적으로 확장하는 동시에 사고와 추론 능력을 함께 강화했을 때 현실 문제 해결력이 크게 높아진다는 점을 확인했다”며 “이러한 기본기를 갖춘 구조 위에서 점진적으로 규모를 확장해야 단순히 크기만 큰 모델이 아닌, 실제로 쓰임새 있는 AI로 발전할 수 있다고 보고 이를 토대로 스케일업을 이어갈 계획”이라고 말했다.

한편 과학기술정보통신부와 정보통신산업진흥원(NIPA)은 30일 서울 강남구 코엑스 오디토리움에서 독자 AI 파운데이션 모델 프로젝트 1차 대국민 발표회를 연다. 지난 8월 선정된 5개 정예팀(네이버클라우드·업스테이지·SK텔레콤·NC AI·LG AI연구원)이 행사에서 개발 성과를 발표된다.

네이버클라우드가 공개한 두 독자 AI모델의 특징. 네이버클라우드