구글은 15일(현지 시간) 자체 개발한 멀티모달 인공지능(AI) 모델 ‘제미나이 1.5 프로’를 공개했다.
제미나이는 학습 규모에 따라 울트라·프로·나노로 나뉘는데, 이날 공개한 제미나이 1.5 프로는 구글의 최신 AI 모델인 ‘제미나이 1.0 울트라’와 비슷한 수준으로 텍스트·이미지·음성·영상을 생성하는 중형 멀티모달 모델이다.
구글은 제미나이 1.5 프로가 기존 1.0 프로보다 동시에 정보를 처리할 수 있는 능력이 크게 향상돼 긴 문맥을 이해하는 역량이 뛰어나다고 설명했다.
실제로 제미나이 1.5 프로는 최대 100만 개의 토큰 처리 능력을 갖췄다. 이는 기존 1.0 프로가 수행하는 3만 2000개의 토큰 처리 규모를 크게 뛰어넘는 것이다. AI 모델이 한 번에 처리할 수 있는 정보의 양을 ‘컨텍스트 윈도’라고 하는데, 이는 단어·이미지·영상 등의 의미를 가진 ‘토큰’이라는 단위로 구성된다.
제미나이 1.5 프로는 1시간 분량의 동영상과 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트에 해당하는 방대한 정보를 한 번에 처리할 수 있다.
예컨대 400페이지가 넘는 분량의 아폴로 11호 달 탐사 임무 관련 문서가 주어지면 문서 전체 내용과 이미지, 세부 정보를 추론한다. 또한 미국 배우 버스터 키튼의 무성영화를 보여줬을 때 영화 구성과 사건 등을 분석하고 놓치기 쉬운 세부 내용까지도 파악해 알려준다.
제미나이 1.5 프로는 문맥 기반 학습 능력도 갖췄다. 예를 들어 소멸 위기 언어인 칼라망어의 문법서를 학습하게 했을 때 사람이 했을 때와 비슷한 수준의 영어로 번역할 수 있다.
제미나이 1.5 프로는 개발자를 위한 AI 개발 도구인 ‘구글 AI스튜디오’와 기업들이 AI 모델을 활용할 수 있는 플랫폼 ‘버텍스 AI’를 통해 프리뷰 버전으로 제공된다.
향후 구글은 정식 버전에서는 기본 12만 8000개 토큰의 컨텍스트 윈도우를 갖춘 제미나이 1.5 프로를 제공할 예정이다. 또한 가까운 시일 내 컨텍스트 윈도우 확장에 따른 다양한 구매 옵션도 공개한다는 방침이다.