오픈AI의 영상 생성 인공지능(AI) 모델 소라가 공개된 지 약 2달이 지났다. 기존 동영상 생성 AI 모델을 뛰어넘는 성능을 보였다. 소라는 기본적으로 디퓨전 트랜스포머 아키텍쳐를 활용한 것으로 알려졌다. 디퓨전은 이미 이미지 생성 AI 모델에서 활용하는 방식으로 학습 이미지 데이터에 노이즈를 가하며 학습하고, 완전한 노이즈에서 노이즈를 없애며 학습된 상관 관계를 활용해 이미지를 생성하는 방식이다.
스케일업을 통한 임계점 돌파 전략이 소라에서도 발현됐다. 스케일업은 엄청난 컴퓨팅 파워를 기반으로 막대한 데이터를 학습시키는 과정이다. 소라는 시공간 데이터를 GPT의 토큰과 유사한 작은 단위의 데이터 모음인 패치로 변환시킨다. 그렇기 때문에 학습에서 기존 영상 생성 AI 모델과 다르게 다양한 길이, 해상도, 비율을 가진 데이터를 활용할 수 있었다.
소라에 대한 기대감은 높은 성능에만 기초하는 것은 아니다. 단순히 프롬프트를 이해하는 것에서 그치는 것이 아니라 물리적 세계에서 여러 대상이 어떻게 존재하는 지를 이해하는 시뮬레이션 모델이라는 점이 중요하다. 소라의 등장은 짧게는 멀티 모달 발전을 가속화할 수 있지만, 범용인공지능(AGI) 달성에 중요한 이정표가 될 수 있다.
현재 소라는 소수의 선별된 집단에게 우선적으로 제공하며 피드백을 받고 있는 상황이다. 구동 비용과 리스크를 고려하면 시간이 걸릴 것이라는 전망이 우세했으나, 미라 무라티 CTO는 올해 내 빠르면 몇 개월 내 대중에게 서비스를 공개할 수 있을 것으로 전망했다. 당장 이미지 생성 대비 큰 비용이 들어가는 것은 사실이지만 향후 DALL-E(달리)와 비슷한 수준으로 비용을 낮출 계획이다. 이미 챗GPT에서 증명된 최적화 능력이 소라에도 적용될 것으로 보인다.
또한 11월 미국 대선을 앞두고 딥페이크와 같은 오남용 리스크에 대해서도 공인 이미지 생성 금지, 워터마크 표시 등 기술적 해결책을 통해 정면 돌파를 예고한 상황이다. 어떻게 보면 강력한 킬러앱이 될 수 있는 영상 생성 AI 분야의 발전 속도는 예상보다 빠르게 진행되고 있다.