중국에서 텍스트로 비디오를 제작할 수 있는 인공지능(AI) 시스템이 처음으로 공개됐다. 혁신적인 성과라는 자체적인 평가와 함께 유사한 형태인 미국의 오픈AI의 ‘소라(Sora)’의 기술력엔 한참 못 미치는 수준이라는 평가로 엇갈렸다.
중국 성수테크놀로지가 29일 베이징에서 열린 ‘2024 중관춘 포럼’에서 자체 개발한 텍스트 투 비디오 인공지능(AI) 시스템 ‘비두(Vidu)’를 발표했다고 홍콩 사우스차이나모닝포스트(SCMP)가 보도했다.
비두는 중국의 신생기업인 성수테크놀로지와 칭화대학교가 공동으로 출시한 시스템으로 간단한 텍스트 프롬포트(명령어) 만으로 1080p 해상도의 동영상을 제작할 수 있다. 성수테크놀로지의 수석 과학자인 주쥔 칭화대 AI연구소 부학장은 “비두는 많은 분야에서 돌파구를 마련한 자립적 혁신의 최신 성과”라고 자평했다.
이날 성수테크놀로지는 잔디밭에 앉아 기타를 연주하는 판다와 수영하는 강아지를 포함해 비두로 제작한 여러 데모 클립을 공개했다. 비두는 상상력이 풍부하고 실제 세계를 표현할 수 있고, 일관된 캐릭터 장면 및 타임라인이 있는 16초 짜리 비디오를 제작할 수 있다는 게 성수테크놀로지 측 설명이다. 다만, 비두는 16초 이하의 동영상만 생성할 수 있다는 점에서 60초 짜리 동영상 제작 서비스를 제공하는 소라의 수준에는 미치지 못한다는 게 전문가들의 평가다.
AI 전문가들은 중국 AI 기업의 발전을 저해하는 요인 중 하나로 컴퓨팅 파워의 부족을 꼽는다. 리양웨이 기술 컨설턴트는 “소라가 1분 짜리 클립을 제작하는데 8개의 엔비디아 A100 그래픽처리장치(GPU)가 필요하다”면서 “추론을 위해 많은 컴퓨팅 파워를 필요로 한다”고 설명했다. 미국은 엔비디아가 개발한 A100 및 H100 GPU를 포함한 AI 칩에 대한 대중국 수출을 금지하고 있다. SCMP에 따르면 AI 개발을 진행 중인 중국 기업들이 엔비디아의 AI 칩의 대체재를 찾지 못하면서 중국 내에서 관련 밀수시장이 빠르게 커지고 있다고 전하기도 했다.
한편 베이징에 본사를 둔 성수테크놀로지는 지난해 3월에 설립됐으며, 핵심 인력 대부분이 칭화대 AI연구소와 알리바바그룹홀딩스, 텐센트홀딩스, 바이트댄스 직원들로 구성돼 있다. 중국의 스타트업 데이터베이스 제공업체인 IT쥐즈에 따르면 성수테크놀로지는 지난달 치밍벤처스, 지푸AI, 바이두 벤처스 등의 투자자로부터 수억 위안을 조달하는데 성공했다.