산업 IT

"그래도 네이버뿐?".. 빅테크의 AI 공습 막아내나[양철민의 아알못]

네이버, 한국어에 최적화된 AI 7월 공개

컴퓨터용 '토큰화' 과정 등에서 비교우위

하루하루 바뀌는 글로벌 AI 판도는 변수





네이버나 카카오가 연내 내놓을 ‘생성형 인공지능(AI)’ 모델은 글로벌 시장에서 통할 수 있을까. 업계 이야기를 종합하면 마이크로소프트, 구글, 메타 등이 각축전을 벌이고 있는 가운데 글로벌 시장에서 국내 기업이 의미있는 성과를 내기는 거의 불가능하다는 분석이 지배적이다.



반면 네이버 등 국내기업은 빅테크들의 공세에도 불구하고 한국시장 수성만큼은 자신하고 있다. 한국어에 최적화된 알고리즘으로 초거대언어모델(LMM) 기반의 국내 AI 시장에서 성과를 낸 후, 향후 일본 등 비영어권 국가 대상의 해외진출에도 속도를 낼 것으로 전망된다.

하정우 네이버 AI랩장은 최근 자신의 소셜네트워크서비스(SNS) 계정울 통해 “한국어 중심의 초거대AI는 기본적으로 한국어에 더 최적화된 토큰(token)을 배정하게 된다”며 “이것이 바로 한국어 중심의 한국형 초거대 AI가 필요한 중요 이유”라고 밝혔다.

하 소장이 언급한 ‘토큰’은 인공지능 학습용으로 모아 둔 ‘말뭉치(corpus)’를, 의미를 가진 작은단위로 분리해 놓은 일종의 컴퓨터용 언어다. 이후 토큰을 ‘벡터화’ 해주면 컴퓨터는 인간의 자연어를 읽을 수 있게 된다. 컴퓨터가 사실상 0과 1만 이해할 수 있다는 점에서, 토큰화 및 벡터화는 사람들이 쓰는 언어를 0과 1이라는 숫자로 바꿔주는 과정이라고 봐도 무방하다.

이 때문에 한 문장을 만들어내는데 사용되는 토큰이 많아질수록, 연산을 통해 적절한 문장을 생성하는 ‘생성형 AI’의 연산시간도 길어질 수밖에 없다.



현재 오픈AI의 챗GPT와 같은 생성형 AI는 영어권 국가에서 만들어지고 있는 만큼, 영어에 최적화된 토큰화 과정을 거친다. 반면 영어 이외의 언어는 문장 생성시 ‘알수없는토큰(Unknown token)’ 발생을 최소화하기 위해 토큰을 최소단위까지 쪼갠다.

관련기사



예를 들어 ‘놀이터에 놀러가고 싶어.’라는 문장을 오픈AI의 챗GPT는 13개의 ‘글자(characters)’와 30개의 ‘토큰’으로 분류한다. ‘놀’이라는 글자하나를 자음과 모음을 각각 구별한 뒤 ‘ㄴ’, ‘ㅗ’, ‘ㄹ’이라는 3개의 토큰을 할당하는 구조이기 때문에 저 짧은 문장은 전체 토큰 수가 30개에 달한다.

반면 챗GPT는 ‘놀이터에 놀러가고 싶어’와 같은 뜻의 ‘I want to go to the playground.’라는 영어문장을 31개의 글자와 8개의 토큰으로 분류한다. 같은 뜻의 문장이지만 토큰화 과정에서 영어 문장이 한국어 대비 4분의 1 수준의 토큰이 사용되는 셈이다.

국내 기업은 이같은 부분에서 영어권 생성형 AI 대비 한국형 생성형 AI의 경쟁우위가 있다고 자신한다. 네이버 등 국내 기업은 한국어 문장을 띄어쓰기, 음절, 형태소 등을 기준으로 토큰화 할 것으로 전망된다. 이에 따라 ‘놀이터에 놀러가고 싶어.’라는 문장 생성에 필요한 토큰 개수도 3~10개 정도만 사용돼, 한국어 이용시 영어 기반의 생성형 AI 대비 전력소모 등이 크게 줄어들 전망이다. 하 소장은 “(빅테크의 생성형 AI 이용시) 유효 문맥창(context window)의 크기에서만 10배이상 손해를 보게 되며, 디코딩 속도 또한 10배 이상 손해볼 수밖에 없는 구조”라고 밝혔다. 네이버는 초대규모 인공지능 ‘하이퍼클로바’를 업그레이드 한 ‘하이퍼클로바X’를 오는 7월 공개해 ‘한국 AI 시장의 최강자는 네이버’라는 점을 다시한번 대내외에 선포할 예정이다. 네이버측에 따르면 하이퍼클로바X는 챗GPT 대비 한국어를 6500배 이상 학습했다.

다만 국내 기업이 빅테크들의 AI 진화속도를 따라잡기 쉽지 않을 것이라는 분석도 나온다. 오픈 AI가 이달 공개한 GPT-4.0의 영어답변 정확도는 85.5%에 달한다. 이전 버전인 GPT-3.5의 70.1% 대비 무려 15.4%포인트 개선됐다. 무엇보다 GPT-4.0의 한국어 답변 정확도는 77.0%로 GPT-3.5의 영어답변 정확도를 넘어섰다. 이 같은 속도라면 수년내에 한국어 답변 정확도가 90%를 넘어설 전망이다.

해외 빅테크들이 컴퓨팅 기술 및 장비를 업그레이드 할 경우 생성형AI는 ‘낮은 경제성’ 문제도 어느정도 해결될 수 있다는 점도 국내 업체에게는 좋지 않은 소식이다. 실제 구글 등 빅테크들은 그래픽 처리에 최적화된 엔비디아의 그래픽처리장치(GPU)가 아닌 행렬 등 병렬연산에 최적화된 신경망반도체(NPU)를 자체 설계해 탑재할 예정이다. 이외에도 이들은 AI 관련 소프트웨어 및 하드웨어를 업그레이드하는 방안을 연구 중이다.

현재 인공지능 관련 소프트웨어 생태계를 엔비디아가 서비스 중인 ‘쿠다(CUDA)’가 장악해 ‘탈(脫)엔비디아’가 당분간은 쉽지 않겠지만 수년내에 엔비디아의 독점구조가 깨질 수 있다는 분석도 나온다. 미국에 본사를 둔 소프트웨어 플랫폼 업체 ‘허깅페이스’ 등 해외 업체는 AI 프로그램 개발로 관련 생태계를 엔비디아와 분점하려 하고 있다. PC 등 IT기기 운영체제(OS) 시장에서 마이크로소프트의 ‘윈도’와 무료 오픈소스인 ‘리눅스’ 간의 대결이 AI 소프트웨어 시장에서도 벌어질 수 있는 셈이다. 다만 이 같은 ‘탈엔비디아’ 구도가 한국기업에 기회가 될 지 여부는 미지수다.

IT 업계 관계자는 “최근 열흘간 AI 시장에서 벌어진 기술발표 등 각종 이벤트는 10년 사이에 벌어졌다 해도 믿을 정도로 속도가 빠르다”며 “다만 한국은 구글과 와츠앱과 같은 빅테크의 공세 속에서도 자국 포털(네이버) 및 모바일 메신저(카카오톡)가 1위를 차지하고 있는 IT 강국인만큼 빅테크의 AI 시장 공략을 오히려 기회로 만들 수 있을 것”이라고 밝혔다.


양철민 기자
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기