빅테크 'AI 주도권' 다툼에… 韓기업도 출사표?[양철민의 아알못] : 서울경제

네이버·카카오 등 'K-챗GPT' 서비스 준비
한국어 데이터 대량확보.. '국내용 서비스' 한계
삼성 등과 협업 통해 AI반도체 고도화 노리지만
엔비디아의 '쿠다' 플랫폼 넘기 쉽지 않아

김용범 네이버 서치US 치프 사이언티스트가 27일 서울 강남구 코엑스에서 열린 개발자 콘퍼런스 'DEVIEW(데뷰) 2023에서 서치GPT 기술을 소개하고 있다. 사진제공=네이버

“챗 GPT 같은 인공지능(AI) 서비스의 고도화를 위해 가장 필요한 것은 빅데이터입니다.”

이달 22일 서울 중앙 우체국에서 이종호 과학기술정보통신부 장관 주재로 열린 챗GPT 관련 좌담회에서는 데이터 확보 방안에 대한 논의가 집중적으로 이뤄졌다. AI 알고리즘 분야는 기술 고도화를 통해 글로벌 ‘빅테크 업체’와의 간격을 어느정도 좁힐 수 있지만, 학습용 데이터 확보는 개별 기업의 노력만으로 한계가 분명하다는 이유에서다.

실제 현재 글로벌 IT 시장의 판도를 바꾸고 있는 챗GPT의 경우 1750억개의 매개변수를 통한 학습으로 ‘인간보다 더 인간같은’ 답을 내놓고 있다. 챗GPT의 버전이 업그레이드 될 수록 학습용 매개변수 또한 추가로 늘어날 전망이다.

반면 한국어로 된 웹콘텐츠는 전세계 비중이 1% 내외에 불과해 학습용 데이터 분량이 절대적으로 부족하다. 이마저도 이른바 ‘낚시성’ 또는 광고성 게시물이 많아 개발자들은 이 같은 부정확한 한국어 콘텐츠를 일일이 제외하거나 수정하는 방식으로 가공해야 해 머신러닝이 더욱 어려울 수밖에 없다.

구글·마이크로소프트·메타(페이스북) 등 빅테크들이 주도하는 ‘AI 별들의 전쟁’에서 국내 AI 업체 생존을 위해서는 빅데이터 확보가 필수라는 분석이 제기되는 이유다. 여기에 머신러닝에 활용되는 반도체 기술을 빠르게 업그레이드해 답변 도출에 따른 시간단축 및 전력소모량 감축까지 이뤄낼 경우 글로벌 시장 진출이 가능할 것이라는 일부 낙관적인 전망도 나온다.

ICT 업계에 따르면 글로벌 빅테크들은 ‘챗GPT 열풍’에 따른 신규 AI 시장 주도권을 잡기 위해 잇따라 새로운 사업모델을 내놓고 있다. 대표적인 업체가 챗GPT 개발사 오픈AI에 지금까지 100억달러 이상을 투자한 마이크로소프트다. 마이크로소프트는 자사 검색엔진 ‘빙’과 웹브라우저 ‘엣지’에 챗GPT를 결합한 ‘뉴빙’ 서비스를 조만간 상용화 할 예정이다.

현재 사전 신청자를 대상으로 ‘미리보기’ 서비스만 제공중인 뉴빙은 인터넷 화면창을 분할해 왼쪽 창에는 일반적인 키워드 검색 결과를, 오른쪽 창에는 챗GPT 기반의 서술형 검색결과를 각각 제공한다. 마이크로소프트는 PC용 운영체제(OS)와 사무용 소프트웨어 시장에서 압도적 점유율을 자랑하는 만큼, 이 같은 챗GPT 결합 모델로 검색 시장 점유율또한 빠르게 높일 것으로 기대 중이다.

‘검색의 제왕’ 구글은 반격을 준비중이다. 구글은 이달 초 거대 언어모델인 ‘람다(LaMDA)’ 기반의 챗봇형 AI ‘바드(Bard)’를 공개하며 주도권을 놓지 않을 기세다. 람다가 학습용으로 활용한 매개변수는 챗GPT와 크게 차이 나지 않는 1370억개 수준으로 알려졌다.

업계에서는 구글이 기존의 높은 키워드 광고 매출 비중 때문에 상대적으로 수익성이 불명확했던 챗봇형 AI 시장 진출이 늦었던 것으로 보고 있다. 지난해 말 기준 구글의 현금성자산이 218억7900만 달러에 달하는 만큼, 공격적 투자로 검색 시장 주도권을 보다 공고히 할 수 있을 것이라는 전망도 제기된다.

소셜네트워크서비스(SNS) 분야의 최강자 메타는 최근 ‘라마(LLaMa)’라는 AI용 대규모언어모델(LLM)을 공개했다. 라마는 매개변수를 70억개, 130억, 33억개, 650억개로 나눠 운용토록 해 답변 도출 시 효율성을 높였다. 메타의 승부수는 라마를 일반 개발자들이 활용가능토록 오픈소스 형태로 공개했다는 점이다. 엔디비아가 자체 소프트웨어 플랫폼 ‘쿠다’로 인공지능용 칩 시장을 장악했듯 메타 또한 개발자들이 라마를 쉽게 활용토록 해 챗봇형 AI 시장 장악에 나서겠다는 복안으로 풀이된다.

이종호 과학기술정보통신부 장관이 22일 서울 중구 서울중앙우체국에서 챗GPT 관련 초거대AI 전문가들과 간담회하고 있다. 사진제공=과학기술정보통신부

이 같은 글로벌 챗봇AI 전쟁 속에서 ‘한국형(K)-AI’ 모델 개발을 위한 국내 ICT 기업의 행보도 빨라질 수밖에 없다. 국내 기업의 AI 챗봇 모델은 ‘한국시장 수성’에 우선 초점이 맞춰져 있다.

국내 대표 포털사이트 네이버가 우선 선봉에 섰다. 네이버는 초대규모 인공지능 ‘하이퍼클로바’를 업그레이드 한 ‘하이퍼클로바X’를 오는 7월께 공개해 국내 시장에서의 우위를 놓지 않겠다는 방침을 명확히 했다. 네이버측에 따르면 하이퍼클로바X는 챗GPT 대비 한국어를 6500배 이상 학습한 것이 특징이다. 네이버가 지식인, 카페, 블로그 등 자체 한국어 콘텐츠를 많이 보유한 만큼 학습 데이터도 외국산 AI 모델 대비 훨씬 많은 상황인 만큼 한국어 챗봇 분야에서 해외 빅테크를 압도할 가능성이 높다.

카카오의 AI 자회사 카카오브레인은 한국형 챗봇 AI인 ‘코챗 GPT’를 연내 공개한다는 계획이다. 기존 한국어 특화 언어모델인 ‘코지피트(KoGPT)’를 업그레이드 한 것으로 카카오측은 한국어에 최적화된 검색결과를 내놓겠다는 방침이다. 이외에도 SK텔레콤이 팬텀 AI, 사피온, 베스핀 글로벌, 몰로코 등과 ‘K-AI 얼라이언스’를 체결하는 등 이통사들은 ‘합종연횡’ 전략으로 챗봇형 AI 시대에 대응하겠다는 방침이다.

다만 이 같은 국내 기업의 챗봇 AI는 ‘국내용’이라는 한계가 명확한 편이다. 해외 빅테크 대비 머신러닝에 필요한 데이터 확보가 제한적이기 때문이다.

무엇보다 국내에서 생산된 한국어 데이터 자체가 충분하지 않다는 지적이 제기된다. 과기정통부는 AI용으로 활용 가능한 빅데이터 모델 ‘AI허브’를 운영중이지만 현재까지 취합된 데이터믐 한국어데이터 93종, 영상이미지 데이터 78종에 불과하다. AI가 법이나 의학 등 전문분야에서 활용가치가 높은 만큼 관련 빅데이터 공개에도 적극 나서야 한다는 지적이 나오지만 개인정보보호법 등 각종 제약 및 각 기관의 서로다른 이해관계로 실현 가능성은 미지수다.

다만 일각에서는 한국이 가진 반도체 제작역량과 AI용 알고리즘을 적절히 활용할 경우 세계 시장 진출이 가능할 것이라는 낙관적인 전망도 나온다. 곽용재 네이버클라우드 최고기술책임자(CTO)는 초대규모 AI 서비스에 필수인 ‘AI 반도체 솔루션’ 및 ‘하이퍼스케일 데이터센터(IDC)’와 관련해 “초대규모 AI가 향후 더욱 고도화될 것임을 고려할 때, 소프트웨어-하드웨어-운영환경에 대한 통합적 접근이 필요하다”며 “삼성전자와 함께 LLM의 연산, 학습, 추론에 필요한 기능을 모두 갖추면서도 기존 그래픽처리장치(GPU)의 10분의 1 크기의 모델 사이즈와 4배 이상의 전력 효율성을 갖춘 경량화 된 AI 반도체 솔루션을 만들고 있다”고 밝혔다. 실제 조만간 운영에 들어갈 네이버의 하이퍼스케일 IDC ‘각 세종’의 경우 AI 인프라를 효율적으로 제공하기 위해 안정적인 전원 용량을 확보하는 한편 냉방 기술을 갖췄다. 또 신규 AI 반도체 솔루션을 각 세종에 적용할 경우 한층 효율적이고 안정적인 운영이 가능할 것으로 보고 있다.

IT 업계 관계자는 “한국은 AI 반도체 분야에서 유망한 스타트업이 많고 메모리 반도체 1위·파운드리(반도체 위탁생산) 2위 국가인 만큼 AI모델과 반도체를 유기적으로 결합할 경우 상당한 시너지를 낼 수있다”며 “다만 현재 AI반도체 생태계가 엔비디아의 병렬 컴퓨팅 플랫폼이자 이용자개발환경(API) 모델 ‘쿠다’를 중심으로 형성돼 있는 만큼, 엔비디아를 배제하고서는 AI 반도체 분야에서 성과를 내기 힘들 수 있다는 지적도 나온다”고 밝혔다.

**‘Stay Hungry, Stay Foolish(By 스티브 잡스)'. '양철민의 아알못'은 IT 분야를 5년 넘게 출입했지만 IT를 잘 알지 못한다 생각하며 매일매일 공부중인 기자가 연재하는 IT 콘텐츠 입니다.