국내 인공지능(AI) 기업 코난테크놀로지(402030)가 자체 개발한 거대언어모델(LLM)을 공개했다. 방대한 한국어 학습 데이터를 바탕으로 개발한 LLM이라는 점을 앞세워 국내 기업간거래(B2B) 시장을 중점 공략한다는 계획이다. 코난테크놀로지를 비롯한 스타트업과 대형 게임사에 이어 네이버와 카카오가 기능을 향상시킨 LLM을 잇따라 선보일 예정이어서 생성형 AI 기술 개발을 주도하고 있는 글로벌 빅테크에 맞서 국내 테크 기업들의 반격이 본격화하고 있다.
코난테크놀로지(코난테크)는 17일 서울 영등포구 콘래드 서울 호텔에서 기자간담회를 갖고 자체 기술로 개발한 LLM ‘코난 LLM’을 공개했다. 코난테크는 매개변수(파라미터) 크기별로 여러 가지 모델을 구성할 예정인데, 이날 발표된 모델은 131억 개 매개 변수를 가진 모델이다. 11월에는 이보다 매개변수가 많은 410억 개 모델이 나올 예정이다.
1999년 설립된 코난테크는 지금까지 2500개 이상 기업들과 AI 프로젝트를 수행했다. 지난해 말 챗GPT 공개로 생성형 AI 열풍이 불자 올해 초 엔비디아의 그래픽처리장치(GPU) H100 12대를 발주해 LLM 개발·고도화에 박차를 가했다.
수많은 기업들이 생성형 AI 시장에 뛰어드는 상황에서 코난테크가 집중하는 부분은 B2B 시장이다. 생성형 AI를 활용하기에 앞서 기업들의 고민거리인 보안성과 비용 측면에서 강점을 지녔다는 점을 강조한다. 통상 AI 기업들은 높은 매개변수를 강점으로 내세우지만 코난테크는 크기와 비용 간의 균형을 강조했다. 임완택 코난테크 전략기획본부장은 “매개변수 크기가 크다는 건 모델을 사용하는 업체로서도 추론 서버가 많이 필요하다는 것이어서 비용 부담이 크다는 뜻”이라며 “파라미터 크기를 제외하면 학습에 사용된 데이터 수가 많으면 뛰어난 LLM이 나온다”고 말했다.
코난테크는 올 11월 나올 매개변수 410억 개 버전 모델을 학습하는데 한국어 데이터 3200억 개 등 전체 7000억 개 토큰을 사용했다. 한국어 데이터만 보면 카카오의 ‘코GPT2.0’(2000억 개) 보다 1.5배 이상 많은 수치다.
코난테크는 모델을 기업이 자체 서버를 통해 데이터센터를 운영하는 온프레미스 방식으로 제공해 데이터 유출에 대한 우려도 없앴다. 기업 기밀 데이터가 AI 기업의 모델 학습에 활용될 여지가 있는 클라우드 기반 애플리케이션 개발 인터페이스(API) 제공 방식과 비교하면 보안성이 높다. 임 본부장은 “컨설팅 과정에서 많은 기업들이 온프레미스 방식을 지원하는지를 문의하는 것을 보면 보안에 대한 우려가 크다는 것을 알 수 있다”면서 “B2B와 B2G(기업정부간거래) 시장에서는 클라우드 방식에 비해 온프레미스 방식에 대한 선호도가 높다”고 설명했다.
오픈AI를 시작으로 구글·메타 등 글로벌 빅테크들의 LLM이 생성형 AI 시장을 주도했다면 최근 들어 국내 기업들이 자체 LLM 모델을 잇따라 공개하면서 ‘토종 AI의 반격이 시작됐다’는 평가가 나온다. 국내 주요 게임사 중 하나인 엔씨소프트가 16일 자체 LLM 모델 ‘바르코’를 공개해 앞으로 게임 개발에 필요한 기획·아트 등 분야에서 활용한다는 방침이다. 이외에도 AI 스타트업 업스테이지가 메타의 오픈소스 LLM ‘라마2’를 기반으로 개발한 매개변수 700억 개 자체 모델이 이날 기준으로 상위 2위(오픈소스 기준) 성능을 보여주고 있는 등 높은 기술력을 인정받고 있다. 쏘카와 삼성SDS 등도 현재 자체 모델 개발에 총력을 기울이고 있다. 네이버는 오는 24일 기능을 한층 고도화한 LLM ‘하이퍼클로바X’를 공개할 예정이다.
업계의 한 관계자는 “LLM이 아직 굳건한 비즈니스 모델이 확립되지 않은 상황이라 많은 국내 기업들의 도전이 이어지고 있는 형국”이라며 “국내 시장은 여전히 한국어 능력을 바탕으로 국내 기업들이 선전할 수 있는 가능성이 충분해 몇달 늦더라도 빅테크와 확실히 차별화한다면 판도를 바꿀 수 있을 것”이라고 말했다.