네이버가 초거대언어모델(LLM) ‘하이퍼클로바X’를 선보인 후 생성형 인공지능(AI) 학습에 사용된 데이터 사용료 문제로 관련 이슈가 확산되고 있다. 생성형AI의 세 가지 필수 요소로는 하드웨어 인프라, AI 연산용 소프트웨어, 학습을 위한 빅데이터가 꼽히며 이 가운데 양질의 빅데이터 확보가 시장 판도를 결정 지을 핵심 변수가 되고 있기 때문이다.
국내 AI 업체들은 메타·구글·마이크로소프트 등 글로벌 빅테크와의 AI 경쟁이 치열해지고 있는 데다 천문학적인 LLM 운용 비용을 감안하면 데이터 사용료 문제보다는 관련 생태계 확산에 우선 힘을 기울여야 한다는 입장이다. 반면 언론사를 비롯한 콘텐츠 기업은 생성형 AI의 수익 창출 행보가 본격화되고 있는 만큼 적절한 사용료를 지불해야 한다고 맞선다. 정치권과 정부는 AI 학습용 데이터 접근 기준 및 이용 범위에 대한 규율 마련에 나서고 있어 향후 콘텐츠 사용료 기준에 관한 법제화 논의도 본격화될 것으로 전망된다.
1일 정보기술(IT) 업계와 국회에 따르면 최근 신기술 학습을 위한 데이터 저작권 관련 법안이 잇따라 발의되며 콘텐츠 저작권에 힘이 실리고 있다. 황보승희 무소속 의원은 최근 생성형 AI 기술이 저작물에 적법하게 접근할 때만 저작물을 활용해 정보를 분석할 수 있도록 하는 내용의 ‘저작권법 일부 개정안’을 대표 발의했다. 황보 의원은 법안 발의 배경과 관련해 “AI 기술의 저작물 활용 시 허용되는 범위와 저작권 침해의 경계를 명확히 할 필요가 있다”고 밝혔다. 이용호 국민의힘 의원 또한 “AI·빅데이터 분석 과정에서 저작권 침해 경계를 명확히 하고 저작권자의 권익을 보호할 필요가 있다”며 저작권법 일부 개정안을 발의했다.
다음 달 열리는 국정감사에서 AI 데이터 사용료 문제가 주요 이슈가 될 것이라는 분석도 나온다. 문화체육관광위원회 소속의 한 의원실 관계자는 “(AI 데이터 사용 권한과 관련해) 아직 구체적인 질의 내용을 정하지는 않았지만 10월 국감을 대비해 준비할 것”이라고 밝혔다.
정부도 생성형 AI 학습 데이터 저작권 이슈를 살펴보고 있다. 과학기술정보통신부는 생성형 AI의 ‘크롤링’ 등 각종 기술 부작용에 대한 보완 방안을 검토하고 있다. 문화체육관광부는 올 2월 ‘AI 저작권법 제도 개선 워킹그룹’을 발족해 AI 학습을 위한 저작물을 이용할 때 허용 가능한 범위를 논의하고 있으며 공정거래위원회는 이용자 콘텐츠를 네이버 AI 학습에 활용할 수 있도록 한 약관의 불공정 여부를 검토하고 있다.
업계 전문가들은 AI 저작권 법적 분쟁이 해외에 이어 국내에서도 본격화할 수 있는 만큼 관련 법을 정비하거나 가이드라인을 마련해야 한다고 조언했다. 이미 해외에서는 CNN방송 등이 챗GPT의 무단 기사 수집을 막기 위해 GPT봇을 차단했으며 뉴욕타임스 등은 오픈AI를 상대로 소송을 준비 중인 것으로 알려졌다. 국내에서는 한국온라인신문협회가 뉴스 저작권 침해 등에 관한 성명서를 발표한 데 이어 한국신문협회는 국내외 대형 IT 기업들에 뉴스 저작권 침해 방지를 위한 요구 사항을 전달하기도 했다. 법조계에서도 AI 데이터 이용과 관련해 가이드라인이 필요하다는 입장이다. 조정욱 법무법인 강호 대표변호사는 “저작권 보호를 위해 구체적으로 어떤 조치를 취했는지 등이 쟁점이 될 수 있기 때문에 (이를 판단할) 기준이 마련돼야 한다”고 말했다.
반면 생성형 AI를 서비스 중인 업체들은 콘텐츠 사용료와 관련해 말을 아끼면서도 부담을 느끼는 모습이다. 최수연 네이버 대표는 지난달 하이퍼클로바X를 공개한 자리에서 “지금까지 저희가 학습한 데이터들은 기존의 규제라든지 저희 약관에 근거를 두고 학습을 했기 때문에 별도 사용료에 대해 논의하고 있는 단계는 아니다”라고 밝힌 바 있다.
한 IT 업계 관계자는 “챗GPT 개발사 오픈AI가 지난해 5억 4000만 달러의 손실을 기록했을 정도로 생성형 AI는 현재 ‘돈 먹는 하마’ 역할을 하고 있다”며 “생성형 AI 시장이 초기인 점을 감안해 향후 몇 년간 수익 배분을 유예하고 이후 수익 창출이 본격화될 때 콘텐츠료를 지급하는 것도 방안”이라고 밝혔다.