캘리포니아에 본사를 둔 한 로펌이 챗GPT를 만든 인공지능 업체 AI를 상대로 집단 소송을 제기했다. 오픈AI가인터넷에서 스크랩한 데이터를 사용해 AI를 훈련하는 과정에서 수많은 이들의 저작권과 프라이버시를 대규모로 침해했다는 이유에서다.
이 소송은 오픈AI가 수백만 인터넷 사용자의 소셜미디어 댓글과 블로그 게시물, 위키피디아 기사 등을 이용함으로써 수백만 명의 권리를 침해했다는 새로운 법적 이론을 근거로 한다. 소송을 제기한 로펌인 클락슨(Clarkson)은 데이터 유출이나 허위 광고 등 다양한 분야에서 집단소송을 낸 곳이다. 클락슨의 대표 파트너인 라이언 클락슨은 "(인공지능)이라는 강력한 기술을 개발하기 위해 자신의 정보가 도난당하고 상업적으로 악용되는 상황에 처한 실존하는 이들을 대변하고자 한다"고 말했다.
이 소송은 28일(현지시간) 캘리포니아 북부 지역의 연방법원에 제기됐다. 오픈AI 측은 워싱턴포스트의 논평 요청에 즉시 응하지 않았다.
이번 소송은 생성형 AI의 급증 과정에서 아직 해결되지 않은 핵심 문제를 다룬다. 생성형 AI기술은 인터넷에서 수십억 개의 단어를 수집하고 그 단어들 사이에서 추론을 하는 방법을 학습하는 방식으로 작동한다. 충분한 데이터를 이용한 뒤 만들어진 대규모 언어 모델은 질문에 대한 응답으로 시를 쓰거나 복잡한 대화를 나누고, 전문 시험에 합격할 수 있는 능력을 갖추게 된다. 다만 수십억 줄의 글을 써 토양을 제공한 인간은 오픈AI와 같은 업체들이 이런 글을 이용하는 데에 동의한 적이 없다. 클락슨 대표는 "이 모든 정보가 대규모 언어 모델에서 활용될 의도가 전혀 없었는데도 대규모로 사용되고 있다"며 "법원이 AI 알고리즘을 훈련하는 방법과 데이터가 사용될 때 (이를 작성한) 사람들이 어떻게 보상을 받을지에 대한 보호 장치를 마련하기를 바란다"고 말했다. 로펌은 이미 원고단을 확보하고 있으며 소송이 시작되면 더 많은 원고를 모집할 계획이다.
공공 인터넷에서 가져온 데이터를 사용해 개발자에게 큰 수익을 안겨줄 수 있는 도구를 훈련시키는 것이 합법인지는 불분명합하다. 일부 AI 개발자들은 인터넷에서 데이터를 사용하는 것이 저작권법의 개념인 '공정 사용(fair use·제한적으로 저작물 사용을 허용하는 규정)'으로 간주되어야 한다고 주장하고 있다.
스타트업을 주로 대리하는 건더슨 데트머의 지적 재산권 변호사 캐서린 가드너는 "공정 사용에 대한 문제는 앞으로 몇 달, 몇 년 동안 법원에서 벌어질 공개적인 문제"라며 "자신의 저작물이 AI 모델 학습에 사용되었다는 사실을 입증할 수 있는 아티스트 등은 이를 이용하는 회사를 상대로 소송을 제기할 수 있지만, 단순히 웹사이트에 게시물을 올리거나 댓글을 단 사람들이 손해배상을 받을 가능성은 적다"고 말했다.
그는 이어 "소셜 미디어 사이트나 어떤 사이트에 콘텐츠를 올리면 일반적으로 해당 사이트에 어떤 방식으로든 콘텐츠를 사용할 수 있도록 매우 광범위한 라이선스를 부여하게 된다"며 "일반 최종 사용자가 교육의 일부로 자신의 데이터를 사용한 것에 대해 어떤 종류의 지불이나 보상을 받을 자격이 있다고 주장하기는 매우 어려울 것"이라고 말했다.
AI 관련 기업들은 이미 여러 여러 법적 문제에 직면해있다. 지난 11월에는 오픈AI와 마이크로소프트(MS)가 MS 소유의 온라인 코딩 플랫폼인 깃허브에서 컴퓨터 코드를 사용해 AI 도구를 학습시킨 것에 대해 집단 소송이 제기됐다. 2월에는 게티 이미지가 소규모 AI스타트업인 스태빌리티AI를 고소했다. 스태빌리티AI가 이미지 생성 봇을 훈련시키는 과정에서 게티 이미지의 사진을 무단으로 사용했다는 이유다. 이번 달에는 조지아의 한 라디오 진행자가 챗GPT가 자신을 사기 혐의로 부당하게 고발하는 텍스트를 제작했다며 오픈AI를 명예훼손으로 고소하기도 했다.
현재 오픈AI 외에도 여러 기업들이 인터넷에서 방대한 양의 데이터를 스크랩해 AI 모델 학습에 사용하고 있다. 구글과 페이스북, MS 등이다. 앞으로 이같은 기업은 더 늘어날 전망이다. 클락슨은 이 중 오픈AI를 상대로 소송을 제기한 이유와 관련 "더 큰 라이벌들이 자체 AI를 출시하도록 자극하는 역할을 했기 때문에 오픈AI를 좇기로 했다"며 "AI 군비 경쟁에 불을 붙인 회사기 때문에 자연스러운 첫 번째 목표"라고 말했다.
오픈AI는 최신 모델인 GPT4에 어떤 종류의 데이터가 사용됐는는 공개하지 않았다. 이전 버전에서는 위키피디아 페이지와 뉴스 기사, 소셜 미디어 댓글을 사용한 것으로 나타났다. 구글과 다른 회사의 챗봇도 비슷한 데이터 들을 이용했다.
규제 당국은 각 AI가 어떤 데이터를 사용했는지 더 투명하게 공개하도록 관련 기업에 요구하는 법률 제정을 논의 중이다. 지적 재산권 변호사인 가드너는 소송을 통해 판사가 오픈AI와 같은 회사가 어떤 데이터를 사용했는지에 대한 정보를 제출하도록 강제할 수도 있다고 설명했다.
일부 기업들은 AI기업이 데이터를 긁어 쓰는 행위를 막기 위해 시도하고 있다. 파이낸셜타임즈에 따르면 지난 4월 음악 유통업체 유니버설 뮤직 그룹은 애플과 스포티파이에 스크랩 프로그램를 차단해 달라고 요청했다. 소셜 미디어 사이트 레딧(Reddit)은 빅테크 기업들이 수년간 자사 사이트의 댓글과 대화를 스크랩해 왔다는 이유로 데이터 스트림에 대한 액세스를 차단하고 있다. 트위터의 소유주인 일론 머스크는 MS가 트위터에서 얻은 데이터를 AI 훈련에 사용한 것에 대해 소송을 제기하겠다고 말하기도 했다. 머스크는 스스로 AI회사 설립을 추진 중이다.
<워싱턴포스트 제휴>