[만파식적] AI 크롤러 : 서울경제

유럽연합(EU)이 세계 최초로 제정한 포괄적 인공지능(AI) 규제법인 ‘AI법(AI Act)’이 이달 1일 발효됐다. 챗GPT 등 범용 AI에 대해서는 EU 저작권법을 반드시 지키고 AI 학습 과정에 사용된 콘텐츠를 명시하도록 해 ‘AI 크롤러(crawler)’에 제동을 걸었다. 크롤러는 언론사 등 콘텐츠 기업의 온라인 데이터를 자동으로 수집·분류·저장해 AI 모델을 학습시키는 AI 개발사들의 소프트웨어를 말한다. 프랑스의 경우 올해 3월 구글의 AI 챗봇 바드가 자국 언론사들의 콘텐츠를 무단으로 사용했다며 2억 5000만 유로의 과징금을 부과했다.

생성형 AI 모델은 뉴스·논문 등의 정보를 학습하고 훈련해 정보를 재가공한다. “챗GPT가 인간의 지적 능력은 뛰어넘어도 데이터 수준은 못 넘는다”는 말이 나오는 이유다. 중국이 미국의 AI 패권을 위협하고 있는 것도 모바일 결제 이용자 수가 미국의 9배에 이르는 등 데이터가 풍부하고 서방국가와 달리 개인 정보를 마음대로 가공할 수 있기 때문이다. 업계 전문가들은 지금 추세라면 2028년쯤 AI 모델이 학습할 수 있는 양질의 데이터가 모두 소진되는 ‘데이터 장벽(data wall)’이 발생할 것으로 보고 있다.

콘텐츠 기업들도 ‘AI 시대의 쌀’ ‘제2의 석유’로 불리는 데이터의 가치에 주목하고 있다. 뉴욕타임스(NYT) 등은 자사 웹사이트에 대한 무단 크롤링을 금지하고 이를 어기면 거액의 저작권 침해 민사소송을 걸고 있다. 주요국들은 ‘데이터 안보’에 나선 상태다. 해외 기업들이 자국의 개인 정보 등을 무단으로 수집하고 알고리즘을 조작하면 국가 안보에 위협이 될 것으로 보기 때문이다. 미국의 ‘틱톡 금지법’, 빅테크를 겨냥한 EU의 ‘디지털 시장법(DMA)’, 네이버에 대한 일본 정부의 라인야후 지분 매각 압박 등이 단적인 사례다. 총성 없는 ‘데이터 전쟁’ 시대에 뒤처지지 않으려면 개인 정보 보호 및 사이버 보안, AI 산업 발전 등을 두루 감안한 ‘AI 기본법’ 처리를 서둘러야 한다.