[시론] 데이타 거래 활성화에 미래 달렸다

이정우 서울대 전기정보공학부 교수


일반적으로 개인정보 보호(법) 수준과 빅데이터(핀테크) 산업의 활성화는 상호 모순적으로 인식되고 있다. 우리 정부는 최근 4차 산업혁명을 강조하면서 빅데이터·핀테크·인공지능(AI) 산업에 대한 지원을 강화하고 있다. 그러나 세계에서 유례를 찾을 수 없는 강력한 개인정보 보호법이 대한민국에 계속 남아 있는 한 우리나라에서 빅데이터(핀테크) 및 AI 산업의 발전은 불가능하다는 비관론이 학계와 관련 업계에 팽배해 있다. 핀테크 산업에서 가장 가치 있는 빅데이터가 개인정보라는 사실은 누구나 쉽게 이해할 수 있는 상식이다. 또 최첨단 빅데이터 분석 및 예측 기술은 대부분 AI(딥러닝) 기법에 기반을 두고 있으며 AI의 기본 원리는 많은 데이터 학습으로 새로운 예측 기법을 만들어내는 것이다.


과연 개인정보 보호와 빅데이터(핀테크·AI) 산업은 양립할 수 없는 것일까. 이러한 딜레마를 기술적으로 해결할 수 없을까 하는 필자의 고민을 일부 해결해줄 수 있는 초기 연구 결과가 있어 소개하고자 한다. 필자가 연구하고 있는 새로운 AI 기술인 연합학습(federated learning)이 그 기술이며 구글에서 처음 시작된 기본 개념은 다음과 같다. 여러 회사(개인)가 개인정보를 저장하고 있으며 AI 모델을 만드는 별도의 회사가 그 여러 회사가 가지고 있는 데이터를 기반으로 학습을 시킨다고 가정해보자. 이때 필수조건은 개인정보 보호를 위해 각 회사가 가지고 있는 개인정보 데이터를 그대로 AI 모델 회사에 보내지 말아야 한다는 점이다. 이 조건을 만족하기 위해 학습 알고리즘을 분산화해 분산 알고리즘 계산을 각 회사가 보유 데이터를 이용해 수행하게 하고 그 결과만 AI 회사에 보내는 방식이 연합학습의 기본 개념이다. 이 방식은 AI의 성능을 약간 떨어뜨리는 것을 감수하는 대신 개인정보를 보호할 수 있는 획기적인 기술이라고 할 수 있다.

언급된 기술이 발전하더라도 AI 분석 성능에는 한계가 있기 때문에 데이터 산업에 대한 인식 전환과 관련 법규 개정도 적극 검토해볼 필요가 있다. 빅데이터 산업의 규모가 세계 1위인 미국의 경우 개인정보를 허용되는 범위 안에서 사고팔 수 있게 돼 있어 데이터 분석(data analytics) 기업들이 양질의 많은 데이터를 확보할 수 있고 더 정확한 예측 성능과 더 많은 응용성을 가질 수 있다. 예를 들어 고객신용도 분석에서 미국의 3대 기업은 익스페리언·에퀴팩스·트랜스유니언인데 이들 회사는 개인정보를 자유롭게 사고팔 수 있는 유연한 미국의 개인정보 보호법으로 인해 매우 다양한 데이터 분석 서비스를 제공하며 막대한 매출을 올리고 있다. 세계 100대 빅데이터 분석 기업에 우리나라 기업이 한 군데도 들어가 있지 못하다는 사실은 우리나라의 미래먹거리인 데이터 산업에 대해 심각한 우려를 하게 한다. 유연한 개인정보 관련 법규·규정을 만들어 개인정보를 포함한 데이터를 자유롭게 사고팔게 하면 우리나라의 빅데이터 시장을 키울 수 있다고 확신한다.

일반인이 우려하는 개인정보 유출은 대부분의 경우 데이터 익명화(data anonymization)로 쉽게 해결할 수 있다. 또 위에서 언급한 연합학습 기술을 이용하면 개인정보를 보호하며 데이터 분석을 할 수 있게 된다. 이러한 다양한 기술로 필요한 부분은 보호하며 금융뿐 아니라 의료·교통 등의 공공 영역으로 확대되는 빅데이터 시장의 규모를 키워야만 우리나라의 관련 산업의 성장을 촉진할 수 있다. 법령 개정에서 한 가지 고려할 사항은 소비자의 일방적 희생만을 강요할 수는 없다는 점이다. 소비자에게 이득이 없다면 굳이 개인정보 제공 동의를 할 이유가 없기 때문이다. 이 문제를 해결하기 위해서는 기업에만 혜택이 돌아가서는 안 되며 정보를 제공한 소비자에게도 데이터 분석을 해 얻은 기업 수익의 일부를 돌려줘야만 기업과 소비자 모두 만족하는 선순환 구조를 만들 수 있을 것이다. 더 늦기 전에 입법 및 정책 입안자에 따른 법령 개정 및 빅데이터 산업의 활성화를 위한 대책 마련이 이뤄지기를 촉구한다.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>