[책꽂이] 빅데이터 시대, 보이지 않는 데이터에 속지말라

■다크 데이터
데이비드 핸드 지음, 더퀘스트 펴냄


미국의 트레이더 이반 보스키는 1975년부터 10년간 주식 매매로 2억 달러를 벌어들였다. 1980년대 주요 인수합병마다 절묘한 타이밍에 주식을 사고팔았는데, 통상 기업이 인수 사실을 발표하기 직전에 해당 기업의 주식을 사들여 막대한 차익을 거뒀다. 하지만 투자은행 직원을 매수해 내부 정보를 미리 확보한 그의 사기 행위는 결국 덜미가 잡혔고, 보스키는 징역살이와 함께 1억달러 벌금형이라는 대가를 치렀다. 이런 일은 21세기에도 여전히 비일비재하다. 2015년에는 변호사·회계사들이 제약사 파머셋의 내부자로부터 이사회가 회사 매각을 추진 중이란 말을 듣고 주식을 사들였다가 고발되기도 했다.


빅데이터 시대가 열리면서 검색하는 수고만 감수한다면 의사결정에 필요한 모든 데이터를 확보할 수 있다는 믿음이 점차 굳건해지고 있다. 하지만 영국 왕립통계학회장을 지낸 데이비드 핸드 임페리얼칼리지런던 수학과 명예교수는 신간 ‘다크 데이터’에서 우리가 놓치는 데이터의 존재를 상기시킨다. 그는 우리가 확보하지 못했거나 존재 여부를 놓치는 데이터를 물리학의 ‘암흑 물질’(Dark Matter)에 빗대 다크 데이터라고 지칭한다. 그는 다크 데이터에 대해 “우리가 볼 수 없게 숨겨져 있기에, 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다”며 “우리를 잘못된 길로 이끌 잠재력이 있으며 때로는 파국을 초래하기도 한다”고 경고한다.


책은 행정·비즈니스·정보기술(IT) 등 각종 현장에서 발생할 수 있는 다크 데이터의 사례를 유형별로 분류해 소개하고, 데이터를 다룰 때 경계해야 할 점을 알려준다. 저자 자신이 금융회사로부터 의뢰를 받아 대출 심사에 쓸 평점표를 만들 때 다크 데이터가 너무 많아 어려움을 겪은 경험을 들려주기도 한다. 이를 고려하지 않고 섣불리 예측모델을 만들었다면 오해의 소지가 커질 수 있었다고 저자는 돌아본다. 그는 내부자거래와 같은 사기 행위가 아니라도 법을 위반하지 않는 범위 내에서 각자 유리한 데이터를 만들기 위해 통계 기준을 바꾸거나 대상을 조정하는 ‘게이밍’(Gaming)도 다크 데이터를 이용한 경우라고 말한다.


저자는 다크 데이터가 꼭 나쁜 것만은 아니라는 점도 짚고 넘어간다. 서비스에 가입하는 과정에서 각종 개인정보를 암호화함으로써 사생활을 보호하는 것도 다크 데이터의 생성으로 볼 수 있다. 책은 데이터가 주도하는 세상에서 살아가려면 다크 데이터의 존재 가능성을 의식하며 ‘데이터를 의심할 줄 아는’ 건강한 회의주의자로 사는 기술이 필요하다고 조언한다. 1만9,000원.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>