오피니언 사내칼럼

[김나영 기자의 1일1식(識)] <247> 데이터를 무조건 믿진 마세요




얼마 전 경제 분야에 몸담고 있는 K 교수를 만났다. 그는 과거 경제학은 정밀한 수학 모델을 기반으로 어떤 현상에 대해 이론적으로 설명하는 게 주를 이루었지만, 요즘은 실제 산업이나 국가의 데이터를 기반으로 인간의 구조와 행동을 설명하는 데 관심을 둔다고 말했다. 특히 국제적 금융위기 이후 시장이 효율적이고 합리적일 것이라는 전통적인 가정 자체가 뒤흔들리면서 많은 경제학자들의 관심이 ‘데이터’로 쏠리고 있다고 덧붙였다. 소비자나 생산자들이 어떤 행동을 하는 경향이 있다고 가정하는 수준으로는 현실에 대한 대안을 충분히 낼 수 없기 때문이다. 실제 데이터를 수집하고 연구하는 작업 없이는 개개인이나 산업의 변화 방향이 ‘왜 그러한가’ 또는 ‘어떤 상황에서 특정 선택을 하는가’에 대한 분석을 내놓는다는 것 자체가 어불성설이다.

데이터가 중요하다는 데는 이견의 여지가 없다. 그러나 정작 사람들은 ‘믿을만한 데이터인가’라는 질문은 잘 던지지 않는다. K 교수는 특정 산업을 전담하고 있는 국책 연구기관의 5년치 종단 자료(기업이나 개인의 행동, 투자 등이 시간의 흐름에 따라 포착되는 데이터) 내용이 말 그대로 가관이었다고 털어놓았다. 각 기업별로 얼마나 변화를 위해 투자했고, 실제로 매출이 올랐으며, 노동 투입량은 어느 정도였는지 매년 기록하는 데이터베이스였는데 대부분 ‘자기 기입식’으로 내용을 적게 되어 있었다는 것이다. 업체 입장에서 자신들에게 불리한 정보는 삭제하고 유리한 내용만 써 넣거나 거짓으로 데이터를 보고할 개연성이 충분했다. 여기에 대해서 연구기관이 제대로 경고를 하거나 윤리적인 수준으로 정보를 제공하도록 강제할 만한 권한은 전혀 없다고 한다.


그뿐만이 아니다. 30%가 넘는 업체들이 연구기관을 통해 뿌려진 설문지에 제대로 응답을 안 해 데이터의 결측이 상당했다고 한다. 만약 정부가 특정 산업을 살리거나 규제하기 위해 이 자료를 사용한다고 할 경우, 문제 투성이인 데이터베이스를 활용하는 셈이다. 그럼에도 불구하고 숱한 ‘데이터의 오류’는 바로잡히지 않은 채 ‘201X년 업계 전체 동향’ 등의 작업에 버젓이 사용된다고 한다. 개탄할 현실이다.

관련기사



이렇게 만들어진 정부 데이터들은 나중에 금융 기관이 해당 산업의 변화와 발전상을 전망하거나 투자 의견을 밝힐 때에도 그대로 활용된다. 교수들의 연구에 인용되는 것은 물론이고 미디어를 통해서도 유포된다. 잘못된 자료의 효과가 2차, 3차로 확산되는 것이다.

그뿐이 아니다. 현 정부는 공공 데이터 개방 정책을 시행하고 있어 지리정보·산업정보 등 다양한 자료에 대해 궁금증이 생기면 누구나 정보공개 요청을 통해 데이터를 받아볼 수 있다. 잘못 조사된 데이터베이스가 일반 국민들에게까지 여과 없이 확대재생산되고 있는 것이다. 이렇듯 어처구니 없는 현실을 어찌해야 할지 막막하기만 하다. 공공데이터를 관장하는 부처나 개방정책을 기획한 부처나 이런 문제를 제대로 알고나 하고 있는지 답답할 따름이다.

과거 정부에서 ‘산업화에는 늦었지만 정보화에는 앞서 가자’던 슬로건이 있었음을 기억한다. IT 시대를 제대로 주도해 보겠다던 야심찬 비전이었다. 하지만 지금 정보화 수준은 발전은커녕 외려 퇴보한 듯하다. 정보화의 핵심 자원인 데이터가 여전히 믿을 만하지 못하니 하는 말이다. 그러고도 우리가 정보화 트렌드를 주도할 자격이 있다고 할 수 있을까.


김나영 기자
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기