4년마다 열리는 FIFA 월드컵은 매번 새로운 스타와 숱한 화제를 낳곤 한다. 2010년 아프리카 대륙에서 처음 열린 남아프리카공화국 대회도 예외가 아니었다. 월드컵 사상 최초로 주최국과 지난 대회 우승국·준우승국이 모두 조별 리그에서 탈락했고, 골든볼의 주인공이 우승국에서 배출되지 못했다. 유난히 심한 골 가뭄 탓에 재미 없는 대회라는 혹평이 잇따르기도 했다. 그래도 소소한 흥밋거리도 있었다. 점쟁이 문어 파울의 우승국 맞추기가 그중 하나였다. 문어의 예측 결과는 놀라웠다. 2008년 유럽축구선수권대회에서 6경기 중 4경기의 승리팀을 맞추는 데 성공했던 파울은 월드컵에서 8경기의 우승팀을 모두 족집게처럼 골라냈다. 파울이 14번 중 12번의 적중률을 기록하자, 세간에는 파울의 예측이 통계적으로 유의미하다고 믿는 사람들이 늘기 시작했다. 하지만 아무리 문어가 상대적으로 지능이 높은 생물이라고 한들, 데이터에 근거해 우승팀을 맞췄을 리는 만무했다. 연구 결과, 문어의 선택은 밝은 색과 가로 줄무늬에 대한 선호 때문이었다. 문어가 선택한 국가는 독일, 스페인, 세르비아 등 국기에 가로 줄무늬가 들어가는 나라들이었다.
경제학자 게리 스미스는 이처럼 사람들이 비과학적 상황을 통계적 유의성이 있다고 쉽게 믿어버리는 이유가 DNA에 각인된 패턴 추구 성향 때문이라고 말한다. 여러 세대에 걸쳐 자연선택을 거치는 동안 패턴을 찾고, 발견한 패턴을 생존을 위한 근거로 삼는 게 행동 양식이 되면서 오늘날에 이르러서도 반복 패턴이 인지되면 하나의 확정 현상으로 쉽게 믿어버린다는 것이다. 이에 더해 자신의 믿음을 뒷받침하는 근거를 선택적으로 받아들이고, 반대되는 근거는 의도적으로 무시하는 성향도 인지 오류를 일으킨다고 지적한다. 문어가 틀린 사례는 들여다보지 않고, 맞춘 사례를 더 높이 평가하는 식이다.
문어 소동 정도는 웃고 넘길 수 있다. 하지만 반복 패턴을 찾아내려는 인간의 오랜 습성과 자신이 필요한 정보만 골라 선택하려는 경향이 의료, 산업, 경제 분야 등에서 일어나면 치명적인 피해가 발생할 수 도 있다고 스미스는 저서 ‘숫자를 읽는 힘’에서 경고한다.
책에는 잘못된 데이터 해석과 편향적 선택, 의도적인 조작 등에 의해 만들어진 그럴싸한 통계가 야기한 다양한 피해 사례가 실려 있다. 의료 부문에서는 왜곡된 통계가 숱한 아이들을 죽음으로 몰아 넣었다. 영국 의사 앤드류 웨이크필드는 1998년 영국의 권위 있는 의학 학술지 ‘랜싯’에 열 두 명의 건강한 어린이가 홍역·볼거리·풍진을 동시에 예방하는 MMR 백신을 맞은 뒤 자폐증에 걸렸다고 주장하며 MMR 백신 접종 중단을 촉구했다. 백신 공포증이 확산하면서 당시 백만 명이 넘는 부모가 자녀에게 MMR 접종을 맞히지 않았다. 하지만 백신 문제를 추적 취재한 영국의 한 기자는 웨이크필드가 열 두 명의 아이들에 대해 접종 전 ‘건강 상태 이상 없음’이라고 기록한 것과 달리, 이들 중 다섯 명은 이미 발달 상의 문제를 가진 아이들이었다는 사실을 밝혀 냈다. 또 국립보건원 기록에는 열 두 명 중 단 한 명만 퇴행성 자폐증 진단을 받은 것으로 기재돼 있었다. 웨이크필드는 자폐증의 정의를 자의적으로 넓게 잡아 해석했던 것이다. 결과는 참담했다. 당시 MMR 접종을 하지 않은 수백 명의 어린이가 홍역·볼거리·풍진으로 사망했다.
2010년 미국에서는 하버드대 교수인 카르멘 라인하트와 켄 로고프의 잘못된 데이터 분석과 비정상적 평균 계산이 재정 정책의 실패를 불러오기도 했다. 이들은 국내총생산(GDP) 대비 정부 부채 비율이 90%를 초과하는 지점을 경기 침체로 접어드는 티핑 포인트로 제시했고, 권위 있는 학자들의 이 같은 주장은 세계 각국에서 재정 긴축을 위한 설득력 있는 근거로 받아들여졌다. 하지만 다른 많은 경제학자들은 2007년 12월 시작된 대침체로 경제가 불안한 상황에서 정부 부채를 줄이기 위해 재정 지출을 줄이고 세금을 올리는 것은 잘못된 정책이라고 지적했다. 결국 라인하트와 로고프 주장의 근거가 됐던 연구 논문은 다시 검증 절차를 거쳤고 통계적 오류가 곳곳에서 발견되면서 큰 파장을 일으켰다.
저자는 ‘데이터를 충분히 오래 고문하면 결국 자백한다’는 영국 경제학자 로널드 코스의 말을 인용해 잘못 다뤄진 데이터가 왜곡된 주장의 근거로 활용되는 상황을 강하게 비판한다. 이에 더해 과거에는 데이터가 빈약했던 탓에 잘못된 통계 해석이 많았던 반면, 오늘날에는 오히려 데이터가 넘쳐 나면서 통계 장난이 벌어지고 있다며 경계를 촉구한다. 1만8,000원.
/정영현 기자 yhchung@sedaily.com