미래창조과학부가 주최하고 한국연구재단과 서울경제신문이 공동 주관하는 이달의 과학기술인상 1월 수상자로 선정된 박태성 서울대 통계학과 교수는 유전자 분석에 구조방정식이라는 사회과학적 통계 기법을 적용해 ‘패스웨이(pathway) 기반 유전자 자료 분석’ 기법인 ‘파라오(PHARAOH)’를 고안했다. 파라오는 쉽게 말해 유전자 간의 상관관계를 분석해 어떤 유전자를 어떻게 갖고 있으면 질병의 원인이 되는지를 알아내는 것이다. 생물학에 통계학을 접목한 개념이다.
유전자와 유전자, 유전자와 질병의 상관관계를 분석하는 것은 기존에도 있었지만 박 교수가 고안한 기법은 대량의 유전자를 동시다발로 파악할 수 있다는 점이 가장 큰 특징이다. 패스웨이는 단백질·유전자·세포 등 생체 요소 간의 상호작용과 역학관계를 세밀하게 설명할 수 있는 생물학적 심층지식이다. 다양한 생체 요소와 질병 간의 관계를 한눈에 알아낸다는 것이다. 박 교수는 “패스웨이의 숫자가 수백·수천개여도 가능하다”며 “질병과 패스웨이는 물론 패스웨이 사이의 관계도 따질 수 있다”고 강조했다.
생물학 분야에서 빅데이터는 분석보다 해석이 어렵다는 것이 박 교수의 설명이다. 생물학 자료는 생물학적 현상의 일부만을 간접적으로 반영하기 때문이다. 때문에 추가적인 검증작업이 필요하다. 최근 차세대 염기서열 분석기술에 의해 대규모 유전체 자료가 대량으로 생산되고 있지만 체계적 분석 기술 개발은 아주 느린 상태이다. 더구나 분석 결과를 제대로 해석하는 것은 무척 어렵다.
“저희 팀도 수많은 자료를 분석했지만 자료에 대해 단순하게 통계적인 분석방법을 적용하는 것보다는 기존에 이미 잘 알려진 생물학적 정보를 같이 결합해 분석하는 것이 타당하다고 생각했고 그 결합분석의 일환으로 생물학 패스웨이 정보를 활용하는 시도를 하게 됐습니다.”
유전자 빅데이터 분석을 통하면 맞춤 의학이 가능하다. 예를 들어 특정 인종에 특정 질병을 유발하는 유전자와 유전자 관계를 찾아낼 수 있다. 박 교수는 지난 2009년부터 미국 국립보건원(NIH) 주도로 전 세계 22개국 연구진이 참여한 유전자 연구 프로젝트에 참여했는데 이 연구는 유럽·동아시아·남아시아·아메리카·아프리카 총 5개 인종 약 12만명의 유전자를 대상으로 삼았다.
그 결과 당뇨병에 직접 영향을 주며 단백질 기능을 변화시키는 유전자 16개를 발견했는데 발견된 당뇨 관련 유전자 대부분이 5개 인종 모두 유사했으나 그중 2개 유전자(PAX4·FES)는 아시아인에게서만 나타나는 것으로 확인됐다. 박 교수는 “NIS 연구는 패스웨이 기반 연구로 가기 전 단계로 이를 심화하면 가령 ‘한국인한테 발병되는 모든 종류의 암 유발 유전자’를 찾아낼 수 있다”며 “유전자 연구는 맞춤 의학을 향해 매번 진보하고 있다”고 말했다. 질병의 종류도 간암·췌장암·난소암 등 점차 늘어나는 추세다. 박 교수는 당뇨의 경우 NIH와 췌장암과 간암은 국내 다른 연구진과 협업해 연구를 진행하고 있다.
이 같은 해석 기법의 발전은 결국 의료비를 낮추는 데 큰 도움을 준다. 최근 생물학계에서는 ‘데이터 생산비용이 100만원이면 분석에는 그보다 100배 비싼 1억원, 분석 결과를 유의미한 정보로 가공하는 해석에는 1,000배 비싼 10억원이 든다’는 속설이 돈다. 데이터 해석의 중요성과 가치가 높다는 말이지만 거꾸로 얘기하면 실제 환자들이 치료를 받을 때 비용이 커진다는 의미다. 박 교수는 “관건은 빠른 속도로 정밀하게 데이터를 해석하면서도 저렴한 방법을 찾는 일”이라며 “최근 화두가 되고 있는 정밀 맞춤 의학을 구현하는 데 실질적인 기여를 하고 싶다”고 강조했다.