“데이터 공유의 힘은 엄청납니다. 그동안 시장에 출시됐던 고혈압 치료제의 효능을 검증하기 위해 4개국 9개 기관의 데이터베이스(DB)를 분석했더니 가장 저렴한 이뇨제 성분의 약물이 효과도 가장 좋고 부작용도 가장 적다는 것을 발견했습니다. 이 같은 결과를 확인하는 데 시간도 별로 걸리지 않았습니다.”
박래웅 아주대 의대 교수는 지난 10월 국내외 연구자들과 함께 2억5,000만명의 고혈압 치료 데이터를 분석해 이 같은 결과를 확인하고 생물학 분야 국제 학술지 ‘란셋’에 발표했다. 박 교수는 이 연구가 가능했던 배경으로 바이오헬스 빅데이터를 꼽았다. 분산형 바이오헬스 빅데이터 사업단장이기도 한 그는 민감한 개인의 의료정보를 보호하면서도 각국의 의료정보를 공유할 수 있는 방법으로 공통데이터모델(CDM)을 활용한 분산형 시스템을 꼽았다.
이 시스템의 핵심은 환자 진료기록과 같은 데이터 원본의 병원밖 유출 없이도 의료계·학계가 연구개발(R&D)에 필요한 자료를 최대한 공유·활용할 수 있다는 점이다. 연구자가 특정 데이터를 요청하면 소프트웨어 등을 활용해 각 병원에 저장된 공통 형태의 데이터를 분석한 뒤, 원본데이터가 아닌 분석결과만 병원 밖으로 보내는 방식이다. 박 교수는 이를 일기장에 빗대어 설명했다. 개인들이 일주일에 운동을 몇 번씩 하는지 일기장을 통해 통계를 내려고 한다고 치자. 연구자가 일기장에서 작성자 이름과 같은 개인정보를 지워 프라이버시를 보호할테니 일기장을 좀 보여달라고 하더라도 선뜻 응할 사람은 많지 않을 것이다. 반면 사람이 아닌 프로그램이 일기장을 분석해 주간 운동횟수 통계를 낸 뒤 일기장 원본들이 아닌 익명화된 운동통계데이터만을 연구자에게 전달해주는 방식이라면 개인들의 호응도가 높아질 수 있다. 박 교수가 개발 중인 시스템은 이 같은 방식으로 각 의료기관들의 원본데이터 유출 없이 유용한 R&D용 데이터를 뽑아낼 수 있다. 해당 시스템은 이 같은 보안성 덕분에 국내의 엄격한 의료데이터 관련 규제도 통과할 수 있었다.
향후 과제는 각양각색의 의료기관별 데이터들을 표준화하는 작업이다. 박 교수는 해답을 CDM에서 찾았다. 19개국에서 19억명 이상의 환자 데이터를 공유하는 비영리 국제 컨소시엄 ‘오디세이(OHDSI)’가 만든 모델이다. 박 교수에 따르면 현재 국내 63개 병원이 CDM에 참여했다. 정부는 이들 병원이 9,800만명의 환자데이터를 연결하는 국가 프로젝트인 ‘다부처 바이오헬스 빅데이터 플랫폼’ 사업을 진행하고 있다.
박 교수는 이를 확장해 일종의 연구자유지대인 ‘리서치 프리존’을 만들겠다고 밝혔다. 프리존에 참여하는 기관의 연구자들은 국가나 의료기관별 장벽 없이 서로의 데이터들을 자유롭게 분석할 수 있게 된다. 현재 6개 기관이 참여했다. 박 교수는 2020년 말까지 리서치 프리존에 참여하는 기관을 30개로 늘릴 계획이다. 이러면 국내 대부분의 데이터를 얻을 수 있는 만큼 미국, 유럽 등과도 연구자유지대를 구축할 수 있다는 것이다.
박 교수는 “중국은 용어 표준화가 덜 됐고, 일본은 아직 이 같은 데이터망 구축에 폐쇄적인 만큼 지금 우리가 주도하면 아시아 사람들의 표준으로 우리 병원들이 참여할 수 있게 된다”며 “한국 데이터가 아시아를 대표하는 데이터로 알려질 수 있도록 노력할 것”이라고 강조했다.