유니스트(UNIST·울산과학기술원) 에너지화학공학과 김동혁(사진) 교수팀은 딥러닝 기반의 ChIP-exo 피크 선별 소프트웨어(DEOCSU)를 개발했다고 23일 밝혔다.
ChIP-exo는 엑소뉴클리아제를 활용한 염색질 면역 침전의 최신 실험 기술로, 고해상도로 단백질 결합 부위를 식별할 수 있다.
염색질 면역 침전(Chromatin immunoprecipitation, ChIP)은 특정 단백질의 결합 위치를 조사하는데 널리 사용된다. 특히 엑소뉴클리아제(exonuclease)를 활용한 최신 실험 기술인 ChIP-exo을 통해 고해상도로 결합 부위를 식별할 수 있다. 하지만 목표로 하는 단백질이 실제로 DNA에 결합하는 부위인 피크에 대한 판별 작업은 연구자의 노동집약적 추가 확인 단계가 필수적이다. 이는 대용량의 데이터를 신속·정확하게 처리하지 못하는 한계가 있었다.
ChIP-exo 피크 선별 소프트웨어(DEOCSU)는 참조 서열에 정렬된 ChIP-exo 데이터를 통해 피크 후보를 먼저 감지한다. 감지된 각각의 신호를 이미지 데이터로 변환한 후 학습된 데이터를 통해 이미지를 작은 단위로 쪼개어 각 부분을 분석하는 기법인 컨볼루션 신경망을 사용하여 실제 피크를 선별한다. 선별된 각 피크는 위치 최적화와 결합 크기 등을 추정할 수 있다. 해당 결과 데이터는 자체 개발 시각화 소프트웨어를 통해 확인한다.
대장균 K-12 MG1655 균주의 ChIP-exo 데이터를 기반으로 학습된 이번 소프트웨어의 모델은 학습에 사용된 데이터 뿐만 아니라 미지의 ChIP-exo 데이터에 대해서도 정확하게 피크를 선별해줬다. 공개 데이터베이스의 정보와 선행된 연구 사례를 이용해 기존에 공개된 소프트웨어와 비교했을 때도 우수한 성능을 보였다. 특히, 원핵생물 유래의 ChIP-exo 데이터 뿐 아니라 진핵생물과 고세균에서의 분석에서도 그 성능이 유지가 돼 그 범용성 역시 확인됐다.
김동혁 에너지화학공학과 교수는 “단백질과 DNA의 상호 작용을 고해상도로 식별할 수 있는 유용한 이점에도 불구하고 분석의 어려움으로 인해 ChIP-exo 실험 기술의 사용이 제한됐었다”며 “이번 소프트웨어 개발로 분석에 대한 연구자의 부담감을 극복시킴으로써 관련 연구의 진행 속도를 가속화할 수 있을 것이다"고 전했다.
이번 연구는 과학기술정보통신부의 바이오·의료기술개발사업과 동그라미 재단의 혁신 과학기술 센터 및 프로그램 공모사업의 지원으로 수행됐다. 연구 성과는 생물정보학 연구 권위지인 브리핑스 인 바이오인포메틱스에 1월 25일자로 출판됐다.