[우리 곁에 다가온 AI] 학습 능력 높이는 데이터 증강 기술

이석중 라온피플 대표
표본조사 첫걸음은 우량 샘플
다양한 환경 반영 데이터 필수
2018년 구글서 '자동증강기술' 발표 주목
최고 성능 얻었지만 연산 시간 오래 걸려
올 ICML 학회서 1,000분의 1연산만으로
비슷한 성능 낼 수 있는 획기적 기술 나와

이석중 라온피플 대표

표본조사에서 좋은 결과를 얻으려면 모집단 전체의 특성을 잘 나타낼 수 있는 우량 샘플을 취하고 그 샘플로부터 모집단을 잘 설명할 수 있는 모델을 만들어야 한다. 만약 치우친 샘플로 모델을 만들면 ‘장님 코끼리 만지기’처럼 엉뚱한 결과를 초래할 수도 있다. 통계와 많은 면에서 유사한 머신러닝의 경우도 학습 알고리즘뿐만 아니라 학습 데이터의 질에 따라 학습 결과가 좌우되므로 학습 데이터의 선택은 매우 중요하다.

학습 데이터에 과하게 특화돼 실제 적용 시 좋지 못한 결과가 나오는 것을 오버피팅(overfitting)이라고 부른다. 이것은 시험에서 똑같은 문제는 잘 푸는데 내용을 조금만 바꾸면 틀리는 것과 유사하며 좋은 결과를 얻으려면 시험공부를 할 때 다양한 유형의 문제를 풀어서 응용 능력을 키워야 한다. 사람의 학습과 마찬가지로 머신러닝에서도 소량의 학습 데이터만으로도 우수한 결과를 내려면 학습 데이터에 실제 다양한 환경이나 특성을 반영할 수 있도록 데이터를 변형시켜 늘리는 데이터 증강(data augmentation)기술이 중요하다. 특히 데이터 자체를 구하기가 어렵거나 데이터에 정답지를 달아주는 라벨링 작업이 매우 힘든 의료 데이터 같은 경우 이 증강기술은 반드시 필요하다.


이렇게 데이터 증강기술은 매우 중요한 분야임에도 불구하고 망의 구조 연구나 시스템 변수 최적화와 같은 타 분야의 연구에 비해 상대적으로 소홀한 경향이 있었다. 유명한 신경망 모델에 적용하는 데이터 증강기술도 큰 영상에서 일부 영역을 잘라내기, 좌우 또는 상하 반전시키기, 회전시키기, 크기를 약간씩 변경하기와 같은 기본적인 증강기술만을 적용해왔다.

물론 일부 업체들은 자신들의 응용 분야에만 특화된 증강기술을 적용하거나 기술을 공개하지 않는 경향이 있었다. 그러다가 지난 2018년 구글 연구팀은 자동증강(AutoAugment)기술을 발표해 주목을 받는다. 데이터를 무작정 늘린다고 반드시 좋은 결과가 나오는 것은 아니다. 비슷한 데이터만 늘리는 경우에 학습 시간만 길어질 수도 있다. 구글 팀은 기존의 문제점을 개선한 체계적인 증강기술 정책을 개발해 최고의 성능을 얻었지만 연산 시간이 긴 문제가 있다.

올 국제 머신러닝 학회(ICML)에서 버클리대 연구진은 구글의 자동증강기술보다 1,000분의1 수준의 연산만으로도 비슷한 성능을 낼 수 있는 획기적인 증강기술을 발표했다. 모든 경우의 수를 시도하는 것이 아니라 일정 간격마다 이전 시도에서의 나쁜 결과는 버리고 좋은 결과를 선택하는 진화 알고리즘과 특정 영역에만 한정되는 문제를 피하기 위한 무작위 탐색 방법의 장점을 효율적으로 결합해 놀라운 성능을 얻었고 연산 시간을 대폭 절감할 수 있게 됐다. 소스 코드까지 공개했기 때문에 이를 기반으로 내년에는 더 멋진 데이터 증강기술들이 나올 것으로 기대한다.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>