이석중 라온피플 대표
비록 1,000개 정도로 제한된 범위지만, 2015년 마이크로소프트의 연구팀이 발표한 인공지능(AI) 레스넷(ResNet)은 영상 인식(분류)의 정확도 측면에서 드디어 일반적인 사람의 수준을 추월하게 된다. AI가 이렇게 발전한 이유는 레스넷이라는 훌륭한 구조를 갖는 망의 개발 덕분이겠지만, AI의 학습에 사용된 수백만장의 데이터 덕분이기도 하다. 잘 알려진 것처럼 깊은 신경망을 학습시킬 때는 그냥 데이터가 아니라 정답지가 있는 충분한 수량의 데이터가 필요하다. 학습 데이터 양이 적으면, 그 데이터에만 지나치게 특화된 학습 결과가 나올 수 있기 때문이다. 이렇게 되면 일반화 능력이 떨어져 학습 유형과 조금만 달라도 엉뚱한 결과를 초래할 수 있다.
정답지가 있는 수많은 데이터를 준비한다는 것은 비용이 매우 많이 들고 힘도 든다. 물론 이런 어려움으로 정답지가 없어도 되는 비지도 학습(unsupervised learning)과 정답지가 일부만 있어도 되는 반지도 학습(semi-supervised learning)이 개발됐지만, 정답지가 있어야 하는 지도 학습에 비해 아무래도 성능이 좀 떨어진다.
컴퓨터단층촬영(CT)이나 자기공명영상(MRI)으로부터 뇌종양의 위치를 파악하거나 엑스레이(X-Ray) 영상으로 폐암을 판별하거나 제조 현장에서 불량을 검출하고자 할 경우처럼, 학습 데이터를 구하기 어렵거나 많지 않은 경우에는 어떻게 학습을 시켜야 할까. 이때 사용되는 방법이 정답지가 있는 학습 데이터로부터 유형을 확대하는 데이터 증강(data augmentation) 법이다.
데이터 증강 방식에는 전통적 방식과 딥러닝을 이용한 방식이 있다. 전통적 방식은 기하학적인 변환을 사용해 경우의 수를 확대하는 방법을 주로 사용하는데, 영상의 좌우 반전, 상하 반전, 위치 이동, 회전, 크기 조정, 큰 영상에서 일부만 잘라내기와 같은 것들이 있다. 기하학적 변환과 함께 영상을 일부 가리거나 잡음을 추가하는 것을 섞어서 사용할 수도 있다.
기하학적 변환만으로는 실제 현실에서 생길 수 있는 다양한 변화를 반영하기 어려운 경우에는 적대적 생성망(Generative Adversarial Networks)과 같은 생성망을 이용해 AI가 학습 데이터를 생성해낼 수도 있다. 실사와 거의 구별이 불가능할 정도의 얼굴 영상을 만들어낼 수준으로 GAN의 성능이 이미 비약적으로 발전했으며, 이것은 학습 데이터가 부족한 영역에서 AI를 통해 실제와 거의 비슷한 다양한 학습 데이터를 만들어낼 수 있는 길이 열렸음을 의미한다. 실제로 산업 현장에서도 비정형 불량처럼 사전에 정의하기 힘든 불량은 AI가 생성한 학습 데이터를 적용한다.
데이터가 돈이 되고 자원인 시대가 됐다. AI의 학습에 필요한 데이터를 편리하게 만들어낼 수 있는 AI에 대한 연구 역시 매우 유망해 보인다.