[이미지인식 기술 어디까지 왔나] 점·선·도형으로 얼굴 인식...눈보다 정확하다

사람 눈의 작동원리 모방한 딥러닝 방식 '회선신경망'
작게 쪼개 이미지 입력받아 정보 조합해 얼굴전체 인식
MS硏 오류율 3%로 인간 추월...동영상으로까지 기술 확장 중



지난해 12월 마이크로소프트는 이미지나 영상 속 물체를 파악하는 기술이 ‘인간 수준을 넘어섰다(exceeds human-level performance)’고 선언했다. 매년 열리는 세계 최대 이미지 인식 기술 대회 ‘ILSVRC(Imagenet Large Scale Visual Recognition Challenge) 2015’에서 마이크로소프트연구소가 우승을 차지한 뒤였다. 이 대회에서 마이크로소프트연구소는 이미지 분류 등 몇몇 영역에서 오류율을 3%대로 줄였다. 보통 사람의 오류율을 5% 안팎으로 보면 큰 진전이다. 이렇게 오류를 줄여가면 무인 자율주행차가 갑작스레 등장하는 사람을 인식하고 동선과 속도를 계산해 사고를 피하는 일도 가능해질 것이라는 기대도 나온다.

이미지 인식 기술은 인공지능(AI) 딥러닝 방식의 하나인 회선신경망(CNN·Convolutional Neural Networks) 방식을 채택하면서 현재 수준에 이르렀다. 이미지 인식 기술은 사람 눈의 작동 원리와 닮아 있다. 사람은 물체에서 반사된 빛이 눈의 각막과 수정체를 거치는 동안 꺾이면서 망막에서 상을 만들고 이 정보가 뉴런을 타고 뇌에 전달되면서 물체를 판단한다. CNN은 뉴런의 구조를 모방해 물체의 정보에 관한 네트워크를 쌓아올리는 방식으로 이미지를 판별한다. 김성훈 홍콩과학기술대 교수는 강의를 통해 “전체 이미지를 하나의 입력으로 받지 않고 입력을 작은 단위로 나누어 받는다는 아이디어에서 착안한 모델”이라고 말했다. 얼굴을 인식한다면 선이나 점 등 가장 기본적인 형태를 훑어본 뒤 타원형·다각형 등 조금 더 복잡한 형태를 인식한다. 그다음 선과 타원형 등의 조합까지 인식해 얼굴 전체를 정확하게 파악하게 된다.


인공신경망 중 하나인 ‘알렉스넷(AlexNet)’ 모델을 적용해 이미지를 각각 진드기(왼쪽부터), 컨테이너 수송선, 스쿠터, 표범 등으로 분류한 결과가 제시되고 있다. /구글 텐서플로어 화면 캡처
마이크로소프트가 개발한 이미지 인식 기술을 이용해 사람의 얼굴로 본 나이를 측정하는 서비스 ‘How-Old.net’으로 한 누리꾼이 아이돌의 얼굴 나이를 측정했다. /네이버 블로그 화면캡쳐
CNN은 이미지가 입력되면 신경망의 첫 번째 층에 색깔별 픽셀값(밀도)이 입력으로 들어와 각 단위(노드)가 특정 색의 특정 방향의 선이나 점을 감지하도록 학습된다. 빨간색의 수직 방향 선이 이미지에 나타났는지 감지하는 식이다. 한 이미지를 얼마만큼 읽어낼 것인지를 정해서 5×5 형태의 이미지로 보게 되면 이들 색깔이 만들어내는 패턴을 모아 눈과 코, 눈썹 등이 특정된다. 세세한 이목구비도 이러한 방식으로 인식돼 기계는 얼핏 본 하관의 모습으로도 대상을 판별해 사람보다 오류를 줄일 수 있게 되는 셈이다.

최근 인공신경망을 채택한 구글 포토는 키워드별로 구글 검색으로 노출되는 수만장에서 수천장에 달하는 이미지를 통해 학습을 진행했다. 이를 통해 구글 포토 검색창에 런던을 입력하면 런던에 있는 랜드마크 등과 관련된 사진들이 검색 결과로 나온다. 국내 스타트업인 루닛은 이미지를 정교하게 인식하는 딥러닝 모델을 대량의 의료 데이터로 학습시켜 사람의 시각만으로는 한계가 있던 기존 의료영상 판독의 정확성과 객관성을 높일 수 있는 핵심기술들을 개발해 소프트뱅크벤처스로부터 20억원의 투자를 유치했다.

최근 글로벌 업체들은 이미지 인식뿐 아니라 동영상으로도 그 안의 내용을 인식하는 기술까지 개발하고 있다. 샤오우엔 혼 마이크로소프트연구소 아시아 소장은 최근 기자간담회에서 “사진뿐만 아니라 영상에도 이 기술을 적용해 효율적으로 시각적 인식을 하게 했다”며 “현재 구글·IBM 등이 그런 접근을 하고 있다”고 말했다.

/정혜진기자 madein@sedaily.com


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>