사람은 사진 속 피사체를 보면 다양한 사실을 직관적으로 알아챌 수 있다. 가령 길거리 풍경을 찍은 사진을 보여주면 빨간 옷을 입은 행인의 위치로부터 자동차까지의 거리는 어느 정도인지, 행인들의 위치나 시선에서는 친밀도까지 파악할 수 있다. 또 사람들이 입은 옷차림으로 경제적 능력이나 취향도 추정할 수 있다. 그간 딥러닝 기술에 힘입어 영상 인식 산업에 상당한 진전이 있었음에도 인공지능(AI)에 같은 사진을 보여주면 자동차와 행인이 존재하고 또 어느 영역에 있다는 사실만 파악할 뿐 사람 간의 관계나 의미를 해석하는 것은 불가능했다.
사람이 사진을 보고 많은 정보를 알아낼 수 있는 것은 ‘관계 추론(relational reasoning)’이라는 능력 때문이다. 관계 추론이란 어떤 대상이나 문장 또는 개념들이 갖고 있는 외적인 관계 혹은 내재해 있는 관계를 추론하는 능력을 말하며 인지 능력의 기본이 되는 것이다. 백화점이나 마트에서 과일을 고를 때, 목적지를 찾아갈 때, 추리소설을 읽으면서 여러 단서를 조합해 범인을 추정할 때도 우리가 자각하지 못하는 사이에 관계 추론 능력이 발현된다.
관계 추론이 AI를 한 단계 더 진보시킬 것은 분명한 사실이지만 어떻게 학습시켜야 할지, 네트워크를 어떻게 구성하거나 변경시킬 것인지, 심지어는 어떻게 접근을 해야 할 것인지조차 명확하지 않았다. 그러나 가능성을 보고 구글이나 페이스북 같은 많은 정보기술(IT) 기업은 관계 추론 능력을 키우기 위한 원천 연구를 진행하고 있다. 그러던 중 지난 6월 초 구글의 자회사이며 알파고로 유명한 딥마인드는 흥미 있는 논문을 발표했다.
딥마인드는 기존의 심층 신경망을 개선함으로써 관계 추론 능력을 높이는 방식보다 관계 추론만을 전담하는 관계 네트워크(Relation Network·RN)를 독립 모듈로 만드는 방식을 선택했다. 또 입력 형태에 구애받지 않도록 함으로써 기존에 영상이나 자연어를 처리하던 다양한 심층 신경망(CNN·LSTM 등)에 연결해 사용할 수 있게 했다. 그들은 영상 인식 심층 신경망을 이용해 영상에 존재하는 대상의 특징을 추출한 후 RN을 이용해 대상들의 관계를 추출해내는 실험을 우선적으로 진행했다. 이전의 심층 신경망에서는 ‘갈색 공의 크기는 얼마인가?’처럼 관계와 무관한 것을 파악할 수 있었다면 RN을 추가함으로써 ‘노란색 금속 재질의 원통형 물체와 비슷한 크기를 갖는 것은 어떤 것인가?’와 같이 관계 추론이 가능하게 됐다.
페이스북이 2015년 발표한 문장 추론 능력 평가용 데이터 집합(bAbI QA)은 문장과 문장의 상호관계에 따른 추론 능력을 평가하기 위한 목적으로 개발됐으며 20여개의 다양한 관계 추론을 검사할 수 있다. 예를 들면 ‘존이 사과를 집어 들었다’ ‘존은 거실로 갔다’ ‘존이 부엌으로 갔다’ ‘존은 사과를 내려놓았다’와 같은 문장을 보여준다. 그 후 ‘부엌에 있기 전에 사과는 어디에 있었나?’ 같은 질문을 했을 때 ‘거실’이라고 응답하는지를 검사한다. 관계 추론이 되지 않으면 올바른 답을 할 수가 없다. 딥마인드는 영상에 대한 관계 추론 검사뿐 아니라 문장에 대한 추론 능력 검사를 했으며 전체 검사의 90%를 성공시켰다.
논문을 보면 영상에서 관계 추론을 평가하는 실험의 성공률은 평균 95.5%에 달하는데 이는 사람의 기록(92.6%)보다 좋은 성적이다. 하지만 저자의 주장처럼 아직은 제한적인 대상과 제한적인 관계를 추론하는 수준으로 이를 확대 적용하기에는 해결해야 할 과제가 산적해 있다. 하지만 많은 기업이 경쟁적인 연구를 하고 있기 때문에 몇 년 안에 주목할 만한 결과가 예상된다. 관계 추론 능력은 AI의 능력을 한 차원 더 끌어올릴 수 있는 기술이고 보편적인 문제를 해결할 수 있는 ‘범용 AI’로 가기 위해 반드시 필요한 기술이기 때문에 우리도 집중해야 할 것 같다.