테러범의 음성을 확인하라! : 서울경제

지난해 11월 오사마 빈 라덴의 육성이 담긴 테이프에 관한 이견은 과연 알 카에다의 위협이 어느 정도인가를 둘러 싼 미국과 유럽 간의 이견 그 이상이었다. 그것은 치열한 전쟁에서의 일제포화와 마찬가지로 음성분석 기술의 미래에 대한 뜨거운 설전이었다.

지난해 11월 12일 아랍어 알자지라 방송은 빈 라덴에게서 받았다는 전화 녹음 테이프를 방영했다. 이 녹음에서 알 카에다 지도자 빈 라덴은 최근의 테러 공격들에 대해 칭송하면서 앞으로도 테러 공격들이 계속될 것이라고 장담했다. 미국의 CIA와 국가안전국(NSA)은 즉각 음성분석 전문가들에게 이 테이프의 분석을 맡겼다. 일급비밀의 베일에 둘러싸인 NSA가 어떤 방법을 사용했는지는 알 수 없으나 NSA의 전문가들도 민간부문의 전문가들과 마찬가지로 음성 스펙트럼 사진의 비교 분석 훈련을 받은 사람들일 가능성이 크다. 스펙트럼 사진 기법은 종이 리본에 나타난 잉크얼룩을 사진으로 촬영하여 분석하던 1940년대 이래 별로 달라진 것이 없다.

미국의 TV 방송사들은 NSA와 연관이 있는 전문가들에게 그들 나름대로 어떤 판단을 내리고 있는지 알아보았다. 과연 이 테이프가 진짜일까? 그 답은 수일 내에 나왔다. 빈 라덴은 살아 있으며 다시 음모를 꾸미고 있다고.

한편 스위스의 IDIAP (댈 몰 인공지능연구소)는 생물측정 소프트웨어를 활용해 이 테이프를 분석해 보았다. 이 연구소의 컴퓨터들이 번쩍거리는 청록색의 데이터 점을 알고리즘으로 도출한 결론은 “빈 라덴이 아니다”라는 방향으로 초점을 좁혀갔다. 이 연구소는 이 연구가 “우리가 보유한 첨단의 음성인식 시스템이 어떤 결론을 내릴 지에 알아보자는 순수한 과학적 호기심”에서 비롯된 것이라고 주장했다. 이 연구소가 실시한 생물측정 프로그램은 녹음 테이프 목소리의 주인공이 빈 라덴일 가능성은 55~60%인 것으로 결론이 났다. 매우 애매모호한 결론이긴 하지만 미국이 내린 판단에 찬물을 끼얹는 결과였으며 또한 전통적인 음성확인 기법에 정면으로 일격을 가한 셈이었다.

그러나 전통적인 방법을 고수해온 사람들은 이 새로운 기술에 대해 시큰둥한 반응이었다. 그 이유에 대해 북 아메리카에서 가장 바쁜 음성분석 전문가이자 미 기록증거위원회가 인준한 8명의 하나인 탐 오웬은 뉴저지주 콜로니아의 자기 집 지하실 음향 실험실로 기자를 초대했다. 빈 라덴의 육성을 담았다는 테이프에 관한 미국정부의 주장에 대하여 미국의 TV 방송사들이 확인을 요청한 사람이 바로 탐 오웬이다. 기자가 찾아간 날 오후에 그는 사우디 정보장교들을 대상으로 하는 한달 간의 음성확인 교육 코스를 막 마친 참이었다.

지난해 11월 오웬이 문제의 그 테이프를 받았을 때는 마침 사우디 내무부 법의학부의 한 대위가 곁에 있어 통역에는 별 문제가 없었다.
뉴욕의 링컨 센터에서 오디오 엔지니어로 일한 바 있는 오웬은 뉴욕 경찰국이 폭탄 위협을 담은 테이프를 들고 그의 음향 스튜디오에 찾아온 것이 인연이 되어 법의학쪽으로 방향을 선회하게 되었다. 오웬은 뉴욕 경찰이 가져온 테이프의 배경 소음을 지웠다. 이는 엔리코 카루소로부터 디온 워윅에 이르기까지 여러 가수들의 무수한 레코딩 작업에 사용됐던 기법이었다. 이 일을 계기로 그는 법의학 일에 관심을 갖게 된 것이다.

방음장치가 된 오웬의 지하실 방은 바닥에서 천장에 이르기까지 사방에 스펙트럼 분석기, 이퀄라이저, 믹서, 앰프, 레코드-플레이백 시스템 등이 즐비한 선반들이 벽면을 가득채우고 있다. 법의학 분야에서는 흔히 그렇듯 전문가가 즐겨 쓰는 도구는 역시 헌 때가 묻은 장비다.

1973년에 제조된 종이 띠 사용 700 스펙트럼 사진 분석 음성확인 장치가 그것이다. 이것은 제2차 세계대전 중 독일군의 무전교환을 분석, 추적하기 위하여 미 육군의 정보 장교들이 만든 아날로그 기계들과 조금도 다르지 않다.

오웬은 기자가 도착하기 전 빈 라덴의 음성의 유일한 샘플의 하나인 1998년도 ABC 뉴스와의 인터뷰에서 얻은 스펙트럼 사진들을 만들어내고자 작업 중이었다. 오웬은 이 인터뷰에서 채취된 빈 라덴의 음성이 100% 확인된 것으로 생각하고 있다. 기계의 바늘이 빈 라덴 목소리의 음향 에너지를 성문(voiceprint)으로 변환하여 기계의 회전 드럼에 부착된 종이 띠에 데이터를 새겨넣는다.

기자는 기계가 변환한 성문을 보면서 각 음절이 만들어내는 바 모양, 즉 음성주파가 어떤 것인지 어렵지 않게 이해할 수 있었다. 얼룩들은 8줄이 난 종이 위에 표시된 상자 모양의 음표들 같았다. 오웬은 사람의 음성이 단음을 내지 않고 화성음을 낸다고 설명한다.

오웬이 11월의 알자지라 방송의 스펙트럼 사진을 기자에게 건넨다. 어지러운 검은 선들이 맨 위에서 맨 아래까지, 그리고 왼쪽 끝에서 오른쪽 끝까지 종이 위를 덮고 있었다. 그의 설명을 듣자, 배경 소음들과 방송의 반송자 신호의 알 수 없는 베일 뒤로 희미한 포먼트 바(formant bar)들이 정말 눈에 보이는 듯하다. 오웬은 생물측정 프로그램으로는 잡음을 제거하지 못한다고 주장한다. “생물측정 프로그램은 완전한 샘플을 가지고 작업을 하도록 되어 있습니다.” 소음을 제거해도 소용이 없다는 말이다. “그저 테이프에 녹음된 사람의 음성을 좀 더 분명히 듣고자 하는 것이라면 아무 문제가 없어요. 하지만 배경 소음을 소거할 경우 높고 낮은 주파수가 제거되는데 이는 인식작업에 필요한 겁니다.” 생물측정 시스템도 동일한 주파수를 요구하며, NSA는 빈 라덴의 음성의 샘플을 입수했을 것이지만(자기에게 그것을 알려주지는 않고 있지만), NSA가 아직은 분석 작업을 통하여 생물측정 방법에 의한 성과를 올리지는 못했을 것이라는 게 오웬의 설명이었다.

그는 “NSA는 FBI나 CIA가 갖고 있지 못한 것들을 가지고 있을 겁니다. 하지만 NSA의 기술은 대부분 감청에 관한 것입니다.” 라고 말을 이었다.

짤막하고 조악한 녹음을 가지고 오웬의 방법은 얼마나 확실한 것일까? 테이프는 상태가 좋지 않았을 뿐 아니라 11월의 테이프와 ABC와의 인터뷰 테이프 내용 간에는 공통되는 단어가 대여섯 개에 지나지 않는다 (미국기록증거위원회가 제시한 표준에 의하면 음성확인을 위해서는 적어도 20개의 같은 단어가 -그것도 같은 순서로 배열된 것- 필요하다).

오웬은 스펙트럼 사진 검토는 자기가 맡은 임무의 절반에 불과하다고 말한다. 그가 해야 할 또 다른 일은 각 음성에 특이한 여러 습관적 특징과 발음상의 결함들을 찾아내는 것이다. 전문가는 예를 들어 빠진 이 사이로 새는 소리, 말 중간에 침을 삼키는 버릇, 말을 할 때 턱에 힘이 들어가는 사람의 목소리 같은 것들을 가려낸다.

오웬은 기자에게 소위 단기 메모리 테이프라고 하는 것을 돌려 보여준다. 이것은 청각에 의한 음성확인의 주요한 수단이다. 접합된 테이프가 빈 라덴의 ABC 인터뷰와 거슬리는 소리가 나는 알자지라 방송의 2.5초 짜리 조각들을 끼워 맞춘다. 오웬이 귀로 찾아내려 하는 것, 즉 음성확인의 대상은 해당 음성이 포먼트 구조 특히 모음을 발음하는 방식의 특이함이다. “동일인입니다.” 오웬은 단언한다. 그는 빈 라덴의 음성이 아주 독특하다고 말하면서도 모음 발음의 특이성에 관하여 자세히 말하려 하지 않았다. 범죄자들에게 노하우를 가르쳐 주지 않겠다는 뜻이다.

비전문가인 기자의 귀에는 다스 베이더 목소리 같기도 한 것이 전혀 분간할 수가 없었다.

이 모든 게 미국에서 단 8명의 인증받은 전문가들만이 이해할 수 있는 이른바 예술과 과학이 종합된 분야로서 말로 표현하기조차 힘들다는 느낌이다. 법의학의 분야에 있어 법률가들이 우려하는 회색지대인 것이다.

“전화 협박 행위의 혐의를 억울하게 받은 사람들을 많이 보았습니다.” 미시건 주의 전직 형사 로니 스므르코프스키의 말이다. 그는 법의학 음향 분석의 공인된 대부이다. 그는 이렇게 덧붙였다. “언젠가는 자동 음성확인 장치를 만들어내야 할 겁니다.”
1980년대에 스므로코프스키는 LA카운티의 경찰국이 기울였던 노력에 큰 도움을 준 인물이다. 국립법학연구소의 자금 지원을 받은 이 프로젝트는 DNA의 분석과 같은 더 매력적인 프로젝트들이 연방 예산을 싹쓸이 해가자 2년 후 흐지부지되어 버렸다.

그러나 미국의 기업들은 음성으로 작동하는 은행 및 신용카드 계좌와 보안 시스템의 커다란 잠재성을 보고서 연구에 막대한 자금을 지원했다. 성문 기술의 선두주자 뉴앙스 커뮤니케이션스의 스피치 연구개발 팀의 래리 해크 이사는 지난 10년간 이 분야에 괄목할만한 발전이 있었다고 말한다. 그는 “우리는 사람 음성의 물리적 특성을 측정할 수 있는 알고리즘을 손에 넣었습니다. 이제 행동에 관한 부분에 진전이 이루어져야 합니다”라고 덧붙였다.

바꾸어 말하면, 제대로 된 생물측정 프로그램이라면 전문가들의 판단기준의 50%를 차지하는 스펙트럼 사진에 의한 음성분석을 능가할 수 있다는 말이다. 정교한 마이크에 대고 여러 차례 자기 이름을 반복하는 사람의 음성의 깨끗한 샘플을 확인하는 데는 이것이면 충분하다. 이상적인 상황에서 최고의 생물측정 음성 확인 시스템의 오차범위는 0.5%미만이다. 문제는 음성 샘플의 질이 좋지 않은 경우.

이제 다시 빈 라덴으로 추정되는 방송의 음성에 대한 스위스 연구소 IDIAP의 분석 결과로 돌아가보자. 이 연구소는 국제적으로 명성을 떨치고 있는 생물측정 연구소로서 15개의 리얼 리코딩을 사용하여 빈 라덴의 목소리를 인식하기 위한 음성인식 소프트웨어를 조정하였다. 연구원들은 그리고 나서 15개의 다른 빈 라덴의 진짜 육성녹음과 16개의 딴 아랍인의 음성녹음을 놓고 이 프로그램의 정확성을 시험하여 보았다. 후자 가운데는 진짜 테이프들을 의도적으로 흉내내는 사람의 녹음 두 개가 포함되어 있었다. 이 시스템을 튜닝하고 시험하기 위하여 사용한 녹음들은 그 음질상태가 양호에서 보통, 그리고 불량에 이르기까지 분포가 다양했다.

이 시스템은 빈 라덴의 것이 아닌 16개(그의 음성을 흉내낸 2개 포함)를 정확하게 잡아냈다. 그리고 빈 라덴의 진짜 음성을 담은 15개 가운데 단 한 개만 잘못 잡아냈다. 97%의 적중률. 이 시스템은 예-아니오의 결정의 경계로 양분된 그래프 상에 데이터 점들을 만들어 내어 각 판정의 정확도를 측정했다 (양분한 선에서 멀면 멀수록 결정의 수확적 확실성은 그만큼 더 높다). 결국 과연 빈 라덴의 음성을 담은 방송인지에 관한 분석은 그저 결정의 경계의 “빈 라덴의 것이 아닌” 쪽을 가리키는 데이터를 제시했다. 따라서 해당 음성이 알 카에다 두목 빈 라덴의 음성이 아닐 확률이 55내지 65%라는 결론이 나온 것이다.

IDIAP의 소장 에르브 부르라르는 이 시스템이 정확한 것이 되려면 아직 멀었다는 것을 인정하며 이렇게 말한다. “사람의 귀는 못 속여도 음성확인 시스템은 속일 수 있습니다. 반면에 성대모사로 사람의 귀를 속일 수 있는 사람들이 있습니다. 하지만 제아무리 훌륭한 성대 모사꾼이라도 컴퓨터는 못 속입니다.”또한 이 시점에서 생물측정 기법을 가지고 법의학 음성 전문가들의 능력을 보완해야지 대체할 수는 없다고 덧붙인다. 하지만 그는 컴퓨터가 앞으론 잘 훈련된 인간의 귀라도 능가할 수 있을 것이라는 점을 확신한다.

“이제 효과적인 음성 확인 컴퓨터가 분명히 나올 겁니다. 2년 후가 될지 5년 후가 될지는 모르지만요.”