인터넷 이용자라면 누구나 한번쯤 검색엔진 앞에서 좌절감을 맛봤을 것이다. 기껏 단어를 쳐 넣으면 「그런 사이트는 없다」라고 하기 일쑤다. 아니면 수백개의 사이트를 한꺼번에 토해 놓고선 「찾아보든, 말든 마음대로 하라」는 식으로 나온다.이용자들은 그럴 때도 검색엔진에 대해 불평하지 않는다. 모두들 「내가 검색어를 잘못 쳐 넣었겠지」하고 잠시 반성한다. 다시 다른 단어로 바꿔서 쳐 넣어본다. 그렇게 몇번을 계속해본다. 그래도 원하는 곳을 찾지 못하면 「그런 사이트는 없나보다」 하고 얌전히 포기한다. 마치 사전에서 찾을 수 없는 단어를 「없는 말」로 생각하듯, 검색엔진이 찾지 못하는 사이트는 「없는」 사이트로 받아들이고 만다.
검색엔진에 대한 맹목적인 신뢰는 검색엔진을 「인터넷의 대명사」로 만들었다. 「인터넷」 하면 제일 먼저 떠오르는 단어로 사람들은 주저없이 야후·알타비스타·라이코스 같은 검색엔진을 꼽는다. 인터넷에 접속하면 제일 먼저 찾는 곳도 검색엔진이다. 최고의 인터넷 기업으로 꼽히는 야후도 검색엔진을 빼면 아무것도 아니다. 검색엔진 없이 인터넷을 누빈다는 것은 상상도 할 수 없는 일이 돼버렸다. 검색엔진은 이제 사이버 세상에서 「법」이고, 「힘」이며, 「진리」가 되다시피 했다.
◇검색엔진은 사전이 아니다.
인터넷에 떠다니는 정보는 대략 9억 페이지 정도. 매일 생겨나는 사이트만도 수만개에 이른다. 이들을 모두 등록, 분류 한다는 것은 불가능에 가깝다. 자 료 창고에 정보가 쌓일수록 검색 속도가 느려지는 것도 문제. 그래서 검색엔진의 검색률은 해마다 떨어진다. 매일 수천개의 단어가 새로 생긴다면 사전이 사전 노릇을 제대로 할 수 있을까.
지난 7월 미국 NEC 연구소가 발표한 자료에 따르면 가장 우수한 엔진의 검색률도 16%를 넘지 못했다. 10개 중 단 두개도 제대로 못 찾는다는 뜻이다. 실험에 동원된 11개의 검색엔진을 모두 가동해도 43% 밖에는 찾지 못했다. 검색엔진들도 찾아내지 못하는 「인터넷의 사차원 공간」이 존재하는 것이다.
이런 공간은 왜 생길까. 한마디로, 검색엔진의 힘이 딸리기 때문이다.
검색엔진들은 대부분 자체적으로 운영하는 「서치로봇」 군단을 거느리고 있다. 이들의 임무는 매일 인터넷의 바다로 나가서 정보를 긁어 오는 것. 서로 연결된 페이지들을 오가면서 새로 생긴 정보를 찾아 자료 창고에 쌓는다. 물론 사이트를 개설한 사람이 직접 검색엔진회사에 신고하는 경우도 많다.
그러나 서로 연결결되지도 않고, 주인이 신고도 하지 않은 사이트는 찾을 길이 없다. 서치로봇이 우연히 던진 그물에 걸리기를 기대하는 수 밖에는 다른 방법이 없다.
문제는 이 서치로봇들이 접근하지 못하는 공간이 있다는 것. 각종 전문 DB 사이트들이 바로 그것이다. 가까운 예로 한국언론재단에서 운영하는 카인즈(WWW.KINDS.OR,KR)라는 사이트는 모든 일간지의 기사 전문을 무료로 제공한다. 누구나 이 사이트로 들어가면 신문이나 잡지의 기사를 검색할 수 있다. 그러나 이곳은 서치로봇의 접근을 허용하지 않는다. 무료로 제공하기는 하지만 이곳에 직접 와서 가져가라는 것이다. 전세계적으로 이런 전문 DB 사이트는 10만개가 넘는다. 여기에 있는 정보를 이용하려면 전문 DB의 주소를 모두 외우고 있거나, 전문 DB만 검색하는 엔진들을 이용해야 한다.
◇정보를 걸러내는 보이지 않는 손
야후 같은 「디렉토리 방식」의 검색엔진으로 넘어가면 검색률은 더욱 낮아진다. 디렉토리 방식이란 사람이 직접 사이트를 방문, 내용을 평가한 뒤 등록 여부를 결정하는 것이다. 사람이 일일이 분류하다 보니 등록심사에 걸리는 시간이 길면 서너달씩 걸리기도 한다. 야후는 이 경우 199달러의 「급행료」를 받고 우선적으로 처리해 주는 「퀵 서비스」도 운영하고 있다. 어쨌든 검색엔진에 등록되지 못하면 애써 만든 홈페이지가 망망대해의 무인도로 전락하게 되니 억울해도 할 수 없다. 등록을 원하는 수요는 넘치고 유명한 검색엔진은 몇 개 안되기 때문이다.
게다가 심사과정에서 30%가 넘는 사이트들이 탈락한다. 과연 어떤 사이트들이 탈락할까? 부실 사이트만이 탈락하는 것은 아니다. 예를 들어 그룹 HOT 와 관련된 사이트가 이미 10개 정도 등록돼 있다면 HOT에 관한 새 사이트는 웬만하면 거부당하기 쉽다. 대신, 룰라에 대한 정보가 야후에 없다면 룰라를 다룬 사이트는 쉽게 등록된다.
이 모든 과정에 숨은 야후의 원칙은 「디렉토리의 다양성을 강화한다」는 것이다. 여기저기 흩어진 정보를 찾아주는 성실하고 고마운 하인으로 생각했던 검색엔진이 어느새 사용자의 머리에 올라 앉아 멋대로 「가로채기」를 하기도 한다. 검색엔진을 제대로 사용하지 못하면 그들이 보여주는 정보만 받아먹는 식물인간으로 전락할 수도 있는 문제가 있다. 방법은 하나. 한, 두개의 엔진이 전횡하지 못하도록 여러 엔진을 골고루 사용하는 수 밖에 없다.
◇복잡한 검색방법, 차라리 날 미치게 하라
검색엔진들의 성능은 그야말로 도토리 키재기. 그래서 원하는 정보를 찾으려면 여러가지 검색엔진을 사용할 수 밖에 없다. 그런데 이 「도토리」들이 제공하는 연산자 즉, 그리고(AND) 또는(OR) 아님(NOT)을 나타내는 기호들이 제각각이다.
수첩에 적어놓고 다니지 않으면 찾을 때마다 도움말을 봐야 한다. 사전마다 각각 다른 알파벳 순서를 적용하는 셈이다.
◇스스로 눈을 떠야 정보가 보인다.
전세계엔 400개가 넘는 검색엔진이 있다. 국산 검색엔진도 20개가 넘는다. 검색엔진은 제각기 장단점과 고유 영역을 갖고 있다.
전문DB 검색엔진 서비스를 제공하는 ㈜칼텍스의 김화수 실장은 『아무 검색엔진이나 붙잡고 정보를 내놓으라고 할 게 아니라 용도에 맞는 엔진을 골라 쓸 줄 알아야 한다』며 다양한 검색엔진 사용을 권했다.
이진우기자MALLIAN@SED.CO.KR