d라이브러리









별걸 다 찾아주는 검색엔진

이젠 정보의 바다에서 헤매지 말자

인터넷이 활성화되면서부터 가장 인기있는 곳은 검색엔진이다.현재는 다양한 기능을 지원하는 포탈사이트로 변모했다.하지만 여전히 중심은'정보찾아주기'다.더 빠르고,더 정확하게,그리고 제대로 정보를 찾고자 하는 바램은 계속되기 때문이다.

잘알지도 못하면서 무작정 찾아나서는 경우를 빗대 ‘서울 가서 김서방 찾기’라고 한다. 이와는 반대로 대상이 분명하지만 그 범위가 워낙 넓을 때 ‘모래밭에서 바늘 찾기’라는 말로 그 어려움과 불가능함을 표현한다. 어떤 경우이건 찾아야할 것은 있는데, 단서가 없거나 찾아봐야할 범위가 너무 광범위하다면 현실적으로는 ‘찾는다’는 작업 자체가 거의 무모한 일이 될 뿐이다.

중요하든 중요하지 않든 무엇인가를 ‘찾아야 했던’ 경험은 누구에게나 다 있을 것이고, 그로 인해 크든 작든 고민을 해야 했던 일도 있을 것이다. 그런데 정보의 바다 또는 홍수라 불리는 인터넷이 우리 생활에 깊숙이 자리 잡으면서, ‘정보를 찾아야 한다’는 고민도 생활의 일부가 될 만큼 많아졌다. 때로는 인터넷에 들어가 자료나 정보라는 이름으로 포장된 골칫덩이들을 찾느라 아침부터 저녁까지 거의 하루 종일을 허비하는 경우도 종종 있을 만큼….

인터넷은 우리 생활의 여러 부분에 걸쳐 많은 변화를 가져다 주었고, 그 덕분에 전에는 불가능했던 일이 가능해지고, 불편했던 일이 편리해진 것은 사실이다. 하지만 그 대가로 많은 사람들을 늘 무언가를 찾아서 인터넷을 헤메이게 된 것도 현실이다. 현실공간에서는 쉽게 포기했을 것도 사이버공간에서는 좀처럼 쉽게 포기하지 못하기 때문에 그야말로 정보를 찾기 위해 방황하는 일이 허다하다. 이렇게 된데는 적지 않은 사람들이 인터넷에 대해 두가지 큰 착각을 하고 있기 때문이다. 바로 ‘인터넷에는 모든 것이 다 있다’와 ‘검색엔진은 뭐든지 다 찾아준다’라는 착각이다.

사방팔방에 흩어진 정보를 모으는 검색로봇


다양한 종류의 컨텐츠를 제공하는 라이코스코리아.


사실 인터넷에 얼마나 많은 정보가 있는지, 그리고 자신이 찾는 것이 과연 존재하는지를 정확히 아는 것은 불가능하다. 지금 이 순간에도 무수히 많은 홈페이지와 정보들이 새로 생겨나고 사라지고 있기 때문이다. 따라서 방금까지도 존재했던 자료가 불과 몇초 사이에 사라져 존재하지 않을 수도 있고, 새롭게 등록된 자료를 몇초 차이로 손쉽게 찾아낼 수도 있다.

이런 이유로 검색엔진의 검색 목록에는 나타난 링크를 클릭해 내용을 보려고 하면 이미 사라지거나 저장 경로가 달라져 접근할 수 없는 경우가 허다하다. 또한 분명히 존재하는 자료임에도 불구하고 몇개의 검색엔진을 통해 검색을 해도 찾지 못하는 경우도 많이 있다.

그렇다면 왜 이런 일이 일어날까. 이유는 의외로 간단하다. 인터넷 상에서 새롭게 등록되고 사라지는 웹 페이지의 양과 변화의 속도를 검색엔진이 따라가지 못하기 때문이다. 알타비스타, 네이버, 엠파스 같은 비교적 큰 규모의 검색엔진들은 검색로봇이라는 것을 이용한다. 검색로봇
은 전세계에 걸쳐있는 인터넷상의 서버들을 돌아다니며 새롭게 올라온 정보를 모아온다.

물론 로봇이라고 해서 SF영화에서 연상되는 기계적인 로봇이 아니라 여기서는 소프트웨어적인 프로그램을 의미한다. 검색로봇은 하루에 수만 또는 수십만개 이상의 홈페이지를 방문해 정보를 수집한다. 이렇게 수집된 정보는 인덱싱(indexing)이라는 색인과정을 거쳐 분류·정리돼 저장된다. 사용자가 검색창에 검색어를 입력하면 이렇게 만들어진 데이터베이스에서 관련된 정보 목록을 출력해준다.

따라서 검색로봇이 미처 정보를 수집해오지 못한 곳에 정보가 있거나, 홈페이지 내용이 바뀌었는데도 불구하고 검색로봇이 변경된 홈페이지를 다시 방문하지 못했다면 당연히 검색을 못하거나 잘못된 결과가 나올 수밖에 없다. 게다가 전문 데이터베이스의 경우는 검색로봇의 접근을 허용하지 않는 경우가 적지 않기 때문에 정보로 중요한 가치가 있는 자료들은 일반적인 검색엔진으로는 검색할 수 없는 경우가 생긴다.

이러한 이유로 검색엔진이나 서비스의 성능을 평가할 때 검색로봇과 색인과정이 얼마나 빠르고 정확하게 잘 돼있는지가 중요한 요소로 작용한다. 그래서 검색로봇이 얼마나 빠르게, 많은 웹서버를 방문해서 새로운 정보를 가져오는지, 색인과정에서 얼마나 효율적으로 정보들이 분류되고 적절한 검색어를 통해 찾을 수 있도록 해주는 지가 무척이나 중요하다.

하지만 현실적으로 인터넷상에 존재하는 수백만대의 컴퓨터를 방문해 정보를 수집하는데는 아무리 빠르고 정확한 검색로봇이라도 한계가 있기 마련이다. 이러한 한계를 극복하기 위해 검색엔진들은 나름대로 자기들만의 노하우와 알고리즘을 적용한 검색로봇과 인덱스시스템을 개발해 운영하고 있다.

최근에는 기존의 검색엔진보다 한단계 진보해 자연어검색이나 감성검색이라는 개념을 도입해 좀더 쉽고, 정확한 결과를 얻을 수 있도록 한 검색엔진들이 주목을 받고 있다. 또한 인터넷의 사용범위가 넓어지고, 인터넷이 단순한 네트워크로서의 기능뿐만 아니라 미디어와 커뮤니티로서의 기능을 갖게 되면서 검색대상에 따라 차별화된 전문검색서비스를 제공하는 것도 일반적
인 추세다.

그러나 ‘구슬이 서말이라도 꿰야 보배’라 했듯 아무리 성능 좋은 검색엔진들이 계속해서 개발되고 서비스된다고 하더라도, 이를 사용하는 사람이 정확히 사용할 줄 모른다면 효과를 기대하기 어렵다. 더구나 앞에서 말한대로 검색엔진들이 가지고 있는 단점과 제한을 극복하고 원하는 자료를 좀더 빠르고 정확하게 찾기 위해서는 검색엔진 사용법을 익히고, 목적에 맞는 검색엔진을 사용하는 것도 필요하지만, 그 이전에 검색엔진의 종류와 특징에 대해 이해하는 것도 중요하다.


대표적인 메뉴형 검색엔진 야후.


초보자에게 적합한 메뉴형과 키워드형
 

빠른 검색기능이 장점인 알타포탈.


일정한 주제별로 정보를 분류해 놓고 상위 메뉴에서 하위 메뉴로 접근해 가면서 원하는 정보를 찾는 방식이 메뉴형 검색엔진이다. 이렇게 주제별로 나누어진 각각의 영역을 디렉토리(directory) 또는 카테고리라고 하며, 그래서 디렉토리 검색서비스라고도 부른다. 메뉴형 검색엔진의 대표적인 것으로 야후(www.yahoo.com)와 라이코스(www. lycos.com) 등이 있다.

도서관에서 주제별로 분류돼 있는 책을 찾는 것과 비슷한 방식이다. 이것은 검색하고자 하는 정보에 대해 알고 있는 사실이 부족해서 주제어나 키워드를 통해 직접 검색할 수 없을 때 사용한다.

예를 들어 과학잡지에는 어떤 것들이 있는지 알고 싶어서 검색어를 ‘과학잡지’로 하면 사이트 설명중에 ‘과학’과 ‘잡지’가 따로 들어간 사이트와 ‘과학잡지’가 들어간 단어를 모두 찾아준다. 그런데 정작 필요로 하는 과학잡지들을 제대로 찾아주지 못한다. 이때 ‘자연과학>;뉴스와 미디어>;잡지’ 단계의 디렉토리 방식으로 접근하면 과학과 관련된 많은 잡지들을 볼 수 있다.

이렇게 디렉토리에 등록되는 자료는 대부분 사람이 직접 분류해서 등록한다. 따라서 등록된 자료의 검색정확도가 높다. 키워드를 입력해서 직접 찾을 경우 좀더 빨리 찾을 수도 있다. 하지만 일일이 사람이 등록하기 때문에 자료갱신이 늦고 자료도 많지 않아 다양한 정보를 찾기 어려운 단점이 있다.

반면 사용자가 찾고 싶은 정보에 대한 내용을 검색창에 입력하면, 검색로봇에 의해 수집된 데이터를 기반으로 결과를 출력해주는 검색엔진이 있다. 이때 원하는 정보를 찾기 위해 입력하는 단어를 검색어 또는 키워드라고 하는데 이 때문에 키워드형 검색엔진이라고 부른다. 이런 키워드형 검색엔진으로는 알타비스타(www.altavista.com), 익사이트(www.excite.com), 인포시크의 새로운 이름 ‘고’(www.go.com), 국내의 심마니(www. simmani.com), 한미르(www.hanmir. com) 등을 꼽을 수 있다.


발음,한자,유의어 확장 등으로 한글 검색에 강한 것으로 알려진 심마니.


이것은 사용자가 찾고자 하는 정보에 대한 특징이나 주제어를 입력하면 바로 원하는 검색결과를 얻을 수 있다. 하지만 주제어가 너무 보편적이고 광범위할 경우 필요없는 정보들까지 나열되기 때문에 정작 원하는 정보를 찾는 것이 쉽지 않은 경우가 종종 있다. 이때 다양한 종류의 연산자를 사용하면 좀더 세밀한 검색조건을 가지고 원하는 정보를 찾는 것이 가능하다.

알타비스타에서 한식 요리에 대한 정보를 찾을 때 ‘한식요리’라는 검색어를 사용하는 것보다 ‘요리 + 한식 - 일식 - 양식’ 이렇게 입력하면 좀더 필요로 하는 자료를 찾기 쉽다. ‘요리’라는 정보가 있는 사이트 중에서 ‘한식’은 꼭 들어가고(+), 일식과 양식은 꼭 빠져야한다(-)는 옵션을 이용하는 방법이다. 하지만 각 엔진별로 옵션과 방식이 다르고, 분야와 용어에 따라서 적용되는 방법이 다르기 때문에 제대로 활용하려면 각 엔진에서 제공하는 도움말을 참조할 필요가 있다.

사운드와 동영상까지 찾아주는 통합형

키워드형 검색엔진이라 하더라도 요즘에는 메뉴형 검색엔진처럼 디렉토리서비스도 함께 제공하는 것이 일반적이다. 또한 단순히 디렉토리나 웹에서 문서 형태의 자료만 검색하는 것이 아니라 MP3와 같은 사운드 파일이나 이미지, 동영상과 같은 자료도 검색해주는 검색엔진도 적지않다. 그래서 요즘에 사용되는 대부분의 검색엔진들을 통합형 검색엔진이라고 부르기도 한다.

예를 들면 네이버(www.naver.com)에서는 국내외 웹문서 뿐만 아니라 신문, 지도, 영어사전 검색기능에 이미지와 사운드 관련파일을 검색할 수 있다. 라이코스코리아 홈페이지에서는 음악이나 비디오 같은 멀티미디어 파일을 찾아볼 수 있고, 알타비스타 코리아에서는 채널별로 나누어진 검색 메뉴에서 이미지, 오디오, 비디오에 대한 검색기능을 제공한다. 한미르의 경우에는 처음에는 전화번호 검색서비스에서 출발해, 지금은 동영상이나 이미지 자료는 물론 일본의 웹사이트를 검색 또는 접속해 실시간으로 번역해 주는 서비스까지 제공하고 있다.

최근에는 여기서 한발 더아가 기존의 검색엔진이 갖는 단순한 검색기능 뿐만 아니라 다양한 종류의 정보서비스와 부가서비스를 제공하는 포털 사이트 개념의 검색엔진서비스가 주류를 이루고 있다. 그래서 메뉴형이든 키워드형이든, 아니면 통합형 검색엔진이든 검색은 기본이고, 메일이나 메신저서비스, 커뮤니티나 쇼핑이나 경매 같은 토털서비스 개념을 도입하고 있다. 따라서 사용자 입장에서는 더욱 편해지고 다양해진 검색 기능과 함께 여러가지 특화된 부가서비스를 무료로 이용할 수 있다는 장점도 있다.

다른 엔진 이용하는 메타형

대부분의 검색엔진들이 스스로 구축한 데이터베이스를 기반으로 정보를 검색하는데 반해 메타 검색엔진은 자체적으로 만든 데이터베이스 자료가 없다. 대신 다른 여러가지 검색엔진을 사용해 원하는 정보를 검색한다. 즉 사용자가 키워드를 입력하고 검색명령을 내리면 야후나 알타비스타 같은 여러종류의 검색엔진을 통해 자료를 찾아준다. 따라서 필요한 정보를 찾기 위해 서로 다른 검색엔진을 찾아다닐 필요가 없어 편리하다. 해외의 메타 검색엔진으로는 서치(www. search.com)가 잘 알려져 있으며, 국내 검색엔진에는 미스다찾니(www.mochanni.com), 와카노(www. wakano.com) 등이 대표적이다.

메타 검색엔진의 단점은 여러종류의 검색엔진에서 검색하기 때문에 출력결과가 많아진다. 따라서 사용자가 일일이 검토해야할 내용이 많아져 오히려 더 불편해지기도 한다. 이런 단점을 보완하기 위해 와카노는 검색한 컨텐츠를 실시간으로 분류해주는 기능을 제공한다. 즉 사용자가 입력한 키워드에 맞게 검색한 후, 이를 세분화된 주제로 분류해서 보여줘 원하는 정보를 좀더 쉽게 찾을 수 있다.

희야(www.heeya.com)는 도메인 네임, 상장기업정보, 학술정보 등 10여 종류의 국내 전문 DB를 직접 검색할 수 있는 기능을 제공하기도 한다. 특히 세분화된 검색 분야를 사용자가 선택해 검색하기 때문에 원하는 검색결과를 얻기 쉽다.

인간 감성을 포착하는 지능형

앞에서 설명한 검색엔진들이 단어형태의 키워드를 통해 검색한다면 이번에 얘기할 지능형 검색엔진은 문장형태의 자연어검색이 가능한 것이 특징이다. 즉 2002년 월드컵의 개막일을 검색한다고 가정했을 때 키워드 형태의 검색엔진에서는 2002년, 월드컵, 개막일이란 단어를 AND 연산자를 이용해 검색해야 한다. 또는 한단어를 가지고 검색한 후 결과나 나오면 그 결과 내에서 그 다음 단어를 입력하는 방식으로 검색해야 한다.

그러나 자연어검색 기능을 지원하는 국내의 네이버나 엠파스(www.empas.com)와 같은 검색엔진을 사용하면 ‘2002년 월드컵 개막일은?’과 같이 입력해서 검색하는 것이 가능하다. 특히 ‘세계에서 제일 높은 활화산은?’처럼 형용사나 부사 형태의 수식어가 포함된 경우, 한단어의 키워드로 표현하기 힘든 자료를 검색할 때 이러한 지능형 검색엔진은 진가를 발휘한다. 원리를 단순화시켜보면 명사형 단어인 ‘세계’, ‘활화산’이라는 단어와 부사인 ‘제일’, 형용사인 ‘높은’이라는 단어를 분리·조합해서, 이들 단어가 모두 포함된 정보를 찾아주는 방식이다.

자연어검색 기능을 지원하는 해외 검색엔진으로는 1월호 넷핫에서 소개했던 애스크지브스(www.askjeeves.com)가 있다. 최근에는 서브젝스(www.subjex.com)처럼 마치 대화하듯 질문을 입력하면서 차례대로 검색을 하는 대화형 검색엔진도 등장하고 있다.

이밖에도 검색한 결과에서 적합성이 높은 자료를 우선적으로 보여주는 검색엔진들도 주목 받는 새로운 검색엔진들이다. 미국의 구글(www.google.com)과 국내의 부바(www. booba.co.kr)가 바로 그들이다. 만약 자동차라는 단어로 키워드형 검색엔진에서 검색할 경우 자동차라는 단어가 들어간 모든 문서와 링크를 찾아준다. 하지만 부바를 통해 검색하면 제일 먼저 국내의 각 자동차 회사와 자동차 보험회사처럼 자동차와 직접적으로 관련된 정보부터 보여준다.

아울러 국내에서는 현재 이보다 진보된 다양한 형태의 지능형 검색엔진이 개발중인 것으로 알려져 있는데, 머지않아 단어의 상관관계나 유형은 물론 감성까지도 적용해 검색하는 엔진이 실현될 것으로 보인다. ‘비가 올 때 마시는 차는?’이라는 식으로 검색을 하면 ‘비’라는 단어가 연상시키는 ‘슬프고 우울한’ 또는 ‘우수어림’이라는 의미로 적용돼 언어에 담긴 감성까지 고려해서 검색되는 것이다. 또한 사용자가 주로 접속하는 사이트를 분석하고 학습시켜 원하는 취향에 맞는 웹사이트를 구성해주는 검색엔진도 등장할 것으로 보인다.

한가지 주제를 집중탐구하는 전문형


가격비교 검색엔진 야비스.


인터넷 정보가 갈수록 다양해지고 전문화되면서 검색엔진도 자연스럽게 이런 흐름을 따라가고 있다. 그래서 최근에는 한가지 주제만 가지고 검색기능을 제공하는 검색엔진도 많이 생겨나고 있다.

뉴스그룹을 대상으로 정보를 검색해주는 데자뉴스(www.dejanews.com), 미국내 기업들의 주소나 전화번호를 찾아볼 수 있는 빅북(www.bigbook.com), 의료관련 정보를 찾아주는 메디서치(medisearch.medikorea. net), 정부나 기업의 입찰공고 내용만을 검색해주는 이비드캐스트(www.ebidcast.co.kr) 등이 그 좋은 예이다. 인터넷을 통해 전화번호를 쉽게 찾아볼 수 있는 한미르(www. hanmir.com)나 신문기사 검색을 제공하는 카인즈(www.kinds.or.kr)도 손꼽히는 전문 검색엔진들이다. 카인즈나 한미르 같은 검색엔진들은 웹상에 있는 자료를 검색해주는 경우보다 자체적으로 구축한 해당자료 데이타베이스에서 검색된 내용을 제공한다.

또한 인터넷 대화방에서 정보를 검색할 수 있는 챗파인드(www.chatfind.co.kr), MP3 파일만을 검색할 수 있는 포커스MP3(www. focusmp3.com), 홈페이지를 만드는데 필요한 아이콘만 검색해 볼 수 있는 아이콘페이지(www.iconpage.co.kr)나 각종 결혼관련정보를 쉽게 찾아볼 수 있는 웨드마트(www. wedmart.co.kr)처럼 약간은 이색적인 전문 검색엔진도 있다.

한편 인터넷을 통한 온라인 쇼핑이 점차 확대되면서 각종 인터넷 쇼핑 사이트가 생겨나고 있는데, 워낙 많은 종류의 홈페이지가 있다보니 이곳저곳을 찾아다니며 가격을 비교하는 일이 그리 쉬운 일이 아니다. 이런 점에 착안해 구입하고자 하는 물품을 입력하고 검색하면, 인터넷 쇼핑몰로부터 자료를 검색해 가격을 비교해주는 검색엔진도 큰 인기를 얻고 있다. 이런 유형의 검색엔진으로는 야비스(www.yavis.com), 샵바인더(www. shopbinder.com) 등이 있다.

사용자끼리 직접 연결되는 P2P형


국산 냅스터 프로그램인 소리바다의 홈페이지.


마지막으로 인터넷상의 서버나 홈페이지를 거치지 않고 사용자 개인의 PC에 직접 접속해서 원하는 파일을 받는 P2P형 검색 프로그램을 소개한다. P2P(Peer to Peer)는 두대의 컴퓨터를 직접 연결한다는 의미로, 서버나 홈페이지를 통하지 않고 접속프로그램만 설치하면 같은 프로그램으로 접속한 사용자 그룹에서 원하는 파일을 검색할 수 있다. MP3 파일을 검색해 다운받을 수 있는 냅스터(www.napster.com)나 소리바다(www. soribada.com)가 대표적인 P2P형 검색프로그램에 속한다.

MP3처럼 저작권이 있는 자료를 웹사이트에서 공개할 경우 불법이지만 개인이 자신의 컴퓨터에 가지고 있는 경우는 합법적이다. P2P는 개인이 가지고 있는 자료를 직접 다운받을 수 있도록 해 ‘개인 대 개인’ 관계로 법적인 울타리를 벗어날 수 있도록 하는 방식이다.

하지만 얼마전 냅스터는 미국 법원으로부터 음악저작권을 침해했다는 이유로 폐쇄결정이 내려졌다. 비록 개인 대 개인일지라도 인터넷을 통해 파일이 공유돼 저작권이 훼손되기 때문이다. 따라서 국산프로그램인 소리바다 역시 머지않아 비슷한 운명에 처할 것이라는 견해가 지배적이다. 이밖에도 동영상, 이미지, 오디오 파일들의 멀티미디어 프로그램을 검색해 다운받을 수 있는 아이메시(www.imesh.com), 동영상이나 오디오는 물론 텍스트나, 바이너리 형태의 문서까지 파일을 공유할 수 있는 그누텔라(gnutella. wego.com) 등이 있다. 참고로 그누텔라는 리눅스 기반의 프로젝트로 윈도용 프로그램은 그누텔라의 클론이라고 할 수 있는 그노텔라(gnotella.nerdherd.net)에서 구할 수 있다. 그누텔라와 비슷한 국내 프로그램으로는 씨프렌드(www.seefriend.co.kr)에서 제공하는 P2Pweb이 있으며, 역시 동영상이나 문서 등을 다른 사용자의 PC와 주고 받을 수 있다.

인터넷의 규모나 사용자가 날로 증가하면서 저장된 정보의 양도 기하급수적으로 늘어나고 있다. 그래서 이제는 노하우(Know How)가 아닌 노웨어(Know Where)의 시대라고도 한다. 그만큼 자신이나 회사에서 필요로 하는 양질의 정보가 어디 있는지 찾아내는 일이 중요해지고 있다는 의미이다. 이런 상황에서 검색엔진은 인터넷 사용을 위해 꼭 필요한 도구임이 틀림없다. 상황에 따라 적합한 검색엔진을 제대로 선택해 정확한 키워드를 가지고 검색할 수 있는 사용자의 능력도 중요하다.

인터넷을 검색하면서 늘 원하는 정보를 찾기 위해 적지 않은 시간을 허비하고,정보를 찾지 못해 짜증내는 일이 많았던 독자라면 이번기회에 검색엔진 한두개 쯤은 완벽하게 활용할 수 있는 검색 실력을 길러보기를 권한다.

2000년 09월 과학동아 정보

  • 김달훈 객원기자

🎓️ 진로 추천

  • 컴퓨터공학
  • 문헌정보학
  • 소프트웨어공학
이 기사를 읽은 분이 본
다른 인기기사는?