d라이브러리









당신도 인터넷 전문검색사

서치엔진 100%활용법

인터넷 어딘가에 있는 '내게 꼭 필요한 정보'를 찾아내기란 쉽지않은 일이지만, 생각하기에 따라서는 어렵지도 않은 일이다. 정보의 바다를 헤쳐가면서 최단 시간에 목적지에 닿을 수 있는 지름길을 찾아보자.
 

자연어 처리가 가능한 한글 검색 엔진 줌.
 

활용자 입장에서 보자면 전세계의 수백만개 사이트로 이루어진 인터넷은 수십만권의 책을 소장한 도서관과 유사하다. “정리되지 않은 수많은 정보는 없는 것과 마찬가지다”라는 말이 있듯이, 어떤 책이나 정보가 어디에 있는지 정리돼 있지 않다면 무용지물이기 때문이다.

인터넷 사용자와 개발자들은 발생 초기부터 이같은 문제를 해결하기 위해서 많은 노력을 기울여왔다. 월드와이드웹이 활성화되지 않았던 시절, 파일 형식으로 된 정보들이 인터넷을 가득 채웠던 무렵에는 아키(Archie)라는 공개서버가 정보 찾기를 도와주었다. 그러나 웹이 인터넷의 중심이 되면서 아키 서버로서는 찾을 수 없는 정보가 너무 많아졌고, 웹을 중심으로 정보를 찾아주는 인터넷상의 기계와 소프트웨어가 각광을 받고 있다. 이것이 바로 서치엔진이다.

서치엔진은 로봇(물론 소프트웨어)과 그 로봇이 보고한 정보를 정리한 데이터베이스로 구분된다. 로봇은 인터넷을 돌아다니면서 새로 만들어진 홈페이지나 그 홈페이지의 내용을 서치엔진에 보고하고, 서치엔진의 데이터베이스는 로봇이 제공한 정보를 하나 하나 정리해 두고 있다가 사용자의 요구에 맞추어 원하는 정보를 찾을 수 있도록 한다.

하지만 서치엔진을 사용하려면 여러가지 답답한 문제에 부딪히게 된다. 가장 첫번째 문제는 역설적이게도 너무 많은 서치엔진 때문에 일어난다. 현재 전 세계적으로 약 20여개의 서치엔진이 널리 사용되고 있는데, 초보자의 입장에서 보자면 어떤 서치엔진을 선택해 정보를 찾아야 할지 혼란스럽다.

다행스럽게도 대개의 서치엔진은 비슷한 사용법을 요구하기 때문에 한 서치엔진을 사용해본 사용자라면 어떤 서치엔진에서도 원하는 정보를 찾을 수 있다. 검색식 역시 and, or 수준을 벗어나지 못한다. 또 한번 옵션기능이나 심화(advanced)기능을 이용해서 정보검색을 해본 사용자라면 다른 서치엔진에서도 얼마든지 어렵지 않게 원하는 정보를 찾을 수 있다.

대표적인 검색엔진
 

인터넷에서 손쉽게 정보를 찾는 방법은 먼저 서치엔진의 성격을 파악하는 것이다.왼쪽은 통합서치엔진사이트인 www.search.com이고 오른쪽은 야후의 화면.
 

알타비스타 http://www.altavista.digital.com

인터넷에서 가장 인기를 끌고 있는 서치엔진. 엄청난 양의 정보를 가지고 있으며 어떤 서치엔진에도 뒤지지 않는 빠른 검색 속도를 자랑한다. 특히 한글이나 중국어와 같은 2바이트 문자를 검색식에 사용할 수 있다는 것은 빼놓을 수 없는 장점이다. 실제로 동일한 검색에 대해 우리나라에서 운영하는 한글 서치엔진보다 알타비스타에서 찾은 정보가 훨씬 많다.

야후 http://www.yahoo.com

전화번호부처럼 각 분야가 잘 정리돼 있는 서치엔진으로, 초보자들이 사용하기에 알맞다. 야후는 서치엔진 중에서도 ‘인터넷 디렉토리 서비스’라고 불리는데, 마치 하드디스크의 디렉토리처럼 관련된 정보를 일목요연하게 나열하고 있다.

그렇다고 해서 야후가 서치엔진으로서의 역할이 떨어지는 것은 절대 아니다. 완벽한 디렉토리서비스를 제공하면서도 상당히 강력한 서치엔진(알타비스타와 거의 동일한 것을 디지털사에서 구입해서 사용하고 있음)을 제공하고 있다.

라이코스 http://www.lycos.com

라이코스는 작년에 열린 한 정보사냥대회 우승자 때문에 유명해진 서치엔진이다. 이제는 다른 서치엔진들도 연관정보 찾아내기 기능을 포함하고 있어 라이코스만의 특징만은 아니지만, 연관정보를 찾아내는데 여전히 특출난 기능을 가지고 있다.

라이코스는 또한 흥미로운 뉴스거리가 많은 서치엔진이다. 동영상과 이미지 찾기, 미국 내의 도시소개, 인터넷 뉴스 등의 부가기능을 제공하고 있어 무미건조한 서치엔진에 질린 사용자라면 한번 찾아보는 것도 좋을 것이다.

인포시크 http://www.infoseek.com

넷스케이프에서 기본적으로 제공하던 서치엔진이었는데, 요즘들어 사용이 뜸해지고 있다. 인포시크의 가장 큰 장점은 자세한 설명에 있다. 즉 어떠한 사이트를 찾아냈으면 출력한 해당 사이트에 대해 무척 자세한 설명을 달아주기 때문에 쉽게 원하는 정보를 찾을 수 있다.

이외에도 인포시크는 웹페이지와 유즈넷 뉴스그룹기사를 검색해주며 웹사이트와 고퍼, FTP 등에서 주요 사이트를 모아 주제별로 목록을 제공한다. 검색료를 받고 보다 고급 정보를 제공하기도 한다.

한편 최근들어 국내에도 한글 사이트를 전문적으로 검색해 주는 서치엔진이 속속 등장하고 있다. 물론 알타비스타같은 서치엔진에서는 한글처리가 되지만, 철저하게 2진코드를 기준으로 삼기 때문에 한국어를 입력하면 한국어 뿐만 아니라 중국어 일본어까지 몽땅 출력돼 짜증을 안겨주기도 한다.

한글 검색이 가능한 서치엔진들도 각각 독특한 특성을 가지고 있다. 이를테면 국내에서 가장 유명한 한글사이트 서치엔진인 심마니(http://simmany.hnc.net)는 한글과컴퓨터에서 개발한 한글정보검색시스템으로, 디렉토리서비스와 서치엔진을 적절하게 혼합해놓은 듯한 모습을 하고 있다.

또 한메소프트가 개발한 서치엔진인 줌(http://zoom.cyso.net)은 자연어 처리가 가능하다. 이외의 국내 검색엔진으로는 대구대학교에서 만든 단어 중심의 정보 검색 엔진 까치네(taegu.ac.kr/ka), 충남대학교에서 개발한 코-시크(http://kor-seek.chungnam.ac.kr/cgi-bin/korea) 등이 있다.

서치엔진 본격 활용 룰

예를 들어 ‘game’이라는 주제로 알타비스타에서 정보를 조회해보면 약 5만여건의 결과물이 나온다. 아무 것도 모르는 것과 5만여건의 자료를 다 뒤져보는 것은 사실상 별 차이가 없다. 일일이 뒤져볼 수 없기 때문에 무의미하긴 마찬가지다. 물론 야후나 라이코스 등의 사이트도 거의 대등한 결과물을 나타낸다. 이같은 일을 막기 위해서는 다음과 같은 서치엔진 활용 기본 룰을 세우는 것이 유익할 것이다.

1. 주제어와 and로 연관시킬 수 있는 단어를 최대한 여러개 생각한다.

인터넷에서 정보를 찾기 위해서 돌아다니면서 겪는 가장 큰 문제는 궁금한 것은 너무도 단순한데 비해 출력되는 결과물은 매우 방대하다는 사실이다. 이럴 때 결과물을 콤팩트하게 만드는 방법은 2가지다. 하나는 거의 쓰지 않는 키워드를 입력해서 결과물을 얻는 것이고, 다른 하나는 주제어를 여러개 만들어두고, 이것을 ‘and’로 연결시켜 정보의 범위를 좁혀나가는 것이다.

예를 들어 요즘 한창 관심이 무르익고 있는 칼리(kali)에 대한 정보를 찾는다고 하자. 칼리란 인터넷에서 ipx(노벨 네트웨어의 기본 프로토콜)를 사용할 수 있게끔 해서 네트워크 게임을 즐길 수 있도록 해주는 프로그램. 칼리를 이용해 인터넷에서 다른 사용자와 게임을 하고 싶다면 당연히 ‘kali’를 키워드로 사용한다. 여기에 칼리의 용도가 다중 사용자(멀티플레이어) 게임을 위한 것이므로 ‘multi’라는 단어를 추가시키는 것이다. 이렇게 결정했다면 ‘Advanced Search’로 이동한 후에 검색식을 만들어 넣으면 된다.

2. 일단 국내 사이트를 돌아다니면서 적당한 영문 키워드를 찾는다.

원하는 정보를 찾기 위해서 반드시 입력해야 할 영문키워드로 무엇을 넣어야 할지 고민할 때가 종종 있다. 이럴 때는 국내 사이트를 돌아다니면서 원하는 영문키워드를 얻도록 한다.

게임에 대해 궁금한 것이 있으면 일단 국내 사이트에서 ‘게임’이라는 키워드로 원하는 정보를 찾고, 그 정보 안에 있는 영문자 키워드나 필요한 연관정보를 찾는 것이다. 국내사이트에서 연관단어를 발견한 후 외국의 서치엔진에 접속하면 보다 쉽게 원하는 정보를 찾을 수 있다. and, or와 같은 검색식을 이용해야 함은 물론이다.

3. 전문적으로 서치를 다루는 사이트를 이용한다.

앞에서 살펴보았듯이 알타비스타는 방대한 데이터베이스, 인포시크는 자세한 설명, 야후는 연관정보를 쉽게 찾을 수 있다는 점 등 각 서치엔진은 모두 특징이 있다. 하지만 이때마다 해당 사이트에 접속해서 결과를 찾아본다는 것은 상당히 귀찮은 일이다.

이때 www.search.com 사이트는 대단히 유용하다. 모든 서치 엔진을 한 곳에 모아 둔 이곳은 대부분의 서치엔진 사이트를 일일이 돌아다니지 않고 쉽게 원하는 정보를 찾을 수 있다. www.search.com을 이용하면 서치엔진뿐만 아니라, 파일이나 원하는 프로그램을 서치할 수도 있어서 여러 모로 편리하다.

국내 사이트의 경우에도 비슷한 서비스가 존재한다. 바로 ‘미스 다찾니’ 사이트(http://www.interpark.com/dachanni/index.ks.html)인데, 이 사이트를 이용하면 쉽게 원하는 정보를 얻을 수 있다. 한번 검색으로 국내외의 여러 검색엔진을 이용하는 효과를 얻으실 수 있는 통합 정보 검색엔진인 미스 다찾니는 현재 한글 검색은 심마니, 정보탐정, 까치네, 코시크, 그리고 알타비스타에 의뢰하며, 영문 검색은 알타비스타, 익사이트, 인포시크, 그리고 라이코스에 의뢰해 처리한다.

4. 정보찾기를 쉽게 해결해주는 소프트웨어를 사용한다.

필자는 요즈음 노턴 유틸리티로 유명한 시맨텍(Symantec)사에서 나온 ‘Internet Fast Find’라는 소프트웨어를 애용하고 있다. 이 소프트웨어는 웹에 대한 정보와 인터넷에 있는 파일정보를 보여주는데, 그 아이디어와 기능이 굉장히 뛰어나다.

특히 사용자가 관심있어 하는 사이트를 지정하면 그 사이트의 바뀐 내용이나 추가된 사이트를 추적해서 사용자에게 알려준다. 이는 이전에 인터넷을 쉽게 사용할 수 있도록 해주는 소프트웨어인 ‘WebCompas’라든가, ‘SmartMarker’ 등을 능가하는 기능이다.
이 소프트웨어는 현재 나우누리나 천리안과 같은 통신망에서 30일 시험버전을 쉽게 다운로드 받을 수 있으며, 인터넷에 연결(http://www.symantec.com)해 등록하면 정식버전으로 만들 수 있으므로 구입하는데도 전혀 어려움이 없다.

이 소프트웨어는 또 사용자가 원하는 단어를 입력하면 알타비스타, 익사이트, 인포시크, 라이코스, 마젤란, 웹크롤러, 야후 등 7개의 서치엔진을 동시에 접속해서 원하는 정보를 찾은 후 HTML파일로 만들어서 사용자가 쉽게 볼 수 있도록 해준다.
사실 대부분의 서치엔진에서 보고되는 정보는 같은 사이트에 동일한 같은 단어를 여러번 출력하기 때문에 굉장히 보기가 어렵다.

하나의 사이트에서도 그럴진대 하물며 7개, 8개사이트를 검색하는 경우 사람이 일일이 그 사이트의 정보를 검색해 같은 사이트를 제외시킨다는 것은 거의 불가능한 일이 아닐 수 없다. 이때 사이트별로 정리된 HTML 파일은 시간과 정력을 낭비하지 않고 원하는 정보만 취할 수 있도록 하는데 유용하다.
 

시멘텍사의 인터넷 패스트파인드.7개의 서치엔진을 뒤져 정보를 찾은 후 이를 HTML파일로 만들어 보여준다.
 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

1996년 12월 과학동아 정보

  • 오재철 기획실장

🎓️ 진로 추천

  • 문헌정보학
  • 컴퓨터공학
  • 정보·통신공학
이 기사를 읽은 분이 본
다른 인기기사는?