d라이브러리









'빛의 화가'라고 불리는 화가 클로드 모네의 출생지는 어디일까.

현대인들은 궁금증이 생기면 가장 빠른 해결 수단으로 인터넷을 이용한다. 보통 포털 사이트 검색창에 ‘모네 출생지’나 ‘모네 태어난 장소’와 같이 연관 단어들을 입력할 것이다. 검색 결과 나온 문서들을 살펴보면 모네의 출생지가 프랑스 파리임을 알 수 있다.

그러나 파리라는 정답을 찾으려면 스크롤바를 오르내리며 검색 결과에 나온 문서의 내용을 일일이 확인해야 한다. ‘모네의 출생지를 알려주세요’라든지 ‘모네가 태어난 장소는 잘 알려져 있다’와 같이 정답과 무관한 문장이 들어 있는 문서도 나올 수 있기 때문이다.

이는 현재 대부분의 검색엔진이 검색어(키워드)를 기준으로 문서를 찾기 때문에 생기는 문제다. ‘모네’와 ‘출생지’ 또는 ‘모네’ ‘태어난’ ‘장소’처럼 단순히 사용자가 입력한 단어가 직접 들어 있는 문장만 찾아낸다는 얘기다.

이런 방식으로는 ‘모네는 프랑스 파리에서 태어났다’란 문장이 들어 있는 문서는 찾기 어렵다. 정답에 딱 들어맞는데도 말이다. 문제는 연관성이다. 프랑스나 파리라는 단어가 출생지라는 단어와 관련이 있다는 사실을 컴퓨터는 모른다.

누리꾼 의도까지 파악하는 컴퓨터

단어 간 연관성을 컴퓨터가 알게 하는 기술이 바로 차세대 검색엔진의 핵심이다. 단어가 문장 안에서 나타내는 의미를 컴퓨터 스스로 파악해 그 의미와 직접 관련이 있는 결과를 찾을 수 있게 하려는 것이다.

이를 위해서는 검색엔진 내부에 몇 가지 기술을 추가해야 한다. 먼저 검색엔진이 검색어인 ‘출생지’나 ‘장소’를 지명(地名)과 연결시킬 수 있도록 해야 한다.

다음으로 ‘모네는 프랑스의 파리에서 태어났다’란 문장 속의 2개 단어 ‘프랑스’와 ‘파리’ 역시 지명이라는 사실을 파악하게 해야 한다. 그러면 비로소 검색어와 정답 문장은 지명을 연결고리로 삼아 서로 관계를 맺게 된다. 검색어 자체가 문장에 들어 있지 않더라도 관계가 있기 때문에 검색엔진은 이 문장이 들어 있는 문서를 검색결과로 내놓을 수 있다.

IT 분야에서는 이 같은 방식을 ‘의미기반(시맨틱) 검색’이라고 부른다. 의미기반 검색이 상용화되면 인터넷 검색 절차가 훨씬 간편해질 뿐 아니라 검색 결과에 대한 신뢰도도 한층 높아질 것으로 예상되고 있다. IT 전문가들은 머지않아 컴퓨터가 사람을 대신해 정보를 읽고 이해하고 직접 가공도 해 새로운 정보를 만들어내는 ‘지능형 웹’까지 선보일 수 있을 것으로 전망한다.

이미지와 소리 정보도 검색에 활용

빨간 사과 이미지를 찾고 싶을 때 어떻게 하나. 보통은 포털 사이트의 이미지 검색창에 ‘빨간 사과’라고 입력한 다음 결과로 나온 수많은 이미지 가운데 원하는 걸 내려받는다.

사실 이때 검색돼 나온 이미지의 상당 부분은 실제 빨간 사과가 아니다. ‘빨간 사과’라는 제목의 만화도 있고 빨간 사과를 따러 나온 사람들의 사진도 있다. 심지어 사과와 전혀 무관한 음란물이 나오기도 한다. 왜 이런 일이 생길까.

인터넷에 이미지를 올리는 사람은 보통 그 이미지에 대한 설명을 함께 올린다. 빨간 사과 사진을 올리면서 그냥 ‘빨간 사과’라고 적기도 하고 ‘맛있는 과일’이라고 쓸 수도 있다. 이런 설명 자료를 이미지의 ‘메타데이터’라고 부른다.

현재 대부분의 검색엔진은 이미지를 찾을 때 메타데이터를 이용한다. 엄밀히 말하면 이미지 자체가 아니라 이미지에 연결된 문서를 검색한다는 뜻이다. 결국 실제 이미지에 대한 객관적 정보가 아니라 이미지를 올린 사람이 정한 주관적 정보가 검색결과를 좌우하는 셈이다.

이런 단점을 보완하려는 게 차세대 검색기술의 또 다른 목표다. 국내외 IT 기업들은 현재 앞다퉈 색깔이나 모양 등 이미지 자체의 정보를 뽑아내 검색에 이용하는 기술을 개발하고 있다. 예를 들어 빨간 사과 사진을 찾을 때 ‘빨간’과 ‘사과’란 단어(메타데이터)와 함께 이미지 파일에서 빨간색 정보를 골라내 이 3가지를 모두 만족하는 이미지를 검색 결과로 내놓는 방식이다.



이런 방식은 평면적인 이미지뿐 아니라 비디오, 오디오 파일 등 멀티미디어 검색으로도 확장되고 있다. 검색 소프트웨어 전문기업 코난테크놀로지의 배순학 연구원은 “차세대 검색은 온라인 쇼핑몰이나 방송 분야에도 유용하다”며 “소비자가 제품의 색깔과 모양까지 직접 검색하거나 내려받지 않고도 특정 화면과 음악이 들어 있는 동영상을 찾을 수 있는 서비스가 조만간 등장할 것”이라고 말했다. 지금은 이름만으로 제품을 검색한 뒤 일일이 색깔과 모양을 비교해야 한다. 동영상은 내려받아 전체를 돌려봐야 어떤 화면과 음악이 쓰였는지 안다.

자연어처리 기반의 검색기술을 보유한 코난테크놀로지는 지난 2월 28일부터 국내 한 포털 사이트를 통해 지금까지 개발된 차세대 검색기술을 실제 누리꾼에게 선보이기 시작했다(lab.nate.com).
 

2009년 07월 과학동아 정보

  • 임소형 기자

🎓️ 진로 추천

  • 컴퓨터공학
  • 문헌정보학
  • 소프트웨어공학
이 기사를 읽은 분이 본
다른 인기기사는?