d라이브러리










한때 많은 사람의 흑역사를 만든 싸이월드 미니홈피.
 
얼마 전, 송 양은 웹 서핑을 하다가 깜짝 놀랐다. 무려 7년 전에 찍은 사진이 웹사이트에 돌아다니고 있었기 때문. 모르는 사람들이 송 양의 자료를 여기저기 퍼나르며 평가하고 조롱하고 있었다. 더 퍼져나가기 전에 한시라도 빨리 막아야 한다!

송 양은 인터넷에 남아 있는 정보를 전문적으로 지워주는 업체 산타크루즈컴퍼니를 찾았다. 먼저 과거에 썼던 글을 찾는 법을 물었다. 김호진 대표는 모든 웹 사이트를 크롤링하고, 키워드를 세분화해 데이터를 찾아낸다고 설명했다. 크롤링은 여러 컴퓨터에 나눠져 저장돼 있는 문서를 목적에 맞게 재분류하는 기술을 뜻한다.

필요한 데이터를 찾아내면 사실 여부에 따라 검색어를 긍정적인 단어와 부정적인 단어로 나눈다. 그리고 의뢰자가 원하는 내용을 포털에 직접 삭제 요청한다. 공인의 경우 포털 사이트의 연관검색어와 자동검색어까지 삭제할 수 있다.
 
 
유사 이미지를 찾아라
그렇다면 사진이나 동영상도 찾을 수 있을까? 김 대표는 크기가 달라졌거나 변형된 이미지도 찾을 수 있다고 말한다. 유사한 이미지를 찾는 기술에는 수학이 쓰인다. 세계 최대 크롤링 사이트인 구글의 경우 ‘고유벡터의 중심성’을 이용한 알고리즘인, ‘비주얼랭크’를 이용한다. 고유벡터의 중심성은 여러 점을 선으로 이은 그래프에서 꼭짓점의 상대적인 중요도를 나타내는 척도다.

고유벡터의 중심성을 찾기 위해서는 어느 꼭짓점들이 인접해 있는지 알아야 한다. 이런 관련성을 나타내는 것을 ‘인접행렬’이라 한다.

비주얼랭크에서 인접행렬 S*는 어떤 이미지를 검색해 나온 이미지 중 임의의 두 이미지 사이의 유사도를 나타낸 행렬이다.

S* × VR = VR
 
비주얼랭크 VR은 위의 식을 만족하는 값이다. 그리고 S*와 VR을 반복적으로 곱하면 우세한 값을 가지는 고유벡터를 찾을 수 있다. 이를 이용해 비슷한 이미지데이터를 덩어리 채로 찾아 모은다. 그리고 이미지 간의 유사성을 점과 선으로 이뤄진 그래프로 나타내 비주얼 랭크 값이 큰 이미지를 찾는다.
 
그래서 본인의 사진만 있으면 과거에 찍었던 사진을 찾을 수 있다. 동영상을 찾는 방법도 비슷하다. 찾고자 하는 사진 또는 영상이 찍힌 장소 사진이 있으면 더 빠르게 찾을 수 있다.

대부분의 웹 사이트는 개인 사생활 정보 삭제 요청을 받으면 정보통신보안법 443조 2항에 따라 삭제해 준다. 그러나 모든 사이트가 가능한 건 아니다. 다른 게시판에 써 놓은 글을 그대로 복제해 놓는 ‘세이브일베’와 같은 미러링 사이트는 삭제요청을 잘 받아주지 않는다. 간혹 요청을 들어주기도 하지만 대부분은 우리나라에서만 보이지 않게 차단한다. 김 대표는 “특히 청소년은 정보 유출의 심각성을 잘 모른다”며 “디지털 기술이 보편화된 사회에 사는 이상 어쩔 수 없는 정보 유출도 있겠지만, 스스로 경각심을 갖고 개인 정보를 보호해야 한다”고 말했다.



이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2017년 04호 수학동아 정보

  • 조혜인 기자
  • [참고 자료] 'VisualRank: Applying PageRank to Large-Scale Image Search’
  • 도움

    산타크루즈컴퍼니

🎓️ 진로 추천

  • 컴퓨터공학
  • 정보·통신공학
  • 법학
이 기사를 읽은 분이 본
다른 인기기사는?