d라이브러리









가짜뉴스와의 전쟁

안 어려워요┃AI로 가짜 뉴스 찾기

과학기술은 어떻게 사용하는지에 따라 득이 될 수도, 해가 될 수도 있다. 인공지능(AI) 기술 역시 마찬가지다. 첨단 전자기기로 구현한 AI는 우리 삶을 편리하게 해주기도 하지만, 가짜뉴스와 같은 거짓 정보를 생성해 사회에 혼란을 불러올 수도 있다. 가짜뉴스는 걸러 내고 팩트만 얻을 방법은 없을까.

 

쓰나미 높이가 방사능 오염수 지도로 둔갑

필자는 가짜뉴스를 ‘기존 언론에서 생산하는 콘텐츠 형식만 모방한 허구의 정보’라고 정의한다. 이는 저명한 데이터 과학자인 데이비드 레이저 미국 노스이스턴대 정치과학과 교수가 제시한 정의이기도 하다. 가짜뉴스는 언론 보도의 형식만 가져다 쓸 뿐 보도의 정확성과 정보의 신뢰성, 편집 윤리 등은 없는 정보다. 여기에는 ‘우연히 잘못 기록되고 전달되는 정보’ ‘의도적으로 거짓 생성된 정보’ 등 모든 종류의 정보 장애가 포함된다.


가짜뉴스의 파급력은 함께 동반된 자료에 따라 달라진다. 동영상이나 이미지 자료가 포함되면 파급력이 급격히 상승한다. 일례로 2011년 규모 9.0의 동일본 대지진 직후, 한 이미지가 후쿠시마 원자력 발전소의 방사능 오염수가 태평양으로 퍼져나가는 지도라며 인터넷과 소셜네트워크서비스(SNS)를 통해 전파됐다. 


하지만 실제로 이 지도는 방사능 오염수와는 무관하게 대지진으로 생긴 쓰나미의 높이를 보여주는 미국 국립해양대기청(NOAA)의 자료였다. 그런데 아직도 후쿠시마 오염수의 전파와 관련된 자료로 인용되고 있다. 


가짜뉴스를 탐지할 방법은 없을까. 빅데이터와 AI를 통해 온라인에서 수백만 건의 글을 분석하면 정보가 전파된 시간적, 구조적, 언어적 특징을 추출할 수 있고, 이를 이용해 가짜뉴스를 분류할 수 있다. 


일반적으로 가짜뉴스는 네트워크상에서 전파되는 양상이 산발적이고 점조직 형태를 띠며 긴 시간 동안 전파된다. 반면 진짜 정보는 내용에 포함된 유명인을 중심으로 하는 네트워크를 타고 전파됐다가 수일 내로 관심이 급격히 줄어드는 특징이 있다. 


가짜뉴스에는 정보의 참과 거짓을 따지는 표현보다 이를 의심하고, 부정하고, 유추하도록 유발하는 심리학적 표현들이 많다. 가령 ‘사실일지는 모르겠지만’ ‘확실치는 않지만’ 등의 문구가 자주 등장할 확률이 월등히 높다. 최근에는 뇌 신경망을 모사한 딥러닝을 활용한 AI 탐지 기술로 이런 형태의 글자 정보를 확인해 가짜뉴스를 90% 이상의 정확도로 찾아내고 있다.

 

 

오바마 연설과 유인나 목소리 만든 AI

 

가짜뉴스를 잡아내는 AI만큼 가짜뉴스를 생성하는 AI도 발전하고 있다. 가짜뉴스가 진화하는 셈이다. 미국 워싱턴대는 2017년 새로운 데이터를 만드는 ‘생성적 적대 신경망(GAN·Generative Adversarial Network)’이라는 AI 기술로 버락 오바마 전 대통령의 가짜 연설 영상을 만들어 공개했다. 


또 영상 채팅 애플리케이션 아자르(Azar)를 보유한 국내 영상기술업체 하이퍼커넥트는 얼굴 사진 한 장만 있으면 원하는 표정과 움직임을 이미지로 생성해내는 기술을 2020년 공개할 예정이다. 
네이버는 이미 음성신호 자연어 처리 AI를 이용해 배우 유인나의 목소리로 책을 읽어주는 서비스를 시연하기도 했다. 미국 테슬라의 최고경영자(CEO)인 일론 머스크가 설립한 비영리 AI 연구소인 ‘오픈AI(OpenAI)’는 2019년 변수 15억 개를 이용하는 고도로 정교한 자동 문장 생성 모델(GPT-2)을 개발하기도 했다. 


만약 이런 AI 기술이 가짜뉴스 생성에 사용된다면 어떻게 될까. 가짜뉴스의 대상이 되기 쉬운 공인이나 연예인은 가짜뉴스에 포함된 말과 행동을 하지 않았음을 입증해야 하는 황당한 상황이 발생할 수 있다. 


필자는 영상과 음성으로 이뤄진 가짜뉴스를 찾아내 전파 속도를 늦추는 AI 알고리즘을 개발하고 있다. 가짜뉴스의 전파를 사전에 차단하는 것이 가장 효과적이겠지만, 이는 쉽지 않다. 우선 인터넷과 이를 제공하는 플랫폼의 변치 않는 속성 때문이다. 인터넷은 정보의 사실 여부를 검열하지 않으며, 플랫폼은 인터넷 사용자의 클릭 수와 콘텐츠를 소비하는 시간을 늘리는 데 최적화됐다. 


여기에 최근 정보 전파에 큰 영향력을 행사하는 SNS에 대한 기본적인 믿음도 작용한다. 친분이 있는 지인이 올린 SNS 게시물을 쉽게 사실로 받아들이는 것이다. 그 결과 사용자들은 기존에 소비한 콘텐츠와 유사하지만 좀 더 자극적인 내용을 추천받고, 이에 따라 유사 콘텐츠에 갇히는 현상인 이른바 ‘필터 버블(filter bubble)’이 형성된다. 이미 소비된 콘텐츠에 대한 팩트체크 결과를 보여줘도 한번 형성된 필터 버블을 정정하기는 어렵다.   


물론 인터넷과 SNS 시대 이전에도 가짜뉴스는 존재했다. 다만 지금은 온라인에서 생성되는 가짜뉴스의 양뿐만 아니라 노출 방식과 빈도가 비약적으로 증가해서 사회에 미치는 영향이 비교할 수 없이 커졌다. 정보의 소비자가 최소한의 노력으로 팩트체크를 할 수 있게 하는 기술 개발이 시급한 이유다. 가짜뉴스와의 끝없는 전쟁에 새로운 서막이 열리고 있다. 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2020년 01월 과학동아 정보

  • 차미영 KAIST 전산학부 교수 (기초과학연구원 데이터
  • 에디터

    김진호기자 기자

🎓️ 진로 추천

  • 컴퓨터공학
  • 언론·방송·매체학
  • 심리학
이 기사를 읽은 분이 본
다른 인기기사는?