다음 영상부터 보자(아래 QR코드). 이 글을 읽는 당신이 만약 30~40대라면 아마 이 화면에 익숙할 것이다. 골목마다 오락실이 아이들의 발길을 붙잡아 이끌던 시절, 많은 이들이 즐겼던 벽돌 깨기 게임이다. 화면 속 게이머는 처음엔 익숙지 않은 듯 실패를 거듭한다. 그러나 시간이 지날수록 실력이 급격하게 는다. 동영상 막바지를 보면, 벽면 한쪽을 집중해서 뚫은 뒤 공이 담장 위로 올라가도록 만들면 훨씬 유리하다는 것을 깨달은 듯하다. 이 기특한 게이머는 바로 구글이 최근 인수한 영국의 인공지능 회사 딥마인드에서 개발한 인공지능이다. 딥마인드는 ‘심층 Q네트워크’라는 새로운 기계학습 알고리듬을 개발해 학술지 ‘네이처’ 2월 25일자에 발표했다. 49개의 비디오 게임을 학습해 그 중 절반이 넘는 29개 게임에서 인간을 능가하는 점수를 기록했다.
시행착오 거치며 신경망을 최적화한다
최근 인공지능 분야에서 뜨거운 감자로 떠오른 딥러닝은 이 같은 기계학습의 한 종류다. 기계학습은 인간이 다양한 경험과 시행착오를 통해 지식을 배우는 것처럼 컴퓨터에게 충분히 많은 데이터를 주고 거기에서 일반적인 패턴을 알아차리게 하는 방법론이다. 예컨대, 사람마다 다른 억양, 다른 목소리로 “안녕하세요”라고 발성한 음성을 똑같은 “안녕하세요”로 ‘분류’할 수 있도록 훈련시킨다. 딥러닝은 이런 학습 과정에 사람의 두뇌를 모방한 ‘심층인공신경망(deep neural network)’을 이용한다고 해서 붙은 이름이다.
기계학습의 역사는 인공지능이 처음으로 연구되기 시작한 1950년대로 거슬러 올라간다. 초기 인공지능 연구는 주로 ‘계산주의’ 방식으로 이뤄졌다. 지능이란 결국 뇌 속에서 일어나는 복잡한 계산에 불과하다고 보는 입장이다. 계산주의 연구자들은 사람이 하는 다양한 생각을 기호(알고리듬)로 치환해 넣어주면 기계가 사람처럼 생각할 수 있을 거라고 믿었다. 하지만 세상은 기호로 치환하기엔 너무 복잡했다. 계산주의가 실패한 뒤 ‘연결주의’가 제안됐다. 연결주의는 스스로 배울 수 있는 지능을 구현하려는 시도로, 물고기를 주는 게 아니라 물고기 잡는 방법을 알려주는 셈이다.
이를테면 체스 게임 규칙을 프로그래머가 일일이 설계해서 입력해주는 게 아니라, 체스 게임을 해보면서 스스로 규칙을 터득할 수 있게 프로그래밍 해주는 방법이다.
캐나다의 신경과학자 도널드 헵은 1949년, 실제 두뇌가 학습하는 방식을 추리했다. 그의 주장에 따르면, 학습은 뉴런 사이의 연결 관계가 활성화되는 경험이 반복되면서 이뤄진다. 유명한 ‘파블로프의 실험’이 그 예다. 개는 원래 음식을 봐야 침을 흘린다. 그러나 개에게 먹이를 줄 때마다 종을 울리면, 나중에 종소리만 들어도 침을 흘린다. 개의 뇌 속에서 먹이와 소리에 관련된 특정 뉴런들의 연결이 강화된 것이다. 연결주의 연구자들은 이 같은 두뇌의 학습 과정을 모방하고자 했다. 이를 위해 두뇌의 물리적 구조를 본 딴 수학적 모델을 개발했다. 바로 ‘인공신경망(neural network)’이다.
두뇌는 기능적 최소 단위인 뉴런이 그물처럼 연결돼 있다. 뉴런은 수상돌기, 신경세포체, 축삭, 축삭말단 등으로 이뤄져 있다. 외부에서 주어진 자극은 세포체 주변을 둘러싼 나뭇가지 모양의 수상돌기로 전달된 뒤, 길게 뻗어 나온 섬유 가닥인 축삭을 통해 축삭말단으로 이동한다. 인공신경망도 비슷하다. 데이터가 입력단(수상돌기)을 통해 들어오면 노드(세포체)로 할당돼 분석된 뒤, 계산된 값이 출력단(축삭)에 나타난다. 특정 뉴런이 활성화되는 정도는 인공신경망에서 ‘가중치’라는 개념으로 모델링했다.
자, 이제 본격적으로 학습을 시작해 보자. 가령, 흰 종이에 검정색으로 숫자 5가 쓰인 그림을 인공지능에게 줬다. 이 인공지능이 머리를 굴려(?) 최종적으로 “이 그림은 숫자 5입니다”라고 판단하면 학습에 성공한 것이다. 인공지능은 먼저 그림을 잘게 쪼개 각 조각을 하나의 노드에 배정한다. 어떤 노드가 검정색이고 어떤 노드가 하얀색인지 분석해 숫자를 추리한다.
처음에는 무작위로 결과를 낸다. “이 그림은 숫자 3입니다.” 물론, 틀렸다. 5라는 답을 내기 위해 필요한 경로에 가중치를 더해준다. 이렇게 시행착오를 거듭해 오차를 줄여 나간다. 서로 다른 필체로 적힌 또 다른 5를 이런 식으로 학습한다. 이제 이 인공지능은 숫자 5의 일반적인 패턴, 즉 맨 왼쪽 상단에는 아래 위로 길쭉한 선이 있고 그 위에 가로로 긴 선이 올려져 있으며 그 아래 어디쯤에는 둥근 곡선이 있다는 것을 알아차린다. 학습이 완료된 뒤에는 처음 보는 필체라도 숫자 5라는 걸 알아차릴 수 있다. 초기 인공신경망은 컴퓨터 성능의 한계 때문에 원시적인 수준이었지만, 기술 발달로 훨씬 복잡한 심층인공신경망으로 진화했다. 심층인공신경망은 입력단과 출력단 사이에 노드가 많아져 더 정교하고 복잡한 계산을 할 수 있다. 서두에 언급했듯, 이 신경망을 이용한 기계학습이 바로 딥러닝이다.

빅데이터, 하드웨어, 알고리듬 3박자가 맞아 떨어지다
일찌감치 개발된 딥러닝이 실무적으로 답보 상태였던 데는 여러 가지 문제가 있었다. 특히 ‘과적응 문제’가 연구자들의 발목을 잡았다. 훈련 데이터로부터 일반적인 패턴을 알아내야 하는데, 데이터가 적다 보니 입력된 데이터를 통째로 외워버렸던 것이다. 이런 경우 학습이 끝나더라도 훈련 데이터만 정확하게 분류할 수 있을 뿐 실 사용 데이터를 넣어주면 부정확한 결과를 출력했다.
시들시들 힘을 잃어가던 딥러닝을 최근 부활시킨 주역은 바로 빅데이터다. 스마트폰이 폭발적으로 확산되면서 학습할 수 있는 충분한 데이터가 전세계에서 쏟아져 나왔다. 현존하는 전체 데이터의 90%가 지난 몇 년간 만들어졌다는 통계도 있다. 시장조사기관 IDC에서 발표한 자료에 따르면, 전 세계 디지털 자료 양은 2009년 기준 0.8제타바이트(ZB, 테라바이트의 10억 배)에서 2020년 35.2ZB로 44배 이상 증가할 것으로 전망된다. 특히 소셜네트워크서비스(SNS)의 확산은 딥러닝의 잠재력을 폭발시키는 계기가 됐다. 다음 사례를 보자.
직장인 A씨는 고양이 두 마리와 함께 살고 있다. 사람을 잘 따르는 ‘개냥이’다. 지친 몸을 이끌고 퇴근해 집에 들어가면 쏜살같이 달려 나와 반겨주는 고양이들이 여간 귀엽지가 않다. 그의 취미는 고양이들이 애교 피우는 장면을 촬영해 유튜브에 올리는 것. 오늘도 어김 없이 동영상을 만들어 유튜브에 올렸다. 늘 그랬듯, ‘고양이’ ‘애교’ ‘개냥이’ ‘반려묘’ 등의 태그를 달았다. 게시 버튼을 클릭했다.
방금 무슨 일이 일어났는지 당신은 눈치챘는가? A씨는 무심결에 유튜브 인공지능을 ‘가르쳤다’. A씨뿐 아니라 전세계인이 그렇다. 시시각각 다양한 영상과 사진을 업로드하고 친절하게 이름표까지 붙여준다. 구글 인공지능은 이런 데이터들을 수 년간 학습했다. “아, 이런 얼굴 패턴에는 고양이라는 이름표가 붙어있구나. 아, 저런 얼굴 패턴에는 사람이라는 이름표가 붙어있네?” 결과는 어땠을까. 2013년, 구글 인공지능은 유튜브에 올라와 있는 1000만 개 이상의 동영상 가운데 고양이를 골라냈다. 정확도는 70%에 달했다. 미국 스탠포드대 앤드류 응 교수와 구글이 공동으로 진행한 프로젝트였다.
데이터가 쏟아져 나오던 시기, 하드웨어 역시 비약적으로 발전하면서 딥러닝을 더욱 빠르게 부상시켰다. 방대한 데이터를 학습하려면 무엇보다 컴퓨팅 속도가 매우 중요한데, 강력한 그래픽처리장치(GPU) 덕분에 연산 효율이 월등히 높아졌다. 기존 중앙처리장치(CPU)가 하던 작업 중 일부(병렬화가 가능한 반복 작업)를 GPU가 나눠 작업한 것이다.
딥러닝 알고리듬 자체의 발전도 한몫 했다. 딥러닝은 캐나다 토론토대 제프리 힌튼 교수가 2006년 학술지‘사이언스’에 RBM이라는 새로운 딥러닝 알고리듬을 발표하면서부터 관심을 받기 시작했는데, 이후 수많은 연구자가 보다 효율적인 알고리듬을 개발해 왔다. 특히, 드롭아웃이라는 방법이 적용되면서 고질적으로 문제가 됐던 과적응을 크게 줄일 수 있었다. 드롭아웃은 각각의 숨겨진 계층에 존재하는 노드 가운데 몇 개만 무작위로 사용해 학습하는 방법이다.
딥러닝, 어디까지 봤니?
최근 글로벌 IT 업체들이 딥러닝을 기반으로 하는 다양한 패턴 인식 서비스를 구현해 서비스하고 있다. 페이스북은 사진을 업로드하면 사진에 나온 사람 얼굴을 자동으로 인식해 쉽게 태그할 수 있도록 추천해준다. 애플의 인공지능 비서 ‘시리’는 수 년간 사람의 대화 데이터를 학습한 결과 이제는 “내 여자친구가 되어줘”라는 질문에 “친구로 지내자”와 같은, 재치 있는 답변을 내놓을 수 있게 됐다(이 문답은 아직은 영어로만 가능하다). 음성과 이미지는 물론 사용자 예측과 통번역까지, 딥러닝이 활용되지 않는 분야가 없을 정도다. 구글의 프로그래머 제프 딘은 “50개가 넘는 응용 프로그램에 딥러닝을 사용 중”이라고 밝혔다.
딥러닝은 기존 인공지능이 가장 어려워하던 음성인식 분야에서도 두각을 나타내고 있다. 예컨대, ‘칵테일 파티 효과’라는 용어가 있다. 주변 환경에 개의치 않고 자신에게 의미 있는 정보만을 선택적으로 받아들이는 심리 현상을 뜻한다. 인간은 여러 음성이 동시에 들려 오는 환경에서 원하는 음성만을 분석하거나, 음악이 연주되는 상황에서 자신이 원하는 가수의 음성에만 반응하는 능력이 있다. 반면, 현재의 음성 인식기에는 이 같은 능력이 없다. 여러 음성과 음악을 구분하지 못하고 하나의 신호로 처리해 전혀 다른 결과를 출력해 낸다.
최근 영국 서리대 앤드류 심슨 연구팀은 딥러닝을 이용해 음악에서 사람의 음성과 배경음악을 구분하는 데 성공했다. 연구팀은 노래 63곡을 각각 20초 단위로 나눴다. 그리고 단위 별로 스펙토그램(소리를 시각화한 그래프)을 생성해 소리 주파수가 시간에 따라 어떻게 변하는지 분석했다. 각 악기와 목소리의 지문을 얻은 셈이다. 전체 노래 중 50곡의 분석 데이터를 학습을 위한 훈련용 데이터로 사용했다. 학습이 완료된 뒤 나머지 13곡을 차례로 입력하면서 사람의 목소리를 노래에서 어느 정도 구별할 수 있는지 시험한 결과, 높은 정확도로 구분해 냈다. 구글은 2014년에 이미지 인식 에러율을 6.7%까지 줄이는 데 성공했다. 올해 3월엔 4.8%로 낮췄다. 에러율 값으로만 보면 사람보다 더 정확하다.
필자는 이런 추세라면 영화 속 ‘터미네이터’가 실생활에 등장하는 것도 시간 문제라고 본다. 하지만 그런 초지능이 나온 미래가 유토피아일지, 디스토피아일지는 지금부터 하기에 달렸다고 생각한다. 예컨대, 현재 군인들은 시뮬레이터 장비를 이용해 훈련한다. 지금은 교관 또는 관리자가 가상의 시나리오를 만들고 거기에 따라 해당 조종사가 훈련을 한다. 만약 해당 조종사들이 훈련한 모든 데이터를 수집해 컴퓨터를 학습시키면 최적의 형태로 훈련돼 인간을 상대로 이기는 컴퓨터가 될 수도 있다. 어찌 보면 원자력발전처럼 양면성을 띄는 기술인 셈이다. 좋은 곳에 쓰면 사람들의 실생활에 많은 도움을 주겠지만, 잘못된 곳에 쓰면 우리를 위협하는 기술이 될 수도 있다. 딥러닝이 빠른 속도로 인공지능 연구를 견인하는 것은 무척 반가운 일이지만, 기술 발전 그 이상으로 중요한 점을 생각해야 할 때이다. 해당 기술을 사용하려는 사람의 책임감, 도리, 도덕심 말이다.
▼관련기사를 계속 보시려면?
[터미네이터는 없다] INTRO 인공지능 유토피아 vs. 디스토피아
PART 1 인공지능 디스토피아는 없다
PART 2 두 번의 암흑기와 세번째 봄
PART 3 딥러닝, 인공지능을 혁신하다
INTERVIEW 글로벌 기업 바짝 추격한다
PART 4 의도는 없다, 그러나 인간을 위협한다