d라이브러리 2014년 01월 수학동아

마감 시간이 다가오는데도 기사를 완성하지 못해 애태우는 기자, 운전대만 잡으면 헤매는 운전자, 진료받기 위해 한참 의사를 기다리는 환자들! 생활 속에서 흔히 볼 수 있는 풍경이죠?

하지만 이런 모습들은 이제 추억으로만 남을지 몰라요. 빅데이터와 알고리즘 덕분에 기자가 필요 없는, 운전자가 필요 없는, 의사가 필요없는 시대가 다가오고 있거든요. 거짓말 같다고요? 알고리즘으로 달라지고 있는 세상, 저 알고리즘 로봇과 함께 알아봐요!

로봇 기자, 야구 기사를 쓰다

"으앗! 빅데이터 파도가 몰려온다! 어서 중요한 키워드들을 낚아 좋은 기사를 써야지! 아, 제가 지금 뭘 하는 거냐고요? 기사 쓰는 중이에요. 낚시하는 것 아니냐고요? 알고리즘을 통해 기사가 만들어지는 과정은 마치 거대한 파도 앞에서 낚시를 하는 것과 같아요."

로봇 기자의 탄생

지하철에서 사람들이 스마트폰으로 온라인 게임이나 인터넷 신문을 보는 모습은 더 이상 낯설지 않다. 로봇 기자의 탄생은 이런 사회적 배경과 무관하지 않다.

많은 사람들이 이제 종이 신문보다는 온라인에서 각종 정보를 얻는다. 온라인 뉴스에서는 종이 신문과 달리 거의 실시간으로 계속해서 새롭게 터지는 이슈와 사건들을 속보로 접할 수 있다. 이에 따라 기자들은 마감 시간도 따로 없이 계속해서 터지는 이슈와 사건들에 대해 뉴스를 써야 하는 상황이다. 이런 상황에 등장한 것이 바로 로봇 기자다.

로봇 기자는 자동으로 기사를 쓰는 일종의 컴퓨터 프로그램을 말한다. 우선, 컴퓨터의 성능이 아무리 뛰어나도 스스로 판단을 내리거나 해석할 수는 없다. 따라서 아주 간단한 일이라도 컴퓨터에게 문제를 해결하는 정확한 절차와 방법을 가르쳐 줘야만 하는데, 이를 ‘알고리즘’이라고 한다. 컴퓨터는 알고리즘 덕분에 다양한 일들을 단계적으로 처리할 수 있다.

로봇 기자가 처음 등장한 것은 2009년 4월이다. 미국 노스웨스턴대 저널리즘학과와 컴퓨터공학과 학생 4명은 수업에서 조별 과제를 하기 위해 뭉쳤다. 이때 과제의 주제는 기자들의 단순노동을 줄여서 가치 있는 일에 집중하도록 만드는 방법이었다.

과제 결과 탄생한 것이 기사 쓰는 알고리즘인 ‘스태츠 몽키’다. 이 알고리즘은 메이저리그와 미국 대학농구, 미식축구리그 등 스포츠 뉴스를 자동으로 생산하도록 짜여져 있다. 이제 기자들은 스태츠 몽키를 활용해 매일 진행되는 스포츠 경기 결과를 요약하는 기사는 컴퓨터에게 맡기고, 대신 분석 기사나 인터뷰 등 깊이 있는 기사에 집중할 수 있게 됐다.

로봇 기자는 어떻게 기사를 쓸까?

현대 정보화 시대에는 수많은 정보들 중에서 의미 있는 정보를 찾아내 그 결과를 분석하는 일이 매우 중요하다. 스태츠 몽키는 수많은 정보들 중, 그날 경기한 스포츠 정보만을 실시간으로 모은다. 이렇게 모인 데이터들은 ‘의사결정나무’란 학습 알고리즘으로 다시 분류된다.

의사결정나무 알고리즘은 의사 결정 규칙을 나무 구조로 도표화해서, 데이터들을 몇 개의 소집단으로 분류하고 결과를 예측하는 분석 방법이다. 마치 스무고개 게임처럼 연속된 질문들에 대한 답을 따라가다 보면, 데이터들이 몇 개의 소집단으로 분류된다. 그리고 질문이 끝날 때 나무 가지의 가장 아래쪽에 도착하면 최종 결과를 얻게 되는 것이다.

스태츠 몽키는 이 의사결정나무 알고리즘을 통해 그 날 야구 경기에 대한 정보들 중에서도 주요 선수와 경기 진행에 대한 의미 있는 데이터들을 분류하고 이를 분석한다. 그리고 그 결과를 이미 짜놓은 기본 문장에 입력해, 몇 초 만에 짧은 야구 경기 기사를 완성하는 것이다.

미국의 경우 이런 알고리즘 기사들이 연간 수만 건이 쏟아져 나오고 있다. 스태츠 몽키 알고리즘을 활용해 기사를 생산하는 ‘스태트 시트’사 외에도, 스포츠 기사와 금융 기사를 쓰는 ‘내러티브 사이언스’ 등이 연간 몇 만 건씩 미국 내 주요 언론사에 기사를 판매하고 있다.

정보 위주로 단순 명료하게 구성된 알고리즘 기사는, 풍부한 정보와 깊이를 담고 있는 인간이 쓴 기사와는 분명 차이가 있다. 하지만 알고리즘 기자를 감히 상상도 못했던 예전을 생각하면, 정말 놀라운 일이다. 그렇다면 언젠가 알고리즘 기자가 인간 기자를 온전히 대체하게 될 날도 찾아오지 않을까?

운전을 못해도 알아서 척척! 무인자동차

"스스로 생각하고 알아서 움직이며 레이싱 경기장을 질주하는 자동차, 들어 본 적 있나요? 바로 영화 <;카>;에 등장하는 자동차들이에요. 영화 속 상상에서나 존재할 법한 자동차지만, 이와 비슷한 자동차를 가까운 미래에 만날 수 있을 것으로 보여요. 바로 무인자동차 기술 덕분이지요."

운전자가 필요 없는 무인자동차 시대

정보 기술의 발달로 운전자가 필요 없는 무인자동차의 시대가 열리고 있다. 무인자동차란, 사람이 운전대를 잡지 않아도 스스로 도로와 주행 환경을 인식하고 목표 지점까지 안전하게 운행할 수 있는 자동차를 말한다. 운전자가 컴퓨터로 대체된 것이다.

따라서 무인자동차에서 강세를 보이는 회사는 자동차 회사가 아니라 미국의 IT 업체 구글이다. 구글은 2010년부터 ‘자율 주행 자동차’, 즉 무인자동차 프로젝트를 시작했다. 그리고 최근까지 무인자동차의 주행 실험을 통해 약 80만km를 무사고로 운전하는 데 성공했다. 무인자동차의 무사고 운전 경력은 안정성을 인정받는 데 큰 몫을 했다. 미국의 3개 주에서는 무인자동차의 운행을 승인하고 면허증까지 발급했다.

2012년, 구글은 5년 내에 무인자동차를 상용화하겠다는 계획을 발표했다. 이제 불과 3년 남짓 남았으니, 무인자동차의 시대가 더 이상 먼 미래의 일은 아니다.

다익스트라 알고리즘

1단계 시작점으로부터 인접한 지점까지 최단 거리를 찾는다. C1은 5, C2는 6, C3은 2이고, C4는 구할 수 없다. 최단 거리가 알려진 지점들의 집합을 S라고 하자.

2단계 집합 S에 포함되지 않은 지점들 중, 시작점으로부터 가장 가까운 지점을 찾는다. 즉, S에서 C4까지 최단 거리를 구한다. S → C1 → C4가 11로 최단 거리다.

3단계 최종 지점에 도달할 때까지 1~2 과정을 반복해, 최종 지점까지의 최단 거리를 구한다. 최단 경로는 S → C1 → C4 → A로 거리는 15이다.

관성측정장치★ 평면과 공간에서 물체가 얼마나 움직였는지 알려 주는 장치.
관성항법장치★ 자이로(방향과 평형성을 측정하는 장치)를 이용해 현재 위치를 파악하는 장치.

무인자동차, 핵심은 알고리즘

그렇다면 무인자동차는 어떻게 스스로 운전할까?

무인자동차는 크게 3단계로 운전한다. 첫 단계는 정보 수집 단계다. 무인자동차에는 갖가지 첨단 센서가 장착돼 있다. 센서는 운전자의 눈 역할을 맡으며, 자신의 위치를 파악하고 장애물이나 다른 자동차와의 거리를 인식하는 등 주변 환경에 대한 데이터를 수집한다.

두 번째는 정보 처리 및 의사 결정 단계다. 여러 센서들의 역할도 중요하지만 센서를 통해 수집된 데이터를 해석하고, 의사결정을 내려 이를 실행하는 것은 더욱 중요하다. 이런 일을 하는 것이 바로 알고리즘이다.

센서를 통해 모인 정보는 정보처리장치를 통해 실시간으로 주변 상황을 파악하는 데 쓰인다. 이어 알고리즘을 통해 그 결과를 해석하고 주행에 관한 의사결정을 내린다. 특히 자동차가 스스로 방향을 바꾸거나 속도를 줄이고 늘이는 것, 정지하는 것은 안전과 직결된다. 따라서 알고리즘은 무인자동차의 핵심이라고 할 수 있다.

마지막은 의사결정에 따라 운전하며 자신의 움직임을 통제하는 차량 제어 단계다. 이 모든 과정이 원활하게 이뤄질 때, 무인자동차는 신호등과 주변 자동차들의 움직임에 따라 차선을 바꾸거나 장애물을 피하는 등 스스로 주행할 수 있다.

무인자동차는 순간순간의 환경 변화에 반응하기 위해 1초에 1GB 수준의 엄청난 양의 데이터를 수집하며, 알고리즘을 복합적으로 사용해 다양한 의사 결정을 내린다.

특히 무인 자동차가 목표 지점으로 가기 위해서는 시작 지점에서부터 목표 지점까지 최단 경로를 찾아야 한다. 최단 경로 문제를 풀기 위한 여러 가지 알고리즘 중 가장 많이 알려진 것은 ‘다익스트라 알고리즘’이다.

네덜란드의 컴퓨터 과학자인 에스커 다익스트라는 1959년 ‘수치 수학’이란 학술지에 한 지점에서 다른 지점으로 가기 위해 최단 거리를 구하는 다익스트라 알고리즘을 발표했다. 다익스트라 알고리즘은 시작 지점에서 목표 지점으로 가는 길을 찾을 때, 여러 길에 매겨진 가중치를 고려해 그 값이 최소가 되는 지점을 따라 이동하는 원리다.

이 논문은 컴퓨터과학 역사상 가장 유명한 논문 중의 하나가 되었고, 다익스트라는 이러한 공로를 인정받아 1972년 컴퓨터과학 분야의 노벨상이라 할 수 있는 튜링상을 수상했다. 다익스트라 알고리즘은 차량항법시스템, 네비게이션, 요즘 흔히 쓰이는 지하철 노선 탐색 어플 등에 쓰이고 있으며, 최단 경로를 결정하는 기본적인 알고리즘으로 활용되고 있다.

알고리즘으로 달라진 세상

"로봇 기자부터 무인자동차까지 잘 살펴봤나요? 사실 알고리즘은 우리 생활에 안 쓰이는 곳이 없을 정도예요. 각종 컴퓨터 프로그램과 스마트폰의 어플 등 안 보이는 곳에서 알게 모르게 위력을 발휘하고 있지요. 알고리즘 덕분에 굳이 사람이 없어도 많은 일들을 자동으로 처리할 수 있게 됐어요. 이제 사람들은 단순 작업에 들이던 시간과 노력을 인간만이 할 수 있는 의미 있는 작업에 들일 수 있게 된 거예요. 알고리즘이 놀라운 위력을 발휘하고 있는 또 다른 현장을 만나 볼까요?"

혹시 우리나라에도 알고리즘 기자가 있나요? yes

한국에서는 지난 해부터 기사 요약 알고리즘이 등장하기 시작했다. 우선, 기사의 핵심 내용을 3줄로 발췌해 줄여 주는 ‘뉴스 썸머’라는 스마트폰 어플이 등장했다. 뉴스 썸머는 텍스트 알고리즘을 통해 기사를 문장별로 쪼갠 뒤, 핵심 문장 3개를 정해 스마트폰 한 페이지 분량인 300~400자에 맞게 줄여 준다.

그런데 최근에는 뉴스를 짧게 요약해 주는 알고리즘도 나왔다. 유니스트 응용수학과 석박통합과정에 재학 중인 김경훈 씨는 뉴스 요약 알고리즘인 ‘뉴스 잼’을 개발 중이다. 김경훈 씨는 “뉴스 잼은 하나의 신문 기사에서 핵심 정보를 추출한 뒤, 문장의 중요도를 점수로 매겨 짧은 문장으로 뉴스를 요약한다. 아직은 뉴스 기사 한 개를 요약하는 수준이지만, 앞으로 빅데이터 분석을 통해 대규모로 뉴스를 수집하고 분석해 요약할 예정”이라고 밝혔다.

알고리즘 기자는 있는데, 혹시 알고리즘 편집장도 있나요? yes

편집장은 기자가 쓴 기사의 내용이나 문장 등을 평가해 기사의 분량을 결정하고 신문이나 잡지 지면에 실리기 전 최종적으로 확인하는 역할을 한다. 마치 이런 편집장과 같은 알고리즘이 있다.

구글은 2012년 어떤 뉴스를 구글 뉴스 페이지에 얼마만큼의 비중으로 표시할 것인지 결정하기 위해 ‘구글 뉴스 랭킹 알고리즘’을 개발했다. 구글 뉴스 랭킹 알고리즘은 그 미디어 회사에서 생산한 기사 수나 직원 수, 사람들의 의견, 기사의 평균 길이와 단어 수, 기사에 문법적 실수와 오타가 많은지 등을 체크해 기사를 평가한다. 그리고 평가 결과를 점수로 매겨 기사의 순위를 정하고 구글 뉴스 페이지에서의 비중을 결정한다. 마치 편집장과 같은 역할을 하는 것이다.

알고리즘 기자와 운전자도 있는데, 알고리즘 의사도 있나요? yes

병원에서 진료나 건강 검진을 받으면 의료 데이터가 컴퓨터에 기록된다. 또한 온라인 상에는 의사나 전문가들만 접하던 전문 의학 정보들이 넘쳐난다. 이제 의사 한 사람의 머리로는 여러 명의 환자들을 치료하기 위해 혼자 엄청난 양의 의료 데이터를 소화할 수 없는 시대가 된 것이다.

이에 다량의 의료 데이터를 빠르게 분석해 환자에게 최적의 치료 방법을 신속하게 제안하는 데 의학 알고리즘이 쓰이고 있다. 실제로 미국 시카고대학교의 암 연구학자들은 암 환자의 유전 정보를 수집한 뒤 이를 분석해, 환자에게 최적의 치료 방법을 제안하는 알고리즘을 활용하고 있다.

온라인 상으로 심리 치료 방법을 제공하는 알고리즘도 있다. 스트레스나 불면증, 우울증 등으로 고통 받는 환자들이 자신의 증상을 체크하면, 알고리즘이 수집된 증상을 분석한다. 그 다음 여러 심리 치료 전문가들에 의해 만들어진 자가 치료법을 환자에게 알려 준다.

알고리즘으로 주식도 거래한다던데, 맞나요? yes

알고리즘 거래란 일정한 논리 구조, 즉 알고리즘에 따라 주식을 자동으로 거래하는 방식이다. 주식 시장에 대한 전반적인 상황과 투자자의 주식 거래 성향, 그리고 거래 비용을 종합적으로 판단해 주식 가격이 입력한 가격에 도달하면 거래가 자동으로 이뤄지도록 한 것이다. 인간의 판단은 최대한 빼고 원칙에 따라 주식을 거래하는 것으로, 사람을 통하지 않아 수수료도 줄일 수 있다.

하지만 부작용도 있다. 인간의 판단 없이 순전히 자동으로 주식 거래를 하다가 한쪽으로만 거래가 몰려 주식 시장이 빠른 속도로 붕괴한 경우가 있다. 또한 최근 우리나라에서는 알고리즘 오류 때문에 주문 실수가 일어나 증권사가 파산 위기에 몰린 일이 있었다.

d라이브러리

기자가 필요 없는 세상이 온다? 미래는 알고리즘 시대