d라이브러리










 
메가바이트, 기가바이트는 알아도 테라바이트, 페타바이트, 엑사바이트를 넘어 제타바이트란 단어를 처음 들어본 친구는 주목하자. 어마어마하게 큰 정보량을 의미하는 엑사(10$^{18}$)바이트의 세상이 다가왔다. 이제 우리가 기침을 하고 화장실에 가서 용변을 보고, 몇시에 집을 나가 몇시에 등교하는지 등 모든 정보를 하나하나 기록해 저장하는 빅데이터 시대가 열리고 있기 때문이다. 별별 것이 다 데이터가 되는 세상, 어떤 모습일까?

데이터가 넘쳐나는 빅데이터 세상


우리는 매일 컴퓨터와 스마트폰 등을 통해 책, 이메일, 사진, 영화, 게임 등을 사용한다. 이런 데이터의 양은 대체 얼마나 될까?

2012년 미국 서던캘리포니아대 애넌버그 커뮤니케이션 저널리즘 대학원의 마틴 힐버트는 모든 데이터를 숫자로 나타내 보았다. 그 결과, 지난 해까지 전세계에 저장된 정보의 양은 1200엑사바이트에 이른다고 추정됐다. 엑사란 1018의 큰 단위로, 엑사바이트는 1018바이트를 말한다. 언뜻 감이 안 올 테니 예를 들어 보자.

영화 한 편은 약 1기가바이트의 용량이다. 기가는 109을 가리키는 단위이므로, 1엑사바이트는 10억 기가바이트에 해당하며, 이는 영화 10억 편과 같은 양인 셈이다. 그런데 1200엑사바이트라니! 마틴 힐버트는 이만큼의 데이터가 책으로 인쇄된다면 미국 국토 전체를 52번 덮을 수 있고, CD롬에 담아 위로 쌓아 올린다면 달까지 다섯 번을 쌓을 수 있다고 추정했다. 게다가 데이터는 빠르게 증가하고 있다. 지난 달 한 IT 업체가 발표한 보고서에서는 2020년이 되면 전세계 디지털 데이터 양이 44제타바이트에 달할 것이라고 추정했다. 제타는 1021에 해당한다.

이렇게 디지털 데이터량이 폭증하는 주요한 이유로는 사물인터넷이 손꼽힌다. 사물인터넷은 모든 기기들이 서로 무선 인터넷으로 연결돼 자동으로 데이터를 주고받는 센서 기반의 기술이다. 구글의 스마트 안경인 ‘구글 글라스’, 건강관리 기능을 접목한 나이키의 팔찌형 스마트 기기인 ‘퓨얼밴드’ 등 ‘입는 컴퓨터’가 바로 현재 대표적인 예다. 지난 해까지 인터넷에 연결된 디지털 기기의 수는 전세계에 140억 대가 있었다. 하지만 2020년에는 320억 대까지 증가할 것으로 추정되고 있다. 전문가들은 앞으로 디지털 정보가 2년마다 2배씩 폭발적으로 증가할 것으로 예상하고 있다. 지금까지는 스마트폰이나 컴퓨터를 통해 사람 중심으로 데이터가 만들어졌지만, 머지않아 사물이 주도적으로 데이터를 만들고 저장하고 활용할 것이다.
 

내 엉덩이도 데이터가 될까?

SNS, 사진,동영상,위치 정보 등 기존의 데이터 외에 여지껏 한 번도 데이터라고 진지하게 생각한 적 없는 자료들도 데이터화 되고 있다. 데이터화란 어떤 현상을 분석이 가능하도록 수량화 된 형태로 만드는 것을 말한다. 어떤 현상이 데이터화 되면 쓸모 없어 보이던 자료에서 유용한 정보를 추출해 다양한 분야에 활용할 수 있다.

예를 들어 사물인터넷이 활성화 되면, 치아위생에서부터 식물과 애완동물 돌보기까지 데이터화할 수 있다. 실제로 미국 샌프란시스코에 위치한 한 기 업은 아주 조그만 크기의 움직임 감지 센서를 판다. 만약 치실 통, 물뿌리개, 고양이 배설통에 이 센서를 부착하면 이 물건이 얼마나 많이 사용됐는지 분석해 치아가 잘 관리되고 있는지, 식물이나 애완동물을 잘 돌보고 있는지 등을 알 수 있다. 자동차 회사의 경우 고객의 자동차에 부착된 센서 신호를 통해 차의 상태를 실시간으로 확인하고, 이상이 있을 때 고객에게 차량 점검이 필요하다는 메시지를 보낼 수 있다.

우리나라의 경우 한 통신사에서 만든 네비게이션 앱이나, 한 제약회사에서 만든 멍 치료제를 대표적인 사례로 꼽을 수 있다. 멍 치료제의 경우, 원래 만들어진 지 20년도 더 된 연고제품이었다. 하지만 이 브랜드를 아는 소비자는 거의 없었다. 이에 회사에서는 트위터, 페이스북, 블로그 등 26억 건의 SNS 데이터 분석을 진행했다. 분석 결과, 사람들은 연고보다 계란을 문지르거나 쇠고기를 갖다 붙이는 등 민간요법에 의지한다는 사실을 알 수 있었다. 결국 이 제약회사는 멍든 사람들의 행동 방식에 주목해 주고객층을 바꾸고, 제품도 ‘바르는 진통 소염제’에서 ‘멍 치료제’로 새롭게 광고했다. 그 결과 매출이 50%나 오르며 대성공을 거둘 수 있었다.

한편, 다양한 데이터가 정보가 되는 시대가 되면서 걱정하는 목소리도 높다. 구글 글라스의 예만 보더라도 위치 정보나 사생활 침해 등을 반대하는 목소리와, 편의와 공공의 이익이 우선돼야 한다는 목소리가 서로 팽팽히 맞서고 있다. 이런 부분에 대한 사회적 합의는 빅데이터 세상을 맞은 우리들의 숙제다.

미리 보는 별별 데이터 세상

실시간 교통 정보도 빅데이터 분석으로

T맵은 전국 5만여 대의 택시와 버스, 유류 운반 차량 등에 센서를 부착해 교통정보를 수집한다. 그리고 10년 이상 쌓인 방대한 교통 정보와 시간, 날씨를 기본으로 센서가 보내오는 신호를 더해 실시간으로 교통정체를 분석한다. 그 결과 막히지 않고 가장 빨리 갈 수 있는 길과, 5분 이내의 오차로 예상 도착 시간을 알려 준다.

밟으면 안다! 바닥용 깔개
미국 IBM은 실내 바닥용 깔개에 관한 기술을 연구 중이다. 바닥에 깐 깔개가 스마트폰처럼 접촉을 인식해 위에 어떤 물체가 있는지 확인하는 것이다. 누군가 이 기술이 적용된 깔개를 밟으면, 바닥이 스스로 문을 열고 불을 켜야 한다는 것을 인식할 수 있다. 또 몸무게나 서 있는 자세, 혹은 걷는 모습을 통해 누구인지 알아낼 수도 있다. 또한 사람이 오랫동안 깔개에서 일어나지 않는다면 누군가 쓰러졌다는 판단을 내릴 수도 있다.

영덩이를 평가하라!
도쿄 일본 산업기술대학원대학 시게오미 코시미즈 교수 연구팀은 자동차 시트의 360개 위치에 센서를 설치했다. 그리고 각 지점의 압력을 측정해 운전자가 자리에 앉아 있을 때 신체의 윤곽, 자세,무게 분산 등을 수치화하고 분석한다. 이 기술은 자동차의 도난 방지 시스템에 활용될 수 있을 것으로 보인다. 만약 이 기술이 장착된 운전석에 등록된 운전자가 아닌 사람이 앉으면 비밀번호가 요구되고, 비밀번호가 맞지 않으면 즉시 엔진이 꺼진다. 또 운전자의 자세가 어떻게 바뀌었을 때 어떤 사고가 뒤따랐는지에 대한 데이터를 수집, 분석하면 운전자의 자세와 사고 사이의 관계도 알아낼 수 있다.

신체 정보도 데이터화 시대
미국 조지아공대 리서치연구소의 로버트 델러노와 브라이언 파리제 교수는 파킨슨병이나 다른 신경계 질환이 있는 사람들을 위해 ‘아이트램’이라는 스마트폰 앱을 개발했다. 이 앱은 스마트폰에 들어 있는 가속도계로 몸의 떨림을 수집하고 분석해 위험이 있을 경우 경고하도록 설계돼 있다. 천식 환자를 위한 기술도 있다. 천식 흡입기에 센서를 부착하고 GPS를 통해 위치를 추적하는 것이다. 이 데이터가 차곡차곡 모이면 어떤 환경, 어떤 위치에서 천식 발작이 잘 일어나는지 파익해 천식 발작을 유발하는 환경적 요인을 알아낼 수 있다.

위치 데이터로 교통체증을 예즉한다
미국의 한 업체는 휴대전화 가입자 수백만 명의 이동 경로를 통해 매일 150억 개의 지리 위치 기록을 분석한 뒤, 미국 전역 100여 개의 도시에 실시간으로 교통정보를 전한다. 위치 데이터를 통해 교통량을 파악하는 것이다. 위치 데이터는 시내 어느 지역이 밤에 가장 북적거리는지, 시위 집회에 몇 사람이 왔는지를 추정할 때도 >;나용된다.

데이터로 세상을 지배하라! 데이터과학자

2011년 미국의 IT전문 잡지인 〈인포월드〉는 ‘가장 각광받는 신종 IT직 업 6가지’ 중 하나로 데이터과학자를 선정했다. 2012년 10월에는 미국 하버드대에서 발간하는 ‘하버드 비즈니스리뷰’에서 데이터과학자를 ‘21세기 가장 주목되는 직업’으로 선정했고, 미국 유력 경제지〈포브스〉에서도 미래 최고의 직업 2위로 데이터과학자를꼽았다.

데이터과학자란 직업이 뭐기에 이렇게 주목하는 걸까? 빅데이터 시대에 수많은 데이터들이 쏟아져 나오지만, 사실 데이터가 크다고 꼭 좋은 건 아니다. 중요한 건, 데이터가 크든 작든 데이터로부터 유용한 정보를 추출해낼 수 있도록 분석해서 이를 의사결정에 활용하는 것! 즉, 세상이 데이터화되더라도 유용한 정보의 용도를 찾아내는 것은 결국 사람의 몫이다.

이렇게 도처에 깔린 데이터를 수집해 처리하기 쉬운 형태로 가공하고, 분석해 가치를 찾는 사람을 가리켜 ‘데이터과학자’라고 부른다. 가장 잘 알려진 데이터과학자로 구글 CEO인 래리 페이지를 꼽을 수 있다. 2011년 가장 영향력 있는 데이터과학자 중 한 사람으로 선정된 그는 구글의 창립자로서 데이터를 기반으로 한 구글의 굵직한 사업들을 결정해 왔다. 구글에서 유용하게 사용하는 빅데이터 기반의 서비스 중 하나는 자동번역시스템이다. 구글은 65개의 언어로 쓰여진 수십억 건의 문장과 번역문을 데이터화 하고 있다. 이를 바탕으로 번역 시 유사한 문장이나 어구를 기존에 축적된 데이터에서 찾아 다시 자동으로 번역해 준다.

데이터과학자의 중요성은 날로 커지고 있다. 컨설팅업체 맥킨지는 오는 2019년까지 미국에서만 데이터과학자 14만~19만 명이 필요하고, 영국에서는 약 5.8만 명, 한국에서는 약 1만 명의 데이터과학자가 필요하다고 전망했다. 하지만 우리나라는 물론 전세계를 통틀어 데이터과학자의 수는 매우 부족한 상황이다.

데이터과학자가 갖춰야 할 능력은?

통계학
수학
컴퓨터공학
분석적
문제해결능력
심리학
호기심
끈기
의사소통능력

데이터과학자는 어떤 일을 할까?


❶ 데이터 수집 : 분석하고자 하는 수많은 데이터를 수집한다.
❷ 전처리 과정 : 마구잡이로 수집된 데이터를 분석하기 쉬운 형태로 처리한다.
❸ 분 석 : 데이터 속에서 유의미한 가치를찾아낸다.
예) 텍스트 분석을 이용한 키워드 분석.
❹ 시각화 : 데이터 속에서 찾아낸 유의미한 가치를 잘 설명할 수 있는 형태로 디자인한다.

인터뷰
청년 데이터과학자를 꿈꾸다!


래리 페이지와 같은 데이터과학자를 꿈꾸며 도전하는 청년이 있다. 바로 서울대 산업공학과 박사과정 중인 박은정 씨다. 박은정 씨는 지난 해 뜻이 맞는 사람들과 함께 팀을 이뤄 삼성전자와 미래창조과학부가 주최한 창의 아이디어 공모전 '투모로우 솔루션'에 참여했다. 이 대회에서 그녀는 빅데이터를 이용한 정치 정보 플랫폼 '포커(http://pokr.kr)'를 만들어 청년부 최고상인 미래부장관상을 수상했다.

포커는 어떤 사이트인가요?

포커는 국회 입법정보를 국민에게 쉽고, 재미있게 전달하는 사이트예요. 포커에는 의원별, 정당별, 시기별 모든 입법정보가 한데 모여 있지요. 각 법안이 어느 단계에서 진행되고 있는지 쉽게 구분할 수 있어요.

왜 정치 정보 플랫폼을 만들었나요?

원래 정치에 관심이 있는 편은 아니었어요. 그런데 지난 대선 때 "대체 누구를 뽑아야 하나?" 고민이 되더라고요. 후보의 공약이나 공고만 봐서는 모르겠고, 당만 보고 찍기도 싫고.... 그래서 후보의 의안 발의, 활동 내역 등 객관적인 정보로 판단하면 좋지 않을까 생각했어요.
제게는 데이터 분석 기술이 있으니까 궁금한 것을 바로 알아보기로 했지요. 정치 정보를 분석해 누구나 객관적으로 판단을 내릴 수 있는 정보 사이트를 만들기로 마음을 먹고, 데이터 분석에 관심이 많은 다양한 전공의 학생들과 함께 작업을 시작했어요.

포커는 어떤 원리로 운영되나요?

포커의 정치 정보는 포커 사이트뿐만 아니라 '포커봇'이라는 알고리즘을 통해 트위터로 게시하고 있어요. 포커봇은 국회와 중앙선거관리위원회 등 정부 공식 사이트에서 실시간으로 정보를 수집해요. 그리고 이 다양한 정보들을 분석할 수 있는 형태로 전처리한 뒤, 알고리즘 분석을 통해 트위터에 유용한 정보를 게시하지요.

앞으로 계획이 있으신가요?

무수히 많은 정보 중, 내가 관심 있는 정치 정보만을 받아 볼 수 있는 맞춤화 정치 정보 시스템을 개발 중이에요. 앞으로 이런 정치 정보 시스템이 많이 활성화 돼, 정치에 관심이 없는 사람들에게도 도움이 됐으면 좋겠어요.

청소년들에게 한 마디 해 주세요.

데이터과학자는 정치뿐 아니라 패션, 영화, 책, 금융 등 다양한 분야에서 발생되는 데이터를 직접 만져 보고 깊이 들여다볼 수 있어요. 그런데 데이터를 숫자화하려면 프로그래밍이 꼭 필요해요. 저도 포커를 만들기 위해 직접 알고리즘을 짜며 프로그래밍을 했거든요.
따라서 데이터과학자를 하려면 프로그래밍을 할 수 있을 정도로 컴퓨터를 좋아하고 수학에 대한 이해도 갖추고 있어야 해요. 뿐만 아니라 관심 분야가 다양해야 하구요. 수학, 통계, 컴퓨터를 좋아한다면 꼭 도전해 볼 만한 직업이에요.
 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2014년 05월 수학동아 정보

  • 김정(ddanceleo@donga.com) 기자
  • 권오한
  • 도움

    조성준 교수
  • 도움

    최대우 교수
  • 도움

    박은정 박사과정
  • 사진

    박은정
  • 사진

    위키미디어
  • 사진

    김정 기자

🎓️ 진로 추천

  • 컴퓨터공학
  • 통계학
  • 정보·통신공학
이 기사를 읽은 분이 본
다른 인기기사는?