◀ 우리가 컴퓨터나 스마트폰 등으로 매일 기록하고 있는 모든 정보는 빠르게, 다양한 형태로 데이터가 되고 있다. 또 그 양은 기하급수적으로 늘어나고 있다.
빅데이터의 진정한 의미는 가치
뉴스에서, 길거리 광고에서, 어디서나 빅데이터란 단어를 심심찮게 볼 수 있다. 이름만 봐서는 큰 데이터, 즉 많은 데이터라는 뜻이다. 실제로 오늘날 사람들은 매일 어마어마한 데이터를 쌓아가고 있다. 20세기까지 쌓은 데이터를 모두 합한 것보다 요즘 하루에 만드는 데이터가 더 많을 정도다.
하지만 크기만 하다고 다 빅데이터는 아니다. 빅데이터는 ‘3V’로 정의한다. 3V는 영어 단어 Volume, Velocity, Variety의 머릿글자를 딴 것이다. Volume는 데이터의 양을, Velocity는 데이터가 매일 빠르게 늘어나고 있다는 의미의 속도, Variety는 이미지나 영상, 음악 등 다양한 형식이 모두 데이터가 된다는 의미에서 다양성을 말한다. 이 외에도 Value(가치)를 넣어 ‘4V’라고 정의하거나, 복잡성(Complexity)을 포함시켜 ‘3V + 1C’라고 하기도 한다.
![](https://images.dongascience.com/uploads/article/Contents/201706/M201606N011_03.jpg)
빅데이터의 진정한 의미는 데이터 안에 숨어 있는 ‘가치’를 찾아내는 데 있다. 즉 빅데이터는 얻을 수 있는 가치를 중심으로 생각해야 한다. 데이터의 크기가 작아도 큰 가치를 이끌어낼 수 있다면 충분히 의미가 있다.
데이터를 표현하는 행렬
그러면 빅데이터는 어떻게 분석할까? 과학의 언어가 수학이듯 데이터를 분석하는 데도 수학이 그 역할을 하고 있다. 특히 ‘행렬’은 데이터를 표현할 때 중요하다. 예를 들어, ‘행렬은 데이터를 표현할 때 중요한 역할을 한다’라는 문장을 데이터로 표현한다고 해보자. 이 문장을 주어, 목적어, 서술어, 형용사, 부사 등의 문장 성분으로 구분해, 이것을 행렬의 행의 성분으로 본다. 각 개수를 열로 나타내면 아래와 같이 ‘데이터 행렬’로 나타낼 수 있다.
![](https://images.dongascience.com/uploads/article/Contents/201605/M201606N011_4.jpg)
그 외에도 문장의 다른 특징으로 행렬을 구성할 수도 있다. 특징이 많으면 오른쪽으로 긴 행렬이 되고, 데이터가 많으면 아래쪽으로 긴 행렬이 된다. 행렬이 한쪽으로 너무 긴 형태가 되면 풀기가 어렵다. 이럴 때는 선형대수학이나 수치해석학의 이론으로 우리가 풀 수 있는 형태로 바꿔준다.
행렬은 데이터를 표현하는 데도 쓰이지만, 행렬 자체가 데이터인 경우도 많다. 특히 이미지 데이터가 그렇다. 사진을 확대하면 보이는 각 픽셀을 행렬로 표현하는 것이다. 하나의 네모 칸 하나하나를 색깔을 나타내는 0에서 255까지의 숫자로 나타낸다. 인공지능 알파고도 바둑판 이미지를 행렬로 표현해 인식한다.
![](https://images.dongascience.com/uploads/article/Contents/201605/M201606N011_5.jpg)
![](https://images.dongascience.com/uploads/article/Contents/201605/M201606N011_6.jpg)
![](https://images.dongascience.com/uploads/article/Contents/201605/M201606N011_7.jpg)
![](https://images.dongascience.com/uploads/article/Contents/201605/M201606N011_8.jpg)
빅데이터의 빛과 어둠
![](https://images.dongascience.com/uploads/article/Contents/201605/M201606N011_9.jpg)
빅데이터가 만드는 장밋빛 미래
하루도 빠짐없이 보도되는 수많은 범죄 뉴스는 눈살을 찌푸리게 한다. 그런데 만약 범죄를 예견하는 초능력자가 있다면 어떨까? 빅데이터는 이 초능력자의 역할을 할 수 있다. CCTV로 모은 데이터로 범죄자가 범죄를 일으키기 전에 어떤 행동을 하는지 분석한 뒤, 비슷한 행동을 하는 사람들이 있는 장소를 순찰해 예방하는 것이다. 그러면 우리 주변에서 일어나는 범죄를 크게 줄일 수 있다.
![](https://images.dongascience.com/uploads/article/Contents/201605/M201606N011_10.jpg)
마치 영화 속에서나 있을 법한 이런 이야기는 이미 빅데이터로 현실이 되고 있다. 지금 이 순간에도 수없이 만들어지고 있는 빅데이터를 잘 활용하면 우리 생활에 큰 도움이 된다. 실시간으로 전기 사용량을 확인해 에너지를 절약할 수도 있고, 작물 데이터를 분석해 농사의 효율성을 높일 수도 있다. 또, 그동안 축적된 건강검진 데이터로 개인에 따라 걸릴 수 있는 질병을 예측해 예방할 수도 있다. 오늘날보다 안전하고, 편하고, 건강한 장밋빛 미래가 열리고 있는 것이다.
![](https://images.dongascience.com/uploads/article/Contents/201605/M201606N011_11.jpg)
큰 힘에는 큰 책임이 따른다
나의 생각과 감정을 누군가가 훔쳐보고 있다면 어떤 기분일까? 생각만 해도 끔찍하지만, 우리가 만들어낸 데이터를 모으고 있는 사람들이 데이터를 악용한다면 이는 충분히 현실이 될 수 있다.
우리는 매일 스마트폰이나 컴퓨터로 검색을 한다. 궁금한 게 생기면 어디에서나 바로 인터넷을 이용해 찾아볼 수 있다. 이때 검색어는 내가 무엇이 궁금한지, 무슨 생각을 하고 있는지 데이터로 남긴다. 여기에는 내가 검색한 시간과 위치까지 담겨 있다.
이 데이터를 확인하면 사람들이 어디서 무엇을 하는지 앉은 자리에서 알아낼 수 있는 것이다. 이처럼 빅데이터를 남용하면 개인정보는 공공정보가 되는 것은 물론, 나만의 비밀과 사생활은 없어지게 된다.
심지어 데이터는 기록하면 쉽게 지워지지 않는 다. 사람은 지난 일을 서서히 망각하지만, 디지털 기록으로 남긴 데이터는 계속 남아 있는 것이다. 결국에는 내가 기억하지도 못하는 일을 데이터는 기억하고 있다. 데이터가 나보다 나를 더 잘아는 것이다.
모든 기술이 좋은 점이 있다면 나쁜 점도 있듯이 빅데이터를 활용한 기술 또한 그렇다. 사람들이 남긴 개인의 기록인 데이터를 활용하는 사람들에게는 그만큼의 책임이 따른다.