주메뉴바로가기 본문바로가기

[Career] ‘빅데이터 재료’ 다듬어 일류 연구 이끈다

KISTI 연구실 탐방 ➋


과학자들의 연구를 ‘요리’에 비유한다면, 과학기술 빅데이터는 ‘재료’라고 할 수 있다. 일부 과학 분야는 엄청난 양의 재료를 손질해야 한다. 재료를 씻고 다듬고 정리하는 데 시간이 워낙 많이 걸려 정작 요리를 할 시간이 부족할 정도다. 나중에 요리를 할 때 필요한 재료를 골라서 빨리 가져오려면 차곡차곡 정리도 해줘야 한다. 이런 번거로운 일을 확 줄여주는 요리사가 있으면 어떨까.


“유럽입자물리연구소(CERN)가 힉스 입자를 발견할 수 있었던 이유 중 하나는 과학기술 빅데이터를 효율적으로 처리하고 분석하는 기술이 있었기 때문입니다.”

이상환 한국과학기술정보연구원(KISTI) 과학데이터연구센터장은 우리나라의 과학기술 발전을 위해선 날로 용량이 커지는 과학기술 빅데이터를 빠르게 처리하고 분석하는 기술이 필요하다고 말했다. 이 센터장은 “과학자들에게 물어보니 전체 연구시간의 80%를 데이터 전처리(데이터를 다듬고 추리는 과정)하는 데 보낸다고 했다”면서 “단순반복노동에 가까운 이런 시간을 줄이고, 데이터를 분석하는 데 더 많은 시간과 에너지를 들일 수 있다면 연구의 효율성도 높아질 것”이라고 말했다.

KISTI 과학데이터연구센터는 과학기술 빅데이터를 처리하고 분석하는 기술을 개발하는 곳이다. 예를 들어 대용량 데이터를 여러 컴퓨터에서 처리해 속도를 높이거나, 원본 데이터에 직접 접근해 바로 분석할 수 있는 ‘인 시츄(in-situ)’ 분석 엔진을 개발하는 식이다. 이상환 센터장은 “우리 센터의 목표는 과학자들이 대용량의 데이터를 처리하는 데 들이는 시간을 전체 연구시간의 20%로 줄이는 것”이라고 했다.


빅데이터 기술이 연구주제도 바꾼다

실제 연구현장에 과학기술 빅데이터 처리 및 분석 기술이 적용된 사례를 보면 이해하기 쉽다. KISTI는 3년 전부터 한국해양과학기술원(KIOST), 극지연구소(KOPRI)와 함께 미국항공우주국(NASA)의 해색(海色)위성센서(MODIS)와 우리나라 천리안 위성의 정지궤도해색센서(GOCI), 다중위성을 통해 얻은 정보를 빠르게 처리하고 분석하기 위한 기술을 개발해 현재 마무리 단계에 있다. 해색센서와 다중위성은 한반도 인근 바다색을 가시광선과 근적외선으로 관측해 식물성플랑크톤 변화를 관측하고, 수온, 바람, 해류, 파랑 등의 정보를 얻는다.

GOCI 같은 해색센서로 촬영한 영상은 용량이 엄청나게 크다. 사진 한 장이 1GB(기가바이트)에 이른다. 한 달 동안 얻은 자료를 합치면 용량이 1TB(테라바이트)에 이른다. 그런데 만약 적조현상만 관찰한다면 모든 파장의 정보를 볼 필요가 없다. 적조를 일으키는 미생물의 엽록소가 흡수하는 극히 일부분의 파장만 보면 된다. 이처럼 전체에서 필요한 정보를 압축하고 추려내는 과정이 전처리인데, 원본 데이터의 양이 워낙 크다보니 전처리에도 시간이 꽤 많이 걸린다.

손영백 KIOST 제주국제해양과학연구지원센터 선임연구원은 “KISTI와 함께 과학기술 빅데이터 처리 및 분석 소프트웨어를 만들고 나서 단순반복 업무인 전처리 과정에 소모되는 시간이 획기적으로 줄었다”며 “이제 거의 실시간으로 정보를 처리할 수 있게 됐다”고 말했다. 실제 KISTI가 GOCI와 유사한 해색위성센서인 AQUA 위성의 MODIS 센서로 얻은 비가공 정보를 해양연구자들이 사용할 수 있는 정보로 변환하는 효율을 측정한 결과, 전처리 기술 적용 전·후로 시간당 변환량이 무려 35.7배나 많아졌다.
효율증가는 연구주제에도 영향을 미친다. 손 선임연구원은 “예전에는 데이터를 다루는 데 시간이 많이 걸려 논문 한 편에 2~3년치 적조 데이터를 비교하는 수준이었는데, 전처리 기술이 갖춰지고 나서 훨씬 장기간의 데이터를 비교할 수 있게 됐다”고 말했다. 현재 손 선임연구원팀은 1998년도부터 2015년까지 남해안에서 발생했던 적조현상을 분석한 논문을 준비 중이다. 대용량 데이터를 자유롭게 사용할 수 있게 되면 연구주제도 확장될 수 있다. 손 선임연구원은 “앞으로는 기온, 수온, 강수량, 강물의 유입량, 구름의 양, 해류변화 등 여러 변수와 적조현상과의 상관관계를 비교해볼 수 있을 것”이라고 말했다.


과학기술 빅데이터는 계속 늘어난다

각 연구기관마다 사용하는 데이터의 종류가 다르기 때문에 필요한 데이터 처리와 분석 기술도 각기 다를 수밖에 없다. 이상환 센터장은 “연구기관에 필요한 기술을 개발하려면 해당 기관의 연구분야에 대한 이해가 필요하다”며 “새로운 연구기관을 맡게 되면, 그 기관이 무엇을 연구하는지부터 열심히 공부해야 한다” 고 말했다. 그동안 한국해양과학기술원과 극지연구소에 필요한 데이터 처리 및 분석 기술을 개발했고, 현재 국가핵융합연구소에서도 플라즈마 데이터를 처리하고 분석하기 위한 기술을 개발하고 있다.
글 : 변지민 과학동아
기타 : [공동기획] KISTI 한국과학기술정보연구원
이미지 출처 : GIB

과학동아 2016년 07호