“전 세계 곳곳에서 모인 데이터가 3400만 건이 넘었다는 뜻입니다.”
4월 5일 서울 강남구에 위치한 의료기기 전문기업 인바디 사옥. 커다란 전광판에서 계속 올라가는 숫자의 의미를 묻자 김경수 인바디 미래연구실 대리가 이렇게 답했다. 국내 기업이 전 세계 수천만 명의 데이터를 수집하는 이유가 궁금했다. 데이터과학자로 활약중인 김 대리를 만나 이유를 들었다.
인바디가 주력하고 있는 체성분분석기는 전기신호를 이용해 몸의 수분과 근육, 지방의 양을 확인하는 기기다. 체력단련장이나 보건소 등에서 건강을 확인하는 데 널리 쓰인다. 최근에는 자체 기술을 활용한 건강관리 시스템 개발에 박차를 가하고 있다. 이를 위해 전 세계에서 사용자의 동의하에 데이터를 수집, 활용하고 있다. 이렇게 모인 데이터는 3400만여 건에 달하고, 지금도 계속 쌓이고 있다.
데이터의 가치를 살리는 일
데이터과학은 데이터와 관련된 모든 분야를 포함하는 말이다. 데이터를 얻고 처리하는 방법을 연구하는 데이터공학과 수학적으로 데이터를 해석하는 데이터분석, 데이터를 이용해 인공지능을 개발하는 머신러닝 등이 모두 포함된다.
이 가운데 김 대리는 인바디로 반복해서 수집한 생체데이터를 어떻게 가공하고 처리할지, 이를 어떻게 정확한 진단에 활용할지 연구한다. 최근에는 단순한 체지방률, 근육량 등을 넘어서 의료기기로 반복해서 수집한 생체정보를 분석해 질병의 위험성을 파악하고 이를 조기진단하는 방법을 개발하고 있다.
데이터과학은 데이터를 수집하는 방법으로 시작하는 만큼 제품 개발자들과 협업이 필수다. 김 대리는 “해당 제품에 어떤 방법과 원리가 적용됐는지 이해하기 위해 전자개발자와 자주 의논하고 있다”고 말했다.
특히 의료기기 분야에서는 새로운 장치를 개발하거나 기존 장치를 개선하는 데 데이터과학자의 역할이 매우 중요하다. 가령 질병을 진단하는 장치를 새롭게 개발하려면 체성분과 심박수, 혈류량 등의 데이터를 어떻게 수집할지 결정해야 한다. 만약 영상처럼 대량으로 처리하기 어려운 방식의 데이터를 수집한다면 진단 정확도를 높이기가 어려워진다. 따라서 영상이 아닌 수치 데이터를 수집하도록 미리 개발자에게 조언해야 한다. 또 기존에는 해석하지 못했던 수많은 데이터가 빅데이터 기술의 발전과 함께 귀중한 정보로 재탄생될 수 있다. 이런 기술 발전을 데이터과학자들이 주도할 수 있다.
다양한 분야, 자신만의 전문성 갖춰야
“데이터과학자로서 가장 중요한 자질은 자신만의 전문분야를 바탕으로 수학과 컴퓨터과학 능력을 키우는 것입니다.”
산업계에서 데이터의 중요성은 갈수록 높아지고 있다. 의료기기 등 전자제품뿐만 아니라 정보기술(IT), 금융, 유통 등 대부분 분야에서 데이터를 활용해 소비자들에게 더 나은 서비스를 제공하려고 노력하고 있다. 김 대리는 “최근 넓은 분야에서 활약하는 만큼 자신만의 전문분야를 갖는 것이 중요하다”고 설명했다.
가령 경영학을 전공하면 증권이나 금융권에서, 생명과학과 화학에 대한 전문지식이 있다면 제약회사에서 데이터과학자로 활약할 수 있다. 김 대리는 대학과 대학원에서 의공학, 의과학을 전공했다. 김 대리는 “두 전공에서는 생체데이터에 대한 전문지식을 배울 기회가 있었다”고 말했다.
물론 수학과 컴퓨터과학도 중요하다. 아무리 전문지식이 많다고 해도 데이터과학자는 데이터를 도구로 사용하기 때문이다. 김 대리는 데이터과학자를 꿈꾼다면 통계학과 컴퓨터 언어는 반드시 배워야 한다고 조언했다.
김 대리는 “대학에서는 자신이 관심 있는 분야를 배우고 대학원에서 수학과 데이터를 공부하는 것을 추천한다”며 “데이터산업이 앞으로도 꾸준히 성장할 것인 만큼 많은 이들이 데이터과학자에 도전했으면 좋겠다”고 말했다.