d라이브러리









 


빅데이터는 그 자체로는 쓸모 없다. 그 속에서 어떠한 가치를 이끌어내야 의미가 있다. 여기에 수학이 결정적인 역할을 한다.

 


웨이블릿 변환 나쁜 유전자 찾는 열쇠, 웨이블릿 변환

인간의 유전자 지도는 대표적인 생체 빅데이터로 질병을 예측하는 데 쓰일 수 있다. 지난 5월 10일 광주과학기술원(GIST) 전기전자컴퓨터공학부 이현주 교수팀은 암과 관련이 많은 유전자를 찾아내는 분석 알고리즘을 개발했다고 밝혔다. 유전체를 짧은 길이로 무수히 쪼갠 DNA 조각으로 나눠서 얻은 빅데이터를 이용했다.

이 데이터를 분석하는 데는 ‘웨이블릿 변환’이 쓰였다. 웨이블릿 변환은 웨이블릿이라는 함수를 이용해 수많은 데이터 중 필요한 정보만 골라내는 방법이다. 이를 이용해 암을 유발할 가능성이 높은 유전자만 고를 수 있다. 이 알고리즘을 난소암 샘플 47개에 적용해본 결과, 전보다 두 배 이상 많은 암 관련 유전자를 찾아냈다.

이 교수는 “암과 같은 질병이 발생하면 유전체의 특정 영역이 복제되거나 소실돼 유전자의 개수가 변하는 경우가 있다”며, “이 알고리즘은 생체 빅데이터로부터 암과 관련된 유전변이 부분을 찾는 데 널리 활용될 것으로 기대한다”고 밝혔다.

이런 것도 빅데이터 분석으로~?
 


1. 다른 성별로 게임해본 사람 손~?!

KAIST 문화기술대학원 차미영, 박주용 교수팀은 자신의 성별과 아바타의 성별을 다르게 만들어 게임하는 사람들을 분석했다. 게임 속 세상을 가상 실험실로 보고 게임 내 데이터를 분석해 사람들의 행동을 이해해 보려는 것이다. 논문 제1저자인 박건우 연구원은 “다른 성별로 게임을 하는 사람들이 어떤 행동 패턴을 보이는지 궁금했다”며 연구 동기를 밝혔다.

데이터 분석 결과, 이들은 반대 성별의 이점을 누리기 위해 다른 성별의 아바타로 플레이한다는 결론을 얻었다. 남성은 게임 내에서 여성 캐릭터가 남성 게이머들의 도움을 받는 점이 부러워서, 여성은 그런 도움 없이 게임에만 집중하고 싶어 다른 성별의 아바타로 플레이하는 것이다. 이 결과는 그동안 설문 조사만으로 알려진 결과를 객관적인 데이터로 검증한 것이기도 하다.

2. 마트는 부모님보다 나를 더 잘 안다?

미국에 사는 한 여성은 어느 날 할인마트인 ‘타겟’으로부터 ‘유아용품 할인쿠폰’을 받고 깜짝 놀랐다. 아직 부모님에게도 알리지 않은 임신 사실을 마트가 먼저 알고, 그와 관련된 쿠폰을 보내준 것이다. 타겟은 이 여성이 예비 엄마가 됐다는 사실을 어떻게 알았을까?

타겟은 임신한 여성들이 초기에는 영양제, 중기에는 로션, 말기에는 유아용품을 주로 구매한다는 결과를 빅데이터 분석을 통해 알아냈다. 그리고 이 여성의 구매 패턴으로부터 여성이 임신했다고 예측하고, 유아용품 할인쿠폰을 보내 소비를 유도한 것이다.

이처럼 마트의 마케팅 담당자는 사람들이 많은 돈을 지출하는 출산, 결혼, 휴가 같은 시기를 분석해 매출을 올릴 수 있다.
 

 

3. 작심삼일 안 하려면 SNS로 전해라~

KAIST 문화기술대학원 차미영 교수팀은 다이어트처럼 꾸준히 지속하기 어려운 일을 어떻게 하면 유지할 수 있을지 트위터와 ‘MyFitnessPal’이라는 운동 앱의 데이터를 활용해 분석했다.

 

MyFitnessPal을 쓰는 사용자는 무엇을 먹었고, 어떤 운동을 하고, 체중이 어떻게 변하는지를 관리할 수 있다. 이 앱은 앱에 기록되는 운동 상태를 트위터를 통해 자동으로 공유하는 기능이 있다.

분석 결과, 트위터 같은 공개적인 장소에 운동을 하고 있다고 언급하면 운동 앱을 지속적으로 사용할 확률이 높아졌다. 즉, 남들에게 내가 운동하고 있다는 사실을 알리는 게 운동을 꾸준히 할 수 있도록 도와주는 것이다. 만약 다이어트나 운동을 꾸준히 할 자신이 없다면 SNS로 친구들에게 알려보는 건 어떨까.


 
군집분석 데이터로 코칭하는 스키

2018년 2월에 우리나라에서 열리는 평창 동계올림픽에서 알파인 스키종목을 준비하는 선수들은 빅데이터 분석을 통해 경기력 향상에 도움을 받고 있다.

우리나라는 스키 코치가 부족해 선수 개개인의 특징에 맞춰 훈련을 하기 어렵다. 한국체육대가 총괄하고 KAIST가 공동으로 연구에 참여하는 동계스포츠 과학화 기반조성 융합 연구팀은 이러한 한계를 데이터와 분석 알고리즘으로 극복하겠다는 목표를 가지고 2018 평창 동계올림픽을 준비 중이다. 선수들의 개인 데이터를 수집해 개인별로 맞춤 훈련 계획을 짜는 것이다.

연구팀은 머리와 꼬리뼈, 손, 허벅지, 정강이 등 총 16개의 센서를 붙여 데이터를 수집했다. 그리고 발에 달린 센서에서 잰 압력 데이터와 가장 비슷한 패턴을 보여주는 센서를 파악하는 ‘군집 분석’을 진행했다. 스키에서는 무게중심이 중요한데, 이는 발에 부착한 센서에서 수집된 데이터로 알 수 있다. 그런데 스키 선수들은 각자 발의 크기에 딱 맞게 스키를 쓰기 때문에 센서를 달기 어렵다. 그래서 발에 붙인 센서와 비슷한 패턴을 보이는 센서를 찾는 것이다.

분석 결과, 연구팀은 꼬리뼈에 부착한 센서가 발에 센서를 부착할 때와 비슷한 결과를 낸다는 것을 알아냈다. 꼬리뼈에 센서를 부착하는 것만으로 무게중심 데이터를 수집할 수 있게 된 것이다. 이는 실제와 더 비슷한 상황에서 데이터를 수집할 수 있는 길을 마련했다.

[알파인 스키 뒤꿈치가 고정된 바인딩을 장착한 스키를 타고 눈 덮인 슬로프를 내려오는 스포츠다.
[군집 분석 비슷한 데이터를 하나의 집합으로 묶는 통계학적 방법이다.]
 
 

위상수학 위상수학으로 데이터를 그리다

요즘에는 위상수학을 데이터 분석에 응용하는 ‘위상적 데이터 분석’이 각광받고 있다. 위상수학을 이용해 데이터의 숨어있는 구조 혹은 가치를 효과적으로 파악하는 것이다.

한 사례로 강남세브란스병원 정신건강의학과 김은주 교수팀은 위상적 데이터 분석으로 주의력결핍 과잉행동장애(ADHD) 아동과 정상 아동의 뇌 영상을 구분해냈다. 그동안은 부모나 교사가 관찰한 내용과 설문지 등의 방법에만 의존했었다.

김 교수는 “주의력결핍 과잉행동장애 연구에 뇌 영상 데이터를 활용하기 위해 위상적 데이터 분석을 처음으로 적용한 것”이라며 연구의 의의를 밝혔다. 공동 연구자인 강남세브란스병원 정신건강의학과 경성현 박사는 “빅데이터가 질병 진단이나 환자 특성 파악에 어떻게 활용될 수 있는지 확인했다”며, “이 기법이 다른 질병에도 쓰일 수 있을 것으로 기대한다”고 말했다.

 
데이터과학자를 만나다

빅데이터를 다루는 데이터과학자는 어떤 사람일지 궁금하다. 그들은 어떻게 데이터과학자가 됐을까? 수소문 끝에 직업에 대한 애정이 남다른 김이식 상무를 만나 그의 이야기를 들어봤다.

<;수학동아>; 독자 여러분 안녕하세요! 데이터과학자가 어떤 사람인지 소개할 수 있게 돼 기쁩니다. 먼저 제 어릴 적 이야기부터 하는 게 좋겠네요. 저는 수학을 좋아하는 아이였답니다. 특히 답안지에 없는 새로운 풀이를 만들어내는 일이 좋았어요. 남들하고 다르게 푸는 데서 재미를 느꼈습니다. 이렇게 수학을 좋아했던 저는 자연스럽게 수학과에 진학했습니다.

수학 속에서 관심을 찾다

수학과에서 공부하며 수학에서 느낀 재미가 수학 자체보다도 ‘문제를 해결’하면서 더 컸다는 걸 깨달았어요. 특히 남들이 못 푸는 문제를 해결하는 게 좋았습니다. 고등학생 때까지는 그런 재미를 느낄 수 있는 게 수학 밖에 없었고, 알고 있는 직업도 별로 없었어요. 생각의 폭이 좁았던 거지요.

대학교를 졸업한 뒤에는 ‘전략 컨설팅 회사’를 다녔어요. 컨설팅이란 다른 회사의 문제를 해결해주는 일인데, 그들에게 도움이 되는 좋은 아이디어를 떠올리는 직관과 그들을 설득할 수 있는 논리력이 필요했어요. 여기에 객관적인 근거가 되는 것이 바로 데이터예요. 데이터가 지금처럼 부각되기 전부  현실의 문제를 데이터로 해결하기 시작했던 거죠. 그렇게 계속 이 일을 하다 보니 데이터과학자가 될 수 있었어요.

 

데이터과학자에게 중요한 건?

이터과학자는 필요한 데이터를 ‘잘 찾아내는 것’이 중요하다고 생각해요. 예를 들어, 해외에서 들어오는 지카나 메르스 바이러스를 어떻게 막을 수 있을까요? 사람들의 로밍 데이터를 이용하면 됩니다. 그동안 감염병 발생국을 방문했다가 제3국을 경유해 귀국하는 사람들을 알 길이 없었는데, 로밍을 했다면 모두 알 수 있겠죠. 그렇게 확인된 사람들을 집중적으로 관리하면 감염병을 예방할 수 있습니다. 감염병 예방에 필요한 적절한 데이터를 잘 찾아낸 것이지요.

저는 데이터과학자로서 많은 사람에게 도움이 되고, 저 스스로도 재미있는 일을 하고 있는 셈이니 재미와 보람을 느낍니다. 여러분도 자신이 무엇을 좋아하는지 잘 찾아보고, 그 꿈을 향해 한 발자국씩 나아갔으면 좋겠어요. 응원하겠습니다!
 
 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2016년 06월 수학동아 정보

  • 김경환 기자(dalgudot@donga.com)
  • 도움

    현윤경(국가수리과학연구소 융합수학연구부 연구책임자), 차미영(KAIST 문화기술대학원 교수), 박건우(KAIST 전산학부 웹사이언스대학원 박사과정), 김이식(kt 빅데이터센터 상무), 장영재(KAIST 산업및시스템공학과 교수), 최수영(아주대 수학과 교수)
  • 기타

    [일러스트] 김경찬, 얼굴스
  • 기타

    [참고 서적] 에릭 시겔의 , 브루스 슈나이어의 , 김진영의 <헬로 데이터 과학>

🎓️ 진로 추천

  • 수학
  • 컴퓨터공학
  • 생명과학·생명공학
이 기사를 읽은 분이 본
다른 인기기사는?