수많은 단백질 정보가 복잡하게 얽혀 있는 미생물의 유전자, 수십 개의 통계 용어가 이용되는 야구 메이저리그의 선수 기록, 수십 년 동안의 의학 기록 등 산더미처럼 쌓여 있는 데이터 속에서 서로 연관 관계가 있는 유용한 정보를 찾아내는 새로운 알고리듬이 개발됐다.
데이비드 레셰프 미국 MIT 컴퓨터과학과 교수팀은 복잡한 데이터 중에서 항목을 찾아낸 뒤, 서로 상관관계를 이루는 데이터 짝을 추려 모아 순위를 부여하는 방식으로 상관관계를 찾아내는 데이터 분석 프로그램을 개발해 12월 16일 ‘사이언스’에 발표했다.
‘최대 정보 기반 비매개변수 탐색(MINE)’이라는 이름이 붙은 이 통계 처리 기법은 항목 사이의 관계 뿐 아니라 언뜻 연관이 없어 보이는 불규칙한 상관관계(비선형 관계)까지 함께 찾아 주기 때문에 데이터 사이의 복잡한 질서를 분석하기에 유용하다.
연구팀은 이 알고리듬을 시험하기 위해 인간과 동물의 장내 미생물 수 조 마리의 유전 정보 사이의 관계를 분석했다.
모두 2241만 개의 데이터 항목을 추출해 서로 짝을 지으며 비교한 결과 종 사이에 서로 연관이 있는 데이터를 9472개 추출할 수 있었다. 이 중에는 음식이나 숙주의 성별 등 미생물에게 영향을 주지만 종 사이에는 관계는 없는 ‘숨은 요인’ 312개가 포함돼 있었다. 기존 어떤 방법으로도 관계가 확인되지 않은 요인도 188개나 발견됐다.
연구팀의 파디스 사베티 하버드대 시스템생물학센터 교수는 “많은 데이터가 복잡한 상관관계를 이루고 있다”고 말했다. 성원경 한국과학기술정보연구원(KISTI) 정보기술연구실장은 “많은 양의 자료에서 패턴을 찾아내 먼저 가설을 세운 뒤 실험으로 검증하는 최근 연구 패러다임에 유용하게 활용될 것”이라고 말했다.
데이비드 레셰프 미국 MIT 컴퓨터과학과 교수팀은 복잡한 데이터 중에서 항목을 찾아낸 뒤, 서로 상관관계를 이루는 데이터 짝을 추려 모아 순위를 부여하는 방식으로 상관관계를 찾아내는 데이터 분석 프로그램을 개발해 12월 16일 ‘사이언스’에 발표했다.
‘최대 정보 기반 비매개변수 탐색(MINE)’이라는 이름이 붙은 이 통계 처리 기법은 항목 사이의 관계 뿐 아니라 언뜻 연관이 없어 보이는 불규칙한 상관관계(비선형 관계)까지 함께 찾아 주기 때문에 데이터 사이의 복잡한 질서를 분석하기에 유용하다.
연구팀은 이 알고리듬을 시험하기 위해 인간과 동물의 장내 미생물 수 조 마리의 유전 정보 사이의 관계를 분석했다.
모두 2241만 개의 데이터 항목을 추출해 서로 짝을 지으며 비교한 결과 종 사이에 서로 연관이 있는 데이터를 9472개 추출할 수 있었다. 이 중에는 음식이나 숙주의 성별 등 미생물에게 영향을 주지만 종 사이에는 관계는 없는 ‘숨은 요인’ 312개가 포함돼 있었다. 기존 어떤 방법으로도 관계가 확인되지 않은 요인도 188개나 발견됐다.
연구팀의 파디스 사베티 하버드대 시스템생물학센터 교수는 “많은 데이터가 복잡한 상관관계를 이루고 있다”고 말했다. 성원경 한국과학기술정보연구원(KISTI) 정보기술연구실장은 “많은 양의 자료에서 패턴을 찾아내 먼저 가설을 세운 뒤 실험으로 검증하는 최근 연구 패러다임에 유용하게 활용될 것”이라고 말했다.