d라이브러리









왜 인간게놈 연구에 통계학이 동원될까

방대한 데이터 부스러기에서 금맥 찾는 데이터마이닝

오늘날에는 매일 쏟아지는 방대한 데이터로부터 의미있는 자료를 얼마나 신속하게 찾느냐에 기업의 성패가 달려있다. 이를 위해 통계학적 기술이 응용되는데, 데이터마이닝이 바로 그것. 기업뿐 아니라 인간유전자의 의미를 찾아가는 포스트게놈 연구에서도 중요성이 부각되고 있다. 왜일까.

 



필자가 미국 뉴저지주에서 공부하던 시절 집사람은 가끔 기차를 타고 뉴욕시에 가곤 했다. 집으로 돌아올 때는 기차 도착시간을 알려주기 위해 콜링카드에 적힌 개인번호와 암호를 공중전화를 통해 입력해 항상 나에게 전화를 걸었다.

그러던 어느날 집사람이 뉴욕에서 돌아와 저녁식사를 마칠 때쯤 콜링카드를 발급한AT&T사로부터 전화가 걸려왔다. 혹시 푸에르토리코와 콜롬비아 등에 여러통의 전화를건 적이 있냐고 묻는 것이었다. 그날도 아내는 뉴욕 메디슨 스퀘어가든 역에서 출발하는 기차 시간을 알려주기 위해 나에게 전화를 했고, 그후 불과 3시간 안에 벌어진 일이었다.

어떻게 전화회사는 남미로 걸려진 이상한 전화통화 사실을 감지했을까. 그리고서는 불과 3시간만에 콜링카드 소유자에게 통보해서 동의를 얻고 카드를 폐쇄시킬 수 있었을까. 이처럼 신속할 수 있다는 사실에 나는 경악했다.

그 후에 주위 한국 분들과 얘기를 나누다가 이같은 일이 심심치 않게 벌어진다는 것을 알게 됐다. 그리고 한결같이 여러 민족의 전시장인 뉴욕시에서의 별난 경험과 전화회사의 신속함에 혀를 내둘렀다.

그때가 1992년 가을이었으니까 벌써 10여년 전의 일이다. 첨단의 고객 서비스를 체험한 나는 할인혜택을 미끼로 덤벼오는 많은 장거리 통신업자를 거절하며 미국을 떠날 때까지 AT&T사의 서비스를 사용했다.

 


신용카드 부정사용자 적발

필자가 막연히 신기하게만 느꼈던 AT&T사의 시스템은‘부정통화감지’라는 것이었다. 이같은 시스템을 구축하기 위해서는 고객의 비정상적 통화 패턴을 포착할 수 있는 모형을 발굴해야 한다. 이때의 핵심기술이 바로‘데이터마이닝’인 것이다.

그렇다면 데이터마이닝이란 어떤 기술이기에 이처럼 똑똑할 수 있을까. 마이닝(채광작업)이라는 단어에서 알수 있듯이 방대한 양의 부스러기를 제거해야만 제대로 된 다이아몬드나 금을 찾아낼 수 있다는 의미이다. 이와 같은 논리를 데이터에 적용해보면 대용량의 데이터로부터 의미있는 지식을 발견하는 일을‘데이터를 캐낸다(마이닝한다)’고표현한 것이다. 즉 데이터마이닝은‘대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내 모형화함으로써 유용한 지식을 추출하는 일련의 과정들’이다. 이는 하나의 분석기법을 의미하는 것이 아니라 여러 기법과 방법들의 적절한 조합으로 이뤄진다.

국내에 데이터마이닝이 처음 도입된 것은 1997년 모 신용카드 회사의 카드 부정사용자 적발 시스템 개발에 필요한 예측 모델링 개발이라고 할 수 있다. 당시 신경망을 활용해 타인의 신용카드를 사용하는 패턴을 조기에 발굴하는 것이 시스템의 개발 목적이었다. 그러나 어떠한 입력자료로 정상, 비정상 거래를 판매해야 하는가에 대한 경험이 없었고 해당 신용카드사에서 갖고 있던 부정사용자에 대한 일부 지식도 편견에 지나지 않아 예측 정확도가 크게 기대에 미치지 못했다.

그래서 간단한 그래프, 온라인분석프로세싱(On Line Analytical Processing,OLAP) 수준의 분할표 등을 이용한 자료 탐색 과정이 시도됐다. 이를 통해 발견한 사실은 비정상 거래의 경우 타인의 신용카드를 습득한 후, 연속적으로 6-7회 카드사용을 하되 거래간의 시간 차이가 30분 정도, 그리고 사용 액수도 적당한 액수에서 유지된다는 점이었다. 따라서 비정상 거래의 조기 발굴을 위해서는 거래당일 연속거래 횟수, 평균사용금액 등의 거래자료로부터 생성되는 정보, 즉 데이터마이닝 분석용 자료를 생성하기 위한 기초 자료의 전처리 과정(pre-processing)이 있어야 한다. 결국 자료의 전처리 과정을 통해 만족스러운 수준에서 부정사용 거래자를 발굴할 수 있었다. 1997년 이후 지금까지 국내에는 고객관계관리(Customer Relationship Management, 이하 CRM)도입 열풍과 함께 이동통신 회사, 은행, 손해보험사, 증권사 등에서 데이터마이닝이 도입,활용되고 있다.

 


1980년대 중반에 인프라 구축

데이터마이닝의 탄생은 언제, 어디에서 시작됐을까. 그 기원은 컴퓨터가 본격적으로도입되기 시작한 1960년대 초라고 할 수 있다. 1963년 미국의 저명한 통계학 논문집인미국통계협회지에 통계학자 제임스 마이어와 에드워드 포지는 은행에 축적된 고객 대출관계 자료를 분석해 새로운 대출 희망고객에 대한 신용점수 산출방법에 대한 연구결과를 발표했다. 당시 적용된 방법은 개인의 나이, 수입, 전화보유 여부 등의 데이터를 이용해 데이터간의 함수관계를 통계적으로 예측한 모형이었다.

그러나 현재의 데이터마이닝에 근접한 것은 1980년대 중반에 이르러서이다. 사실 1960년대 초에 현재의 데이터마이닝을 적용 하기에는 인프라 구축에 너무나 많은 비용이 필요했다. 당시의 컴퓨터 연산능력은 한방을 가득 채우는 컴퓨터가 현재 노트북의 1백분의 1도 안되는 수준이었다. 30년 후에 일어날 Y2K 문제를 예상하면서도 년도의 앞두자리를 생략해야 할 만큼 메모리의 가격이 높던 때였다.

1984년 미국은 통신시장의 큰 지각변동이 있던해였다. AT&T사에의해독점됐던 장거리 통화시장이 강제 분할됐고 근거리 통화시장도 각 지역통신회사로 분리된 해이다. 1996년에 우리나라에서 시외전화를 한국통신의 독점에서 데이콤과의 경쟁체제로 진입했던 것처럼 말이다.
위기감을 느낀 AT&T사는 타사의 장거리통화서비스로 전환할 고객을 분류, 예측하기위한 작업에 착수했다. 또한 그동안 축적된 대용량의 자료를 분석할 수 있는 알고리듬을 수용하기 시작하며, 또 한편으로는 자체 개발에 착수했다.

그때를 즈음해 서부의 스탠포드대와 버클리 소재 캘리포니아대의 통계학과 레오 브레이만, 제롬 프라이드만, 그리고 찰스 스톤 교수 등은 현실 세계와 거리가 있을 수 있는 가정을 사용하지 않으면서 컴퓨터의 계산능력에 의존하는 새로운 통계분석 방법론을 제시하기 시작했다. 이때 발표된 알고리듬이 바로 유명한 CART(Classification AndRegression Trees)이다.

CART는 가장 선호되는 의사결정나무(decision tree) 모형으로 결과의 해석이 용이하고 빠른 계산속도로 대형 자료분석에 적합하다. 이 때문에 마케팅, 의학, 공학 등 다양한 분야에서 활용되고 있다. 특히 CRM 분야의 경우 마케팅 전략수립에 절대적으로 필요한 고객 세분화 결과를 제공해 국내 데이터마이닝 모델 중 90% 이상이 이 알고리듬을 사용해 자료를 분석하고 있다.

왜 새로운 모델링 방법이 제시됐고 그러한 분석방법이 도입돼야만 했을까. 이 질문에 대한 답변은 기존의 통계모형과 CART 등과같은 방법의 차이를 이해함으로써 얻을 수 있다. 미국은 제2차 대전 이후 곡창 지대인 위스콘신, 아이오와, 오하이오 등에 위치한 대학을 중심으로 통계학 발전을 이끌어왔다. 그 당시 연구의 주류는 현실과는 괴리될 수있는 강한 수리적 가정 하에서 자연현상을 선형모형(liner model)에 의해 설명하려는 것이었다. 강력한 가정이 제공하는 혜택은 이론의 완벽함, 그리고 계산과 결과해석의 용이함이었다. 반면 잃은 것은 일반성과 가정이 맞지 않은 경우의 부정확성이었다.

이후 농업 중심의 통계학이 의학과 통신분야에 활용되는 통계로 중심이 옮겨가게 됐다. 그러면서 미국 서부지역의 대학에서는 새로운 통계 패러다임이 싹트기 시작했다. 수리적 가정을 제거하면서 컴퓨터를 이용한 반복적이며 복잡한 계산을 마다하지 않고 결과의 정확성과 일반성에 초점을 맞추기 시작한 것이다. 이것이 바로‘비모수적 회귀모형’이라는 것이었다. 이 패러다임은 1984년의 장거리 통신시장의 분할이라는 큰 이슈와 만나 관련된 분석에 실제 적용되기 시작했다.


발견된 여러 법칙이나 조건문을 토대로 정보를 분석하는 의사결정나무

 


21세기 닷컴과 생물정보학에서 중요


1980년대 스탠퍼드대와 캘리포니아대의 통계학자 제롬 프라이드만


사실 데이터마이닝이라는 단어 자체의 탄생은1994년경으로추정하고있다. 아마데이터 웨어하우징(Data Warehousing)이라는 개념이 소개된 후라고 생각된다. 데이터 웨어하우징이란 기업에서 각 부서별로 엄청나게 축적된 자료를 고객별, 또는 분석 주제별로 통합 후 데이터 창고에 쌓아보자는 개념이다. 테라(1T=1012)급 이상 크기의 자료를축적할 수 있는 기술과 그만한 자료를 쌓아둘 만한 하드웨어의 가격이 저렴해졌기 때문에 데이터 웨어하우스의 구축은 많은 사람의 관심을 끌 수 있었다. 그리고 쌓아 놓은 자료의분석방법으로 OLAP와 데이터마이닝이 소개된 것이다.

한편 새 천년을 맞으며 데이터마이닝은 새로운 도전의 과제를 맞게 됐다. eCRM과 생물정보학이 그것이다. 닷컴 기업들은 냉정한 시장의 심판대에서 수익모델이라는 면죄부를 찾게 된다. 수익을 올리기 위해서는 확보된 고객을 관리하는 것이 필수요소가 됐고 그 방법론으로 온라인상의 고객관계관리인 eCRM이 소개된 것이다. 고객의 행동 패턴과 관련된 자료수집이나 자동화 구축이 용이한 기반 위에서 전자상거래에서의 상품추천, 자동응답 메일 시스템 등 데이터마이닝이 적용될 수 있는 다양한 분야가 있다. 특히 상품추천의 경우 공동 필터링이라는 기술이 핵심으로 이 역시 데이터마이닝 기법이 적용되곤 한다. 그리고 웹 로그온 자료로부터 고객들의 웹 서핑 흔적을 분석하는 웹마이닝(web mining)도 새로운 데이터마이닝 주제이다.

생물정보학(bioinformatics)은 통계적이론, 전산 기술 등을 이용해 생물학 정보들을 분석하는 새로운 학문이다. 인간의 유전자지도를 완성하는 1단계 인간게놈프로젝트가 성공리에 마무리 되면서 이후 방향이 유전자의 기능을 밝혀내는 기능유전체학(Functional Genomics)으로 바뀌고 있다. 이에 따라 생물정보학에서 데이터마이닝의중요성이 부각되고 있다. 데이터마이닝을 통해 유전자의 기능, 새로운 유전자의 발현경로 등을 밝히려는 것이다.

현재 생물학에의 데이터마이닝 적용은 초기 단계라 볼 수 있다. 하지만 이미 기능이밝혀진 유전자를 작은 판에 빼곡이 집적한 DNA칩의 반응으로부터 얻은 자료에 대한 데이터마이닝 작업을 통해 개인별 인종별 유전자 차이를 분석하는 단일염기다형성(SNP, SingleNucleotide Polymorphism) 발굴 등 몇몇 분야에 기술들이 적용되고 있다.

여기에서 데이터마이닝은 DNA칩 상에 놓인 수천개의 유전자에 대한 녹색과 적색의 염색물에 반응상태를 이미지 자료로 만든 후 군집분석(clustering)을 통해 발현 양상이 유사한 유전자들을 묶는 방법으로 널리 사용되고 있다. 이렇게 군집화된 유전자들은 다시 생물학적 의미를 파악하기 위해 기존에 알려진 다른 데이터와의 비교 분석을 위해 의사결정나무 등을 이용해 분류모형에 적용하기도 한다.

 


국내 전공학자 손에 꼽을 정도


21세기에 데이터마이닝에게 주어진 주요 과제는 닷컴기 업의 고객관계관리와 생물정보학에 있다


이처럼 응용분야가 다양한 데이터마이닝 분야가 우리나라에서는 어느 수준일까. 국내데이터마이닝이 활발히 도입되는 것에 비해 기술이나 연구수준은 상당히 낙후돼있다. 물론 신문지상을 통해 국내 데이터마이닝 솔루션이나 분석 알고리듬을 개발했다는 업체들이 있기는 하다. 하지만 독자적인 기술을 보유하고 있는 업체는 한두개에 불과하다. 더군다나 기존 통계 분석 방식인 SAS와 같은 통계 패키지를 사용하는 경우가 대부분이다.

대학에서의 연구도 심도 있는 연구보다는 상업용 데이터마이닝 솔루션 교육에 의존하고 있는 실정이다. 근본적인 이유는 데이터마이닝 알고리듬 연구와 개발에 필수적인 기계학습(machine learning) 분야나 신경망등을 전공한 학자들이 손에 꼽을 정도라는 점이다. 아울러 통계학 분야도 비모수 회귀모형 등 데이터마이닝에 직접적으로 활용될 수 있는 전공자가 너무도 부족하고, 통계 패키지에 의존한 연구 형태로 알고리듬 구현능력이 떨어지고 있다.

그러나 이러한 한계는 극복될 수 있으며 세계적인 연구수준으로 도약할 수 있는 기반이 구체적으로 조성되고 있다. 다양한 분야의 많은 젊은 학도들이 데이터마이닝에 관심과 열의를 보이고 있다. 또한 서울대 복잡계 연구센터에서는 데이터마이닝의 체계적 연구를추진 중에 있다.

학계의 노력과 함께 연구결과를 평가하고 수용하는 업계의 자세 또한 국내 데이터마이닝의 수준을 향상시키는데 중요한 요소이다. 지금까지 그래왔던 것처럼 질적 수준을 평가할 수 없어 막강한 마케팅 능력을 갖춘 해외기업들에 의해 데이터마이닝의 방향이 설정되고, 기업가치높이기에혈안이된CRM, 데이터마이닝 관련 벤처 회사들이 진정한 자체기술을 축적하는데 소홀히 한다면 현재의 수준에서 탈피하기 어려울 것이라 생각된다.

데이터마이닝 관련 기술의 축적과 향상의 필요성은 산업적인 측면에서도 요구되고있다. 하지만 이미 도래한 포스트 게놈시대를 대비하기 위한 필수적인 국가 기반기술이기도 하다. 인간유전자 지도가 완성됐다고 하지만 한국인의 유전자 지도가 아니다. 한예로 미국에서 발표된 에이즈 바이러스의 DNA 서열이 한국인으로부터 발견된 그것과다르다는 충격적인 보도는 우리 유전체의 기능을 파악하는 것은 우리 스스로가 해야 할일임을 느끼게 하는 부분이다. 결국 생물 정보학의 핵심인 데이터마이닝의 장기적이며 체계적 연구야말로 선택이 아닌 국가 기반을 확고히 하기 위한 필수 요소라 해도 지나침이 없다.

 


|신경망|
뇌 신경생리학으로부터 영감을 얻어 시작된 신경망은 복잡한 구조를 가진 자료에서의 예측문제를 해결하는 등 다양한 분야에서 사용된다.

|온라인분석프로세싱|
최종 사용자가 다차원 정보에 직접 접근해 대화식으로 정보를 분석하고 의사결정에 활용하는 과정으로 기업이 나아가야 할 방향을 설정해준다. 예를 들어 OLAP를 통해 자동차 미갱신 사유를 분석하기 위해 고객을 나이, 지역, 사고 경력 등의 요인으로 세분해가며 미갱신의 비율이 높은 고객군을 밝혀나갈 수 있다.

|고객관계관리| 
기업에서 고객과 관련된 기업의 내∙외부 자료를 분석, 통합해 고객특성에 기초한 마케팅활동을 계 획, 지원, 그리고 평가하는 과정. 예를 들어 과거 자료 분석에 의해 자동차 미갱신의 가능성이 높다고 판단되는 우수고객에 대해 보험만기 시점 3개월 전에 보험료 할인, 또는 주유권 증정 등의 캠페인을 전개한다. 그런 후 갱신여부를 확인해 캠페인의 성과를 평가하는 등의 모든 과정을 CRM이라 할 수 있다.

|의사결정나무|
발견된 법칙 또는 조건문을 토대로 분류하는 분석 방법을 의사결정나무(decision tree), 나무구조모형(tree-based model), 또는 나무모형(tree model)이라고 한다. 의사결정나무는 누구나 이해할 수 있고 쉽게 설명될 수 있는 간결한 결과 때문에 많은 분야에서 선호되고 있다. 의학분야뿐 아니라 고객의 의사결정 패턴을 분석해야하는 상품개발, 마케팅부서, 그리고 문자, 지문인식 등을 연구하는 기계학습 이론분야에서 연구되고 있다. 예를 들어 의사결정 나무는 고객의 자동차 보험 미갱신의 사유를 '나이가 35세 이하면서 도심지역에 거주하고 보험 취급자 경력이 2년 이하인 경우 미갱신 가능성이 상당히 높다'는 조건문 형태로 결과를 산출한다.

|비모수적 회귀모형|
성인의 혈압을 나이, 체중, 성별, 평균 일일 섭취 칼로리로 예측할 수 있을까. 이와 같이 반응변수(혈압)와 설명변수(나이, 체중 등)의 관계를 설명하는 모형을 통계학에서는 회귀모형이라 한다. 이때 반응변수(x)와 설명변수(Y)의 관계가 Y=ax+b와 같은 식으로 표현되면 단순선형 회귀모형이라고 한다.이때 a와 b를 '모수'라고 하며, 이를 추정해내는 것이 문제가 된다.

그런데 반응변수와 설명변수의 관계를 식으로 표현할 수 없을 만큼 많은 모수가 있을 수 있다. 이 경우에는 비모수 회귀분석이 적용된다. 비모수적 회귀모형은 제한적인 가정을 거의 사용하지 않으면서 변수간의 관계를 설명하는데 필요한 추정할 모수들의 개수를 고려하지 않은 모형을 일컫는다.

|웹 로그온| 
웹 상에서 네티즌들의 행동정보를 확보해 고객이 사이트를 좀더 유용하게 이용할 수 있도록 기록한 파일.

|단일염기다형성(SNP)|
SNP는 Single Nucleotide Polymorphism 의 첫 글자를 딴 말로 인종이나 개인별 염기의 차이를 말한다. 인간은 인종이나 민족과 상관없이 유전자가 99.9% 일치하지만 0.1%, 즉 1천분의 1의 서로 다른 유전자(SNP) 때문에 키, 피부색 등이 달라지게 된다.

SNP 연구는 현재 크게 두가지로 나눠 생각할 수 있다. 하나는 SNP을 찾아내는 것이고, 다른 하나는 찾아낸 SNP 중에서 실제로 의미가 있는 것을 골라 내는 것이다. 예를 들어 찾아낸 열가지의 SNP 중에서 실제로 천식과 관련이 있는 SNP는 한가지일 수 있는데 바로 그 하나의 SNP만이 의미가 있는 것 이다. 따라서 일단 SNP를 찾아내어 질병과의 연관성 여부를 밝혀내서 치료에 활용하는 것이 현재의 큰 흐름이다.

|기계학습|
실험 또는 과거 자료에 대해 반복적이며 복잡한 계산과정을 통해 모형을 생성하거나 자료의 군집화 등을 실행하는 것. 음성, 활자인식 등의 연구분야의 기초이기도 하다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2001년 04월 과학동아 정보

  • 최대우 교수
  • 박현정

🎓️ 진로 추천

  • 컴퓨터공학
  • 통계학
  • 생명과학·생명공학
이 기사를 읽은 분이 본
다른 인기기사는?