오늘날 기업의 경쟁력은 정보에 있다는 말을 한다. 매일 쏟아지는 방대한 자료로부터 제대로 된 정보를 추려내 고객에 대한 맞춤형 서비스를 제공하는 것이 기업의 생존과 직결되기 때문이다. 이를 위해 필요한 연구분야가 데이터마이닝이다. 수학, 공학, 심리학은 물론 철학까지 다양한 분야의 지식을 필요로 하는 다학제적 분야다.
포항공대 산업공학과 이재욱 교수는 매달 머리를 손질할 때 학교에서 멀리 떨어진 동네의 작은 미장원에 찾아간다. 이유는 그곳 주인이 어릴 적부터 자신의 머리를손질해와서 그의 취향뿐만 아니라 머리결과 두상까지 고려해서 머리를 잘라주기 때문이다.
작은 동네의 미장원이지만 이곳은 친절한 서비스를 바탕으로 고객 개개인의 취향을 고려한 맞춤형 서비스를 제공하는 경쟁력을 갖고 있다. 이교수는 그 미장원 옆에 유명한 헤어 디자이너가 경영하는 전문 미장원이 생기더라도 늘 가던 그곳을 갈 것이라고 말한다. 유명 헤어디자이너의 기술이 아무리 우수하더라고 수년에 걸쳐 형성된 자신의 취향에 대한 정보와는 바꿀 수 없다는 것이다. 이처럼 소형매장은 고객 개개인의 정보에 기반한 맞춤형 서비스를 제공한다는 장점을 갖는다.
데이터 홍수 맞은 기업들
그런데 요즘에는 맞춤형 서비스가 소형매장에서만 통하지 않는다. 종합병원, 대형 백화점, 신용카드사와 같은 거대 기업에서도 경쟁적으로 고객별 맞춤형 서비스를 제공한다며 광고하고 있다. 거대 기업들도 고객 개개인에 대한 1대1의 이해를 하겠다는 말이다. 그러기 위해서는 고객 개개인에 대한 자료를 잘 수집해야 할 뿐 아니라 이를 제대로 파악하는 일이 중요할 것이다. 기업이 처리해야 할 자료가 점점 방대해지고 있는 셈이다.
이와 함께 거대 기업이 경영 활동과 관련해 수집하는 데이터도 양과 질적인 면에서 팽창을 거듭하고 있다. 특히 시간을 다투는 기업 활동에서는 데이터의 수집 이상으로 분석이 중요한 의미를 갖는다. 이를 통해 소비자 행동 양식을 이해하고 향후 시장 추세를 예측하는 일이 가능해 경쟁력을 향상시킬 수 있기 때문이다. 이제는 엄청난 양의 데이터를 사장시키느냐 아니면 제대로 활용하는 가에 따라 기업의 경영 방식이 달라질 정도가 된 것이다.
이런 맥락에서 최근 데이터마이닝(data mining)이라는 분야가 각광을 받고 있다. 데이터마이닝은 거대 데이터의 집합(데이터베이스)으로부터 관련된 패턴을 자동으로 탐지해내는 과정이라고 간단히 정의할 수 있다.
이를 좀더 쉽게 이해하기 위해 금광을 생각하면 된다. 광부들이 거대한 산에서 값어치가 있는 금을 캐내는 모습은 데이터마이닝의 과정과 비슷하다. 거대한 산(대용량의 데이터)에서 값어치가 있는 금(유용한 정보)을 캐내는(마이닝) 것이다. 즉 대용량의 데이터에서 의미있는 경향이나 규칙을 발견하는 일인데 영어를 그대로 해석하면‘데이터 캐내기’인 것이다. 다만 채광과 다른 점은 인간의 노동이 아닌 자동적이거나 반자동적인 수단을 통해서이뤄진다는 것이다.
예를 들면 어떤 데이터베이스에서‘자녀를 둔 결혼한 남자가 자녀가 없는 남자보다 특정 스포츠카를 운전할 확률이 두배이다’라는 패턴을 찾아냈다고 가정하자. 자동차 회사의 마케팅 담당자라면 상식적으로는 도저히 생각할 수 없던 이러한 패턴을 찾아내는 것이 매우 가치있는 일일 것이다.
보험사기 색출에서 생명과학 연구까지 적용
기업의 마케팅뿐 아니라 데이터마이닝이 적용되는 분야는 실로 다양하다. 보험회사는 보험사기를 찾아내기 위해 보험 청구 때마다 조사원을 현장에 파견하지만 이 일은 많은 비용이 든다. 데이터마이닝은 과거 보험사기 사례 분석을 통해 룰을 얻어 보험 청구에서 좀더 쉽게 사기를 분류해낸다. 이와 비슷하게 검찰이나 경찰에서는 기존 범죄자 행동에 대한 자료를 통해 범죄의 패턴을 분석해내 용의자 색출 프로그램을 개발하기도 한다.
금융도 대표적인 데이터마이닝 적용분야다. 데이터마이닝 기술이 금융권에 쓰이면서 금융 데이터마이닝(Financial Data Mining)이라는 분야로 발전해 주가 예측 모델 개발, 위험 관리, 포트폴리오 분석 등 다양한 분야에 이용되고 있다. 또한 현금 입금, 인출과 같은 다양한 은행 거래에서 이상 패턴을 발견해 돈세탁과 같은 부정 거래를 색출하는데 쓰이기도 한다.
최근 데이터마이닝이 가장 눈부시게 활약할 것으로 기대되는 분야는 생명정보학(bioinformatics)이다. 생명정보학은 대용량의 생물학 데이터를 분석해 유용하고 의미있는 정보들을 발견하는 학문이다. DNA, RNA, 단백질구조 분석 등에는 방대한 데이터가 이용되기 때문에 데이터마이닝 기술이 중요하게 쓰이고 있다.
방대한 데이터를 빠른 시간 내 처리하려면 기본적으로 대용량 컴퓨터가 요구된다. 하지만 대용량 컴퓨터만 갖고는 이런 일이 쉽게 풀리지 않는다.
예를 들어보자. 어떤 신용카드사가 고객에게 신용카드를 발급하기 위해 고객으로부터 받아야 하는 자료수가 10개라고 가정하자. 신용카드를 발급 받고자 하는 고객은 우선 필요한 10개의 자료수에 해당하는,‘ 예 또는 아니오’로 답할 수 있는 설문지에 응답한다. 이 경우 고객 대답의 경우수는 ${2}^{10}$(≒10³)가지다. 신용카드사는 고객의 응답에 따라 발급할지 폐지할지, 둘 중 하나를 결정해야 한다. 따라서 고객이 답할 수 있는 총 1천가지의 설문지에 대해 발급과 폐지를 결정하는 룰의 가짓수는 무려 ${2}^{1000}$개나 된다.
신용카드 발급 적부심사에 걸리는 시간
만약 ${2}^{1000}$개의 룰을 일일이 세서 발급 여부를 결정한다고 생각해보자. 그리고 이를 최신 컴퓨터 수준인 1GHz급 컴퓨터가 쓰인다면 시간이 얼마나 걸릴까. 1GHz급 컴퓨터는 1초에 ${10}^{9}$번 연산이 가능하므로, 계산 해보면 32×${10}^{283}$년이라는 어마한 시간이 걸린다. 실제로 거대 기업이 필요한 자료는 이보다 훨씬 방대하다. 빠른 컴퓨터만으로는 도저히 해결할 수없는 문제인 것이다.
모든 경우를 일일이 세지 않고 답을 찾아내기 위해서는 알고리듬이 필요하다. 따라서 데이터마이닝은 요구되는 문제에 적합한 알고리듬을 개발하는 것이 중요한 연구 내용이다. 그렇다면 적합한 알고리듬을 개발하려면 어떤 능력을 갖춰야 할까.
사람들은 언뜻 생각하기에 컴퓨터 알고리듬을 컴퓨터 언어를 이용해서 논리적으로 짠 프로그램 정도로 오해할지도 모른다. 물론 데이터마이닝을 전공하는 사람은 기본적인 컴퓨터 언어를 학습한다. 그러나 이것은 껍데기에 불과하다.
실제로 거대 데이터로부터 짧은 시간 안에 유용한 정보를 얻기 위한 알고리듬은 복잡한 지식을 필요로 한다.알고리듬을 개발하는 접근법은 매우 다양하다. 크게 봐서는 수학적 통계나, 신경망과 유전자 알고리듬과 같은 인공지능, 그리고 다양한 최적화기법으로 분류된다. 이는 현재 연구되고 있는 다양한 분야가 데이터마이닝에 도입된다는 의미다.
실제로 여러 학문이 데이터마이닝에 다양한 모습으로 기여하고 있다. 예를 들어 컴퓨터학은 기존 정보만으로 해를 찾는 방법에서 탈피해 이 정보를 이용해서 적합한 해를 찾을 수 있도록 문제 해결방법을 학습하고 훈련하는 프로그램을 구현할 수 있도록 해준다. 수학은 문제의 제약조건들을 찾아 해결의 횟수나 시행 노력 등을 한정 시켜준다. 또한 최적해를 구하기 위해서 무한정 계산을 반복할 수는 없다. 최적해라고 인정하기 위해서는 답으로 인정할 수 있을 만큼의 허용오차를 이용해, 계산 횟수를 제약할 수 있는데 통계적인 지식이 요구된다.
과학, 공학에서 철학까지
심리학과 생리학의 연구결과인 뇌의 정보처리구조 개념도 데이터마이닝에 응용된다. 예를 들어 학습하면 할수록 이해와 반응의 시간이 짧아진다는 인간의 학습효과가 새로운 알고리듬 개발에 도움이 된다.
심지어 철학적 개념이 문제해결에 도움을 주기도 한다. 예를 들어 중세 스콜라 철학자인 윌리엄 오브 오캄의‘단순한 이론이 최고’라는 철학적 개념은 문제 해결에 제공된 정보와 데이터들을 최대한 단순하고 보편적으로 조정함으로써 문제해결의 효율성과 보편성을 향상시킨다.
따라서 데이터마이닝은 어떤 특정한 분야에 국한된 전문적 지식보다 종합적인 시야를 갖고 요소 기술들을 접목시키는데 관심이 있거나 능력이 있는 사람에게 적합하다.
이재욱 교수는 “데이터마이닝을 연구하려면 먼저 수학, 물리학, 생물학 등의 기초실력의 배양이 필요하다”고 말한다. 이교수는 역시 대학 때 수학을 전공했다. 데이터마이닝에서 쓰이는 다양한 학문 분야를 접목시키려면 기본이 탄탄해야 한다는 것이 이교수의 생각이다.
데이터마이닝의 학제적 성격은 이를 연구하는 곳을 살펴봐도 금세 알 수 있다. 일반적으로 컴퓨터나 전산학과에서만 찾을 수 있다고 생각하면 오해다. 국내외 여러 대학, 여러 전공 분야에서 데이터마이닝 연구가 진행되고 있다. 컴퓨터공학과나 전산학과는 물론 산업공학과, 전자공학과, 기계공학과에서도 데이터마이닝 연구실을 찾을 수 있다.
포항공대 산업공학과 전치혁 교수는 “여러 학과 중 산업공학과에서 데이터마이닝 연구가 더욱 활발히 이뤄지고 있다”고 말한다. 이는 산업공학이 바로 학제간 성격을 띤 학문 분야이기 때문이다. 타 공학은 물론 수학과 통계의 기술을 경영과 관리의 기술과 접목해 총체적이고 다양한 시각에서 기업, 생산시스템, 서비스, 공공기관 등 큰 규모 시스템의 기획, 설계, 통합, 경영관리, 그리고 운영을 연구하는 분야가 바로 산업공학과이기 때문이다.