d라이브러리









[알고리듬 시그널]가장 많이 쓰이는 클러스터링 알고리듬, κ-평균 클러스터링

알고리듬에 대한 불신이 생긴 견우가 제 말을 들으려고 하지 않네요. 최강의 팀을 꾸리는데 이 알고리듬이 도움이 될 수 있는데 말이에요. 복잡한 데이터를 비슷한 종류끼리 분류할 때 유용한 클러스터링 알고리듬! 견우 대신 여러분이 들어주실래요?

웹 탐색, 유전자 분석, 패턴 인식, 소셜 네트워크 분석, 도시 계획, 심리학, 의학, 금융, 통계, 유통…. 이게 다 뭐냐고요? 클러스터링 알고리듬을 활용하는 분야예요! 더 많이 말할 수 있는데 자리가 없어서 참은 거랍니다. 그만큼 이번에 배울 알고리듬은 쓰임이 다양해요. 
클러스터링 알고리듬은 ‘클러스터링 문제’를 해결하는 근사 알고리듬이에요. n개의 점이 2차원 평면에 있을 때, 점 사이 거리를 고려해 k개의 집합으로 나누고 각 집합의 중점을 찾는 문제죠. 이때 가장 큰 집합의 지름이 최소가 되도록 점을 선택하는 것이 클러스터링 문제의 핵심이고요. 
클러스터링 알고리듬을 쓰면 제멋대로 퍼져있는 빅데이터를 효율적으로 처리할 수 있어요. 비슷한 학습 성취도를 가진 학생들끼리 묶어 보충 수업 반을 나누고 싶을 때나, 견우 같은 상황에서 친구들의 게임 캐릭터 능력치를 분석해 최적의 팀을 꾸릴 수도 있죠. 
오늘은 클러스터링 알고리듬 중 가장 많이 쓰이는 ‘k-평균 클러스터링’을 알려드리려고 해요. 원리가 간단해서 프로그램이나 컴퓨터 언어를 다룰 줄 몰라도 쉽게 익힐 수 있거든요. 나누려는 집합의 개수 즉, 클러스터 수를 정하고 두 점 사이의 거리만 구할 수 있으면 돼요. 
거리 구하는 법을 모른다면 위의 ‘두 점 사이의 거리’ 소개에서 방법을 익히고 직접 k-평균 클러스터링에 도전하세요! 그림을 따라 이해하면 그다음에는 좌표평면에 마음대로 점을 찍고도 클러스터링할 수 있게 될 거예요.

 

 

참고자료

양성봉 ‘알기 쉬운 알고리즘’, 이시다 모리테루, 미야자키 쇼이치 ‘알고리즘 도감’

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2019년 03월 수학동아 정보

  • 박현선 기자

🎓️ 진로 추천

  • 통계학
  • 컴퓨터공학
  • 도시·지역·지리학
이 기사를 읽은 분이 본
다른 인기기사는?