d라이브러리









[2회] 데파더의 데이터 레시피

대단한 데이터 맛집이 정말 많쥬? 데이터만 있으면 어떤 요리도 만들 수 있어유. 게다가 요리는 달라도 기본적인 요리 도구와 순서는 크게 다르지 않아서 여러분도 요리법만 잘 익히면 누구나 데이터 요리사가 될 수 있어유.

 

데이터 조리 도구, 이건 꼭 필요해!

 

다양한 종류의 데이터를 분석해서 새로운 정보나 지식을 얻는 데 필요한 핵심 도구는 ‘수학’입니다. 많은 수학 개념이 쓰이지만 공통으로 데이터 분석에서 많이 쓰는 개념을 조리 도구에 비유해 설명합니다.

 

① 깔끔히 정돈하는 ‘좌표계’
많은 데이터가 숫자로 이뤄져 있습니다. 이런 데이터를 한눈에 보기 쉽게 정돈하는 방법이 좌표계에 나타내는 것이죠. 좌표계에 데이터를 나열하면 데이터가 어떤 특징을 가졌는지 쉽게 알 수 있거든요. x축과 y축으로 이뤄진 평면에서의 분포와 z축까지 더한 3차원 공간에서의 분포 등 다양한 좌표계를 이용해 데이터의 특징을 살펴볼 수 있답니다.

 

② 지지고 볶고 끓이는 ‘행렬’
수가 아닌 형태의 데이터를 수로 나타내고, 데이터 사이의 관계를 살펴볼 때 행렬을 사용합니다. 행렬은 중고등학교 교과과정에서 빠져서 낯설수도 있지만 어려운 개념은 아닙니다. 데이터를 행과 열로 정리해 나타내기만 하면 되거든요. 그런 뒤 더하고 빼거나 곱하는 등의 연산을 할 수 있는데 이런 연산을 하면 여러 종류의 데이터를 결합해서 분석할 수 있답니다.

 

③ 보기 좋은 데이터가 맛도 좋다 ‘그래프’
행렬로 요리한 데이터는 다시 한번 좌표계에 나타내면 좋습니다. 특히 데이터 사이의 상관관계를 분석할 때는 네트워크 그래프를 활용합니다. 각 데이터를 점으로 나타낸 뒤 점과 점 사이를 선으로 연결해 네트워크를 만들면 데이터 사이의 상관관계를 시각적으로 파악할 수 있죠.

 

④ 데이터 레시피 학습하는 ‘기계학습’
데이터 분석을 마치면 새로운 데이터가 발생했을 때 동일한 방법으로 분석해 새로운 데이터의 성격을 파악할 수 있습니다.
여기에 꼭 필요한 도구가 기계학습 알고리듬입니다. 분석한 데이터를 학습해서 새로운 데이터가 주어졌을 때 분류하고 예측하는 일을 자동으로 해주죠.

 

 

이것만 알면 나도 데이터 쉐프! 

 

요리가 달라도 조리의 기본은 변하지 않는 법! 마찬가지로 데이터의 종류는 다양하지만 기본적인 분석 방법은 어느 데이터에나 활용할 수 있습니다. 
분석 방법을 익히면 누구나 데이터 분석을 할 수 있답니다.    

 

 

1. 데이터 준비
요리하려면 먼저 재료가 필요하죠. 분석하려는 대상과 관련한 데이터를 모읍니다.

 

2. 데이터 전처리
요리의 기본은 재료를 깨끗이 씻고 깔끔하게 다듬는 것! 마찬가지로 데이터에서 필요 없는 부분을 버리고, 빠진 정보를 채우고, 다른 단위로 기록된 수치가 있다면 통일하는 등의 작업이 필요합니다. 따라서 데이터를 행렬로 표현한 뒤 이런 과정을 거칩니다.

 

3. 그래프 그리기
데이터에 적합한 형태의 그래프를 그려서 데이터의 특징을 파악합니다. 그래프의 종류는 막대 그래프, 선 그래프, 분포 그래프, 네트워크 그래프 등 다양합니다.

 

4. 기계학습으로 학습시키기
데이터의 특징을 파악하면 그 정보를 기계학습 알고리듬으로 학습시킵니다. 그러면 새로운 데이터를 입력했을 때 기계학습 알고리듬이 자동으로 어떤 데이터인지 분류하거나 예측할 수 있습니다.

2020년 09월 수학동아 정보

  • 최영준 기자 기자

🎓️ 진로 추천

  • 통계학
  • 컴퓨터공학
  • 수학
이 기사를 읽은 분이 본
다른 인기기사는?