d라이브러리









[특집] 확률 알면 빠르고 정확한 답변 찾는다

AI는 불확실성을 갖는 외부 데이터로부터 올바른 의사결정을 내리도록 답을 찾는 일을 해. AI가 가진 학습 알고리듬은 불확실성을 지닌 확률 개념을 포함하고 있는 거지. 이번엔 확률 개념을 적용한 알고리듬을 만드는 전문가의 이야기를 준비했어.

 

AI 인재 키우려면 수학 교육이 우선이죠!

 

 

AI 소프트웨어 기업 애자일소다의 최대우 대표입니다. 한국외국어대학교 통계학과 교수로 학생들을 가르치는 일도 하고 있습니다. 저는 여러분에겐 익숙하지 않을 수 있는 ‘확률 부등식’이란 주제로 박사 학위를 받았어요. 확률 부등식은 확률의 세계를 표현하기 위해 부등식을 사용한 것으로, 요즘은 수리통계학이란 분야에 들어갑니다. 


굉장히 넓은 공간에서 답을 찾는 상황을 떠올려보세요. 예를 들어 어떤 사람을 찾고 싶은데 ‘한국에 산다’는 정보만 안다면 찾기 어렵겠죠. 그런데 만약 ‘서울에 산다’처럼 조금 더 구체적인 정보가 있다면 훨씬 찾기 쉬울 거예요. 이처럼 확률 부등식은 검색 공간을 줄여줘요. AI가 주어진 문제에 대한 답을 찾을 때 다른 분야의 데이터가 있는 공간을 헤매면 시간이 오래 걸리니까요. 이런 작업을 바탕으로 AI의 연산 속도와 정확도를 높이는 겁니다. 


2016년 초 바둑 인공지능 알파고와 이세돌 9단의 대결로 AI에 대한 관심이 크게 높아졌죠. 이에 따라 국내에서는 코딩 교육이 강조되고 있습니다. 저도 통계적으로 분석하는 일을 하다가 2017년부터 기계 학습을 공부하기 시작했는데요. 코딩 실력을 키우는 것도 중요하지만, 수학 이론부터 확실히 다지는 것이 필요하다는 생각이 들었어요.


AI가 문제를 확인하면 이를 해결하기 위해 확률적 방법이 적용된 알고리듬이 작동해 검색 공간을 축소하거나 답안의 불확실성을 낮춥니다. 여기에 미분의 기법까지 결합하면 최적화된 답을 찾아갈 수 있습니다. 이때 확장성과 창의성을 갖는 AI의 알고리듬을 짜려면 수학적인 사고가 뒷받침돼야 하죠. 


최근에는 통계수학이나 컴퓨터과학을 공부하는 사람이 늘고 있습니다. 2018년에 만들어진 애자일소다는 80여 명의 직원 중 약 70%가 개발자와 데이터과학자라 불리는 분석가로 이뤄져 있습니다. 금융, 보험 등의 사업 모델에 쓸 수 있는 AI 소프트웨어를 제공하며 2020년에는 자동차 사고에서 견적을 내주는 AI ‘트윈카’를 출시했습니다. 현재 저희가 개발하는 AI들은 빈도적 이론에 기반한 기계 학습 모델입니다. 앞으로 의사결정을 빠르게 하도록 돕는 기계 학습을 개발하는 것이 목표입니다.

 

 

 

베이즈 이론의 세계는 복잡하지만 재미있어요!

 

 

저는 KAIST AI 대학원에서 일하는 이주호 교수입니다. 조건부확률의 개념을 포함한 베이즈 이론을 바탕으로 기계 학습 알고리듬을 개발하고 있습니다.


우리 생활 속 다양한 서비스들이 AI 기술을 접목해 변신하고 있습니다. 만약 100명 중 1명 꼴로 걸리는 암에 걸린 사람이 있다고 해볼게요. 암에 걸릴 사건 A의 확률 P(A)는 이죠. 또 암에 걸린 사람 중 복통이 있을 확률 P(A|B)는 이라고 해볼게요. 이 확률은 사건 A가 일어났을 때 B가 일어나는 조건부확률이죠. 


그런데 우리가 궁금한 건 그 반대의 상황이에요. ‘내가 복통을 느끼는 이유가 암 때문일까?’라는 의문을 풀고 싶은 거죠. A가 일어날 확률과 A가 일어났을 때 B가 일어날 확률을 알고 있다면, B가 일어났을 때 A가 일어날 확률 P(B|A)를 구할 수 있습니다. 이런 방식으로 여러 변수를 가정해 계산하면 의사가 진단하는데 도움을 줄 수 있는 베이즈 기계 학습 알고리듬을 만들 수 있어요.  


말처럼 간단한 일은 아니에요. 빈도적 확률 이론에서 동전을 던지면 앞면과 뒷면이 각각 의 확률로 나온다고 보는데요. 이건 동전을 던지는 행동을 무한히 반복했을 때 수렴하는 확률값이에요. 이 값은 단일한 확률값으로 지정하기 때문에 계산이 크게 복잡하지 않습니다. 현재 개발된 대부분의 AI는 빈도적 확률 이론을 적용한 것들이에요. 


이와 달리 베이즈 이론에서는 동전을 10번 던졌고 그중 앞면이 7번 나온 경험 데이터가 있다면 이 값을 고려해야 합니다. 다양한 상황을 가정한 경험 데이터에서 나온 확률값을 포함해 계산해야하는 베이즈 기계학습 알고리듬은 고성능의 컴퓨터도 계산하기 힘들 만큼 복잡해질 때도 있습니다. 


하지만 의료나 금융 분야처럼 데이터가 놓인 환경이 시시각각 변하는 분야에서는 베이즈 기계 학습 알고리듬이 더 신뢰할 수 있는 답을 내놓을 수 있습니다. 앞으로 이 알고리듬이 가진 계산의 복잡도를 줄이고 빠르고 믿을 만한 답을 구하도록 연구해 나갈 것입니다. 

 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2021년 05월 수학동아 정보

  • 김진호 기자 기자

🎓️ 진로 추천

  • 통계학
  • 컴퓨터공학
  • 소프트웨어공학
이 기사를 읽은 분이 본
다른 인기기사는?