d라이브러리









인공지능의 내일에는 눈과 입, 귀가 모인다

어떤 기술은 우리 삶에 커다란 변화를 가져옵니다. 우리는 그걸 ‘혁명’이라고 부릅니다. 농업 기술의 발견과 증기 기관의 발명이 대표적인 예입니다. 가장 최근에는 통신 기술도 우리 삶을 크게 바꿨습니다. 그렇다면 내일의 혁명을 이끌 기술은 무엇일까요. 그 답이 라이덴 클러스터에 숨어 있습니다.

 

라이덴 클러스터에서 최근 5년 동안 발표된 논문의 비율이 가장 높은 순서로 줄을 세워보면 유독 눈에 띄는 단어들이 있습니다. 주요 학술지에서는 ‘컴퓨터 과학 강의 노트’ ‘컴퓨터 비전과 패턴 인식 컨퍼런스’가 몇몇 클러스터에서 반복됩니다. 이들 학술지는 주로 인공지능(AI), 그 중에서도 ‘컴퓨터 비전’에 대한 연구가 자주 소개됩니다.


2905번 클러스터는 최근 5년간 발표된 논문 비율이 96.11%로, 4159개 클러스터 중 8번째로 높습니다. 주요 키워드는 ‘이미지 캡셔닝’ ‘시각 질문’ ‘시각 관계 탐지’ 등이 있습니다. 이준영 KISTI 글로벌R&D분석센터 책임연구원은 “2905번 클러스터는 컴퓨터 비전과 관련해서도 매우 특화된 주제일 것으로 보인다”고 설명했습니다.


이미지 캡셔닝은 AI 모델이 이미지를 분석해 단어로 설명하는 기능을 말합니다. 시각 질문은 어떤 이미지와 질문이 주어졌을 때 이미지에서 답을 찾아내는 것이죠. 가령 AI에게 피자 이미지와 함께 “피자 도우 위에 올려진 토핑은 무엇인가?”라는 질문을 하면 “파인애플”이라는 답을 내놓을 것입니다. 시각 관계 탐지는 이미지 안의 물체 사이에서 관계를 찾는 기술입니다.

 

AI 연구의 두 가지 큰 갈래


AI는 단어 그대로 사람의 지능을 흉내 낸 기술입니다. 더 엄밀하게 말하자면 사람처럼 스스로 생각하고 판단해 어떤 결과물을 만들어낼 수 있는 기술입니다. 하지만 지금의 기술로는 하나의 AI 모델로 사람이 하는 모든 일을 할 수는 없습니다. 대신 특정 기능에 특화된 AI 모델들이 개발되고 있죠. 사람의 언어 기능을 본뜬 자연어 처리나, 시각 기능을 흉내낸 컴퓨터 비전이 대표적입니다.


지금까지는 주로 두 기능을 각각 발전시켜 AI를 만들었습니다. 우리 주변에서도 흔히 볼 수 있습니다. 여러 기업에서 내놓은 AI 스피커는 사람의 말을 듣고, 내뱉습니다. 자연어처리 AI 모델에는 대표적으로 GPT-3가 있습니다. GPT-3를 활용한 영화 시나리오, 신문 기사 등을 인터넷 검색에서 쉽게 접할 수 있습니다.


한편 자율주행 AI는 사람의 눈을 대신한 센서로 실시간 상황을 판단하며 운전합니다. 이때 카메라나 라이다 같은 센서를 이용해 자동차 주변의 상황을 이미지로 만듭니다. 이를 분석해 도로 위에 어떤 장애물이 있는지, 사람이 지나가지는 않는지, 신호등은 어떤 색깔인지 등을 판단하고 운전을 하는 것이죠.


두 가지 기능은 지금까지 잘 통합되지 못했습니다. 박용범 단국대 소프트웨어학과 교수는 “각자 분야에서 사용하는 학습방법이나 데이터의 형태가 워낙 다른 것이 가장 큰 이유”라며 “컴퓨터 비전 기술은 자연어 처리보다 크게 발전해 있는 등 기술 수준도 다르다”고 말했습니다.

 

 

창작하는 AI가 등장한다


오늘 소개할 2905번 클러스터에는 자연어처리와 컴퓨터 비전을 더한 기능을 연구한 논문들이 포함돼 있습니다. 2905번 클러스터는 AI와 관련된 모든 클러스터 중에서 최근 5년 동안 발표된 논문 비중이 가장 높습니다. AI 연구가 2015년 알파고의 등장 이후 본격적으로 시작된 만큼 대부분 관련 논문은 최근 5년 이내에 발표됐습니다. 가장 뜨거운 관심을 받는 AI 중에서도 가장 높은 성장률을 보이는 점은 꽤나 주목할 만합니다.


2905번 클러스터에 속하는 논문이 늘어나는 만큼, 기술도 크게 발전했습니다. AI의 시각 질문 능력을 평가하는 대회인 VQA(Visual Question Answering) 챌린지의 결과에서 알 수 있습니다. 2021년 대회에서 1등의 점수는 80.78점입니다. 1등은 AI가 아닌 사람입니다. 2등인 AI 모델 ‘르네상스(Renaissance)’는 79.78점입니다. 아주 근소한 차이라고 볼 수 있습니다.


세부적인 점수를 보면 AI 모델의 한계도 알 수 있습니다. ‘예/아니오’로 답하는 문제에서는 사람이 95.49점, 뒤를 이은 AI가 93.27점으로 큰 차이가 없습니다. 반면 숫자를 묻는 문제에서는 사람이 80.84점, 뒤를 이은 AI가 74.85점으로 큰 차이가 벌어집니다.


최근에는 사용자가 쓴 내용을 바탕으로 이미지를 만들어 주는 ‘텍스트 투 이미지’ 모델도 등장하고 있습니다. 인공지능 연구소인 오픈AI가 개발한 달리(DALL·E)가 대표적입니다. 최근 메타는 이를 뛰어 넘어 ‘텍스트 투 비디오’ 모델인 ‘메이크 어 비디오’를 공개했습니다. 사용자가 쓴 내용으로 이미지 대신 영상을 만들어줍니다.


이 모델들은 출시되자마자 세간의 주목을 받았습니다. 인간의 영역이라고 여겼던 ‘창작’이 더 이상은 인간의 전유물이 아니게 됐기 때문입니다.

 

눈과 입을 결합한 AI가 불러올 새로운 혁명


AI가 우리 생활 속에 들어온 지 꽤나 오랜 시간이 흘렀습니다. 그렇다면 자연어 처리와 컴퓨터 비전을 더한 새로운 AI로 할 수 있는 일은 무엇이 있을까요.


우선은 지금 쓰이는 AI 모델의 기능을 강화할 수 있습니다. 가령 자율주행을 위한 AI에 자연어 처리 기능까지 더한다면, 안전성을 높일 수 있습니다. 음성 없이도 이미지와 영상에 자막을 달 수도 있습니다. 마이크로소프트는 이 기술을 이용해 ‘Seeing AI’라는 애플리케이션(앱)을 개발했습니다. 스마트폰으로 사진을 찍으면 사람이나 제품, 장면을 음성으로 설명해줍니다. 시각장애인을 위해 개발됐습니다.


심리치료에도 활용될 수 있습니다. 미술치료 방법 중 하나인 ‘집-나무-사람 시험’처럼 평가자의 주관이 미치는 영향이 큰 경우에 잘 학습된 AI 모델이 필요합니다. 김남규 국민대 비즈니스IT전문대학원 교수는 “미술 치료사의 경험과 환경이 시험 결과를 해석하는 데 영향준다는 것은 환자들에게 매우 중요한 문제”라며 “전문가들의 해석 방법을 적용한 모델을 개발하면 신뢰성을 보다 높일 수 있을 것”이라고 설명합니다.


AI 기술은 네 번째로 우리 삶에 혁명을 가져올 것으로 기대를 모으고 있습니다. 하지만 지금까지 AI의 눈과 입, 귀는 통합되지 못하고 있었죠. 통합은 이제 막 시작돼 새로운 영역에서도 AI를 만나게 해 줄 것입니다. 

 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2022년 11월 과학동아 정보

  • 이병철 기자
  • 도움

    한국과학기술정보연구원(KISTI) 글로벌R&D분석센터

🎓️ 진로 추천

  • 컴퓨터공학
  • 정보·통신공학
  • 소프트웨어공학
이 기사를 읽은 분이 본
다른 인기기사는?