d라이브러리









[논문탐독] 이미지와 자연어를 연결 짓는 새로운 딥러닝의 등장

오늘 소개해 드릴 내용은 인공지능(AI)의 대표 과제인 이미지 분류 문제에서 패러다임의 전환을 이룩한 논문입니다. 영화 속 아이언맨의 실제 모델로 유명한 일론 머스크가 세운 AI 연구소 ‘오픈AI’에서 올해 2월 발표한 연구결과로, 인터넷에 퍼져 있는 이미지 데이터와 이에 상응하는 자연어 데이터를 적절히 활용해 온라인상에서 미가공된 이미지와 텍스트 데이터를 활용할 수 있는 방법을 소개하고 있습니다.

 

이미지와 자연어 처리를 동시에


논문의 핵심은 이미지와 여기에 달린 캡션(사진 설명)을 동시에 학습하는 것입니다. 우리가 이미지를 온라인에 올릴 때 이미지가 의미하는 내용을 캡션으로 적어 올리는 경우가 있습니다. 저자들은 딥러닝 모델이 이미지를 학습할 때 자연어로 이뤄진 이런 캡션이 유용한 정보를 줄 수 있다는 사실에 착안했습니다. 연구팀은 인터넷에서 수집한 4억 개의 이미지와 그에 상응하는 자연어를 벡터로 만든 뒤 서로 비슷한 값을 가지도록 딥러닝 모델을 학습했습니다. 클립(CLIP·Contrastive Language-Image Pre-training)이라는 모델입니다.


예를 들어 인터넷의 강아지 이미지에 ‘귀여운 강아지’라는 캡션이 달려있다고 가정해 봅시다. 연구팀은 강아지 이미지와 캡션을 인코더에 통과시켜 각각 이미지 벡터와 자연어 벡터로 만들었습니다. 이 둘은 다른 종류의 데이터지만 의미하는 바는 같습니다. 연구팀은 두 벡터의 거리가 가까워지도록 학습을 진행해 이미지와 자연어의 관계까지도 유기적으로 학습할 수 있는 모델을 제시했습니다. 


이 모델은 데이터의 특성을 추출해 이를 특징별로 분류하는 데 그친 기존의 이미지 분류기와는 확연히 다른 특징을 보여줍니다. 이미지 분석 분야에서 패러다임 전환을 이뤘다는 평가까지 나오고 있습니다. 

 

 

비정형 데이터에 특화된 딥러닝


최근 AI에서 가장 두각을 나타내는 알고리즘은 딥러닝입니다. 정보를 전달하기 위해 신경세포가 얽혀있는 사람의 뇌를 본떴다고 해서 인공신경망 알고리즘이라고도 부릅니다. 함수를 여러 층으로 쌓아올린 다층구조 형태의 신경망을 기반으로 하는 머신러닝의 한 분야입니다.


딥러닝 알고리즘은 특히 비정형 데이터를 다루는 공학 과제에서 두각을 나타냅니다. 데이터는 크게 정형 데이터와 비정형 데이터로 나눌 수 있습니다. 정형 데이터는 정해진 규칙에 따라 값을 행과 열에 입력하는 데이터입니다. 쉽게 말해 엑셀 프로그램에서 쓰이는 파일들이죠. 비정형 데이터는 정해진 규칙이 없어 값의 의미를 파악하기 힘든 데이터입니다. 이미지와 자연어가 대표적입니다. 예를 들어 강아지라는 이미지를 컴퓨터가 인식하기 위해서는 각 픽셀 값을 빨간색, 초록색, 파란색의 강도를 나타내는 값으로 변환해야 합니다. 컴퓨터는 이 이미지를 단지 커다란 숫자들이 모여 있는 형태의 데이터로 인식하며, 각각의 픽셀 속 값들이 모여서 무엇을 의미하는지는 알지 못합니다.


그런데 점차 비정형 데이터 처리가 필요한 분야가 늘고 있습니다. 자율주행차가 도로 위의 사람을 피하려면 이미지를 인식할 수 있어야 하고, 인간처럼 대화하는 챗봇에는 자연어 처리가 필요합니다. 


딥러닝 알고리즘은 이 같은 비정형 데이터를 손쉽게 인식하고 구분할 수 있습니다. 특히 딥러닝 알고리즘은 데이터가 많아질수록 성능이 좋아지는 특징이 있는데, 이는 큰 장점입니다. 예를 들어 산삼을 채취한다고 해봅시다. 초심자는 산삼과 도라지를 구별하기 어렵습니다. 산삼 전문가에게 묻지 않고도 이 문제를 해결하려면 산삼과 도라지를 분류하는 딥러닝 모델을 만들면 됩니다. 이때 필요한 것은 산삼과 도라지 이미지 데이터입니다. 데이터가 많아질수록 산삼과 도라지의 차이를 명확히 구분할 수 있게 되니, 되도록 많은 이미지 데이터를 모으면 유리합니다. 이런 과정을 통해 우리는 산삼 전문가에게 묻지 않고도 산삼을 찾아낼 수 있게 됩니다.

 

딥러닝의 한계를 CLIP으로 극복하다


딥러닝 알고리즘의 한계도 있습니다. 딥러닝을 이용한 분류기를 만들 때 일단 분류할 수 있는 개수를 정하고 나면 학습 중간에 이를 바꿀 수 없습니다. 만약 분류할 수 있는 개수를 추가하고 싶으면 처음부터 다시 학습해야 합니다. 예를 들어 산삼과 도라지 분류기를 만들었는데, 여기에 인삼도 구분할 수 있는 기능을 추가하고 싶다고 해봅시다. 인삼 이미지를 새로 모아야 합니다. 새로운 대상을 구분할 능력을 부여하고 싶을 때마다 새로운 데이터를 일일이 모아야 하지요. 데이터만 많이 모으면 분류가 가능하다는 건 딥러닝의 큰 장점이었지만, 반대로 분류 조건이 바뀔 때마다 새롭게 데이터를 모아야 한다는 것은 굉장히 번거로운 작업입니다.


‘비싼’ 데이터가 필요하다는 것도 딥러닝 학습의 한계로 꼽힙니다. AI가 성능을 올리기 위해서는 ‘레이블링’이 된 데이터가 필요합니다. 레이블링은 어떤 이미지가 산삼이고, 어떤 이미지가 도라지인지 알려주는 작업입니다. 사람의 손길이 필요하고 가공도 해야 해 비용이 만만치 않습니다. 온라인상에 존재하는 수많은 데이터를 자유롭게 활용할 수 없다는 뜻입니다.


이런 문제를 극복하는 데에 CLIP이 좋은 대안이 될 수 있습니다. CLIP은 가공되지 않는 이미지와 이에 상응하는 텍스트를 이용하는 방법으로 작동하기 때문에 레이블링된 데이터가 추가로 필요하지 않습니다. 우리가 산삼과 도라지를 구분하는 알고리즘에 인삼을 추가하고 싶을 때 인삼 이미지를 모아서 다시 학습할 필요가 없습니다. 이미 인터넷에 존재하는 수많은 미가공된 이미지와 텍스트 데이터로 학습을 거쳤기 때문입니다.


CLIP을 이용하면 학습 없이 새로운 데이터에 대해 예측하는 ‘제로 샷 러닝(zero shot learning)’이 가능해집니다. 기존에 보지 못한 종류의 이미지도 추가 학습 없이 분류할 수 있기 때문에 상용화할 경우 쓸 수 있는 곳이 무궁무진합니다.

 

새로운 딥러닝의 세계를 열다


하드웨어가 발달하고 데이터의 양이 많아지면서 딥러닝이 좋은 성과를 보여주고 있습니다. 이번 논문은 인터넷 도처에 널려 있는 레이블링되지 않은 이미지와 자연어 데이터를 어떻게 창의적으로 이용할지 고민한 결과물이라고 볼 수 있습니다.


이미지와 자연어 데이터는 서로 특성이 달라 각각 독립적으로 발달했습니다. 물론 이미지에 사용되던 기술이 자연어 처리에 응용되거나 둘이 함께 사용되는 경우도 있지만, 근본적으로 처리하는 방식에 차이가 있어 각각 고유의 연구 영역을 형성하고 있었습니다. 이번 연구는 미가공된 이미지와 자연어를 동시에 학습하는 새로운 아이디어를 제시하고, 성능 또한 높아 큰 의의가 있습니다.
이미 해외 정보기술(IT) 기업뿐만 아니라 국내 IT 기업에서도 CLIP을 이용한 서비스를 출시하려는 움직임을 보이고 있습니다. 카카오 등 해당 분야 엔지니어를 뽑는 기업도 늘고 있죠. AI 관련 서비스가 출시됐을 때 동작하는 알고리즘이 CLIP인지 한 번쯤 생각해보는 계기가 됐으면 좋겠습니다. 

 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2021년 09월 과학동아 정보

    🎓️ 진로 추천

    • 컴퓨터공학
    • 정보·통신공학
    • 소프트웨어공학
    이 기사를 읽은 분이 본
    다른 인기기사는?