인공지능(AI)이 생활 깊숙한 곳까지 영향을 미치고 있다. 도로 위에는 AI가 운전하는 자율주행차가 상용화에 박차를 가하고 있고, 도시나 실내 곳곳을 연결하는 사물인터넷(IoT) 센서도 최적의 서비스를 제공하기 위해 AI를 이용한다. 이런 추세에 발맞춰 AI의 ‘두뇌’인 반도체도 발전하고 있다. 특히 AI 처리에 특화된 전용 반도체 개발은 미래 사회를 더욱 앞당길 것으로 기대된다.
인공지능(AI) 시대의 개막을 알린 바둑 AI 알파고부터 현존 최고 성능의 자연어처리 AI로 평가받는 GPT-3까지. 길지 않은 시간 동안 AI는 놀라운 수준의 발전을 이뤄내고 있다. 현재 AI 기술의 수준을 결정하는 것은 얼마나 많은 양의 데이터를 얼마나 빠르게 학습시킬 수 있느냐다. 이에 따라 AI 모델의 발전 못지않게 이를 구동할 하드웨어, 그중에서도 중앙처리장치(CPU)와 그래픽처리장치(GPU) 등 시스템반도체의 성능이 중요해지고 있다.
현재 대부분의 AI 모델에는 병렬연산에 효율적인 GPU가 사용된다. 시스템반도체의 연산 방법은 크게 복잡한 계산을 빠르게 처리하는 직렬연산과 많은 계산을 한 번에 처리하는 병렬연산이 있다.
가령 100회의 연산이 필요한 작업에서 직렬연산이 차례로 하나씩 처리한다면, 병렬연산은 각각 1번의 연산을 동시에 100번 시행한다. 직렬연산이 차선 1개의 고속도로라면 병렬연산은 동시에 100대의 자동차가 달릴 수 있는 저속도로라고 할 수 있다. 그래서 동시에 많은 양의 데이터를 처리해야 하는 AI 알고리즘의 특성상 직렬연산을 하는 CPU보다 병렬연산의 GPU가 더 효율적이다.
하지만 AI에 사용되는 GPU는 1개의 가격이 최대 수천만 원에 이르고, 연산 효율도 나날이 높아져가는 AI 모델을 충분히 구현하기에는 아직은 부족하다. AI 모델을 제대로 구동하려면 수천 개의 GPU가 필요할 경우도 있다. 소요되는 면적도 넓고, 전력 소모량도 크다. AI 발전에 반도체의 성능한계가 큰 장애물 중 하나로 꼽히는 이유다. 한진호 한국전자통신연구원(ETRI) 인공지능프로세서연구실장은 “최근 개발되는 AI 알고리즘은 기존보다 수천~수만 배 복잡하고, 학습에 필요한 데이터도 기하급수적으로 늘어나는 추세”라며 “AI 알고리즘을 가속할 수 있는 전용 반도체가 필요하다”고 말했다. AI 반도체의 대표 주자는 신경망처리장치(NPU)다. NPU는 인간의 뇌를 모방해 설계돼 AI의 핵심인 딥러닝 알고리즘 연산에 특화됐다.
데이터의 흐름을 AI에 맞춘다
AI 반도체는 반도체 설계 단계에서부터 AI 알고리즘에 적합한 형태로 만든다는 점에서 전통적인 시스템반도체와 구분된다. 단순히 생산 공정에서 집적도를 높이는 방법으로는 AI에 필요한 수준의 전력 효율을 달성하는 데 한계가 있다.
현재 가장 널리 사용되는 방법은 AI 알고리즘의 핵심 연산을 하드웨어적으로 구현하는 것이다. AI는 데이터 처리에 심층신경망(DNN), 합성곱신경망(CNN) 등 알고리즘을 사용한다. 여기에는 완전연결계층(인접하는 계층의 모든 뉴런과 결합한 신경망)이나 합성곱(하나의 함수와 다른 함수의 반전이동 값을 곱한 뒤 적분해 새로운 함수로 만드는 수학 연산)과 같은 독특한 연산방법이 적용되는데, 이런 연산에 더욱 적합한 형태로 반도체를 설계하는 것이 핵심이다.
AI가 데이터를 학습하거나 학습된 데이터를 토대로 추론을 하기 위해서는 S램이나 D램 등 메모리반도체에 저장된 데이터를 연산 순서에 맞춰 불러와야 한다. 문제는 여기에 필요한 데이터의 양이 일반적인 컴퓨터의 연산에 비해 매우 많고, 그만큼 전력 소모도 크다는 점이다. 그렇기에 데이터 흐름 최적화가 AI 반도체 설계에서 가장 중요하다.
궁재하 대구경북과학기술원(DGIST) 정보통신융합전공 교수는 “AI 반도체를 설계할 때 가장 중요한 점은 알고리즘의 처리 순서에 따라 필요한 데이터를 차례로 불러오게 하는 것”이라며 “이를 구현하는 대표적인 기술로 필드프로그래머블게이트어레이(FPGA), 주문형반도체(ASIC·에이식) 등이 있다”고 설명했다.
FPGA는 사용자가 자체적으로 프로그래밍을 할 수 있는 소자다. 내부 회로의 변경이 어려운 일반 반도체와 달리 각각의 모델에 적합한 형태로 변경할 수 있는 게 특징이다. GPU의 경우에는 동일한 제품을 사용하더라도 적용되는 알고리즘의 종류와 방식에 따라 나타낼 수 있는 성능의 편차가 크다. 만약 각각의 AI 모델에 맞춰 프로그래밍한 FPGA로 GPU를 대체한다면 연산 성능과 전력 효율을 높일 수 있다. FPGA는 범용적으로 사용될 수 있다. 현재 상용화된 AI 반도체도 대부분 FPGA 방식으로 만들어진다. 기존 시스템반도체 시장을 선도하고 있는 인텔과 ARM이 이 방식을 사용하고 있다.
ASIC은 특정 용도에 맞춰 제작되는 게 특징이다. FPGA와 달리 설계 단계에서부터 용도가 정해지는 만큼 범용성은 상대적으로 낮지만, 전력 효율이 높고 면적을 적게 차지한다는 점이 장점이다.
다만 개발에 드는 비용이 FPGA보다 높다는 단점이 있다. 특정 AI 모델에 특화되는 만큼 기존 반도체 생산 업체는 물론 AI를 개발하고 활용하는 기업에서도 ASIC 방식의 AI 반도체를 개발하고 있다. 구글이나 페이스북, 아마존 등이 이 기술을 적용한 반도체를 내놓고 있다.
이 가운데 구글의 ASIC 방식 AI 반도체인 TPU는 알파고에 사용되면서 유명세를 탔다. 초기 버전의 알파고에는 1000여 개의 CPU와 100여 개의 GPU가 사용됐는데, 이세돌 9단과의 대국에서는 48개의 TPU가 이를 대체했다. 현재의 알파고는 과거보다 성능은 좋으면서도, 단 4개의 TPU로 구동되는 것으로 알려졌다.
AI 반도체 개발과 함께 컴파일러 연구도 중요하다. 컴파일러는 프로그래밍 언어를 하드웨어에서 실행할 수 있도록 변환하는 과정으로, 일종의 언어 번역기의 역할을 한다. 데이터를 얼마나 빠르고, 효율적으로 불러올 수 있는지가 AI 반도체에서 가장 중요한 만큼 컴파일러의 역할이 크다.
한 실장은 “대규모 학습과 추론 처리 성능을 극대화하기 위해서는 AI 반도체의 자체 연산 성능도 중요하지만, 이를 운용하는 AI 컴파일러의 최적화도 반드시 필요하다”고 말했다.
데이터 저장과 연산을 하나의 칩에서
최근 가장 큰 주목을 받는 AI 반도체는 지능형메모리반도체(PIM)이다. 이름에서 알 수 있듯이 메모리반도체와 시스템반도체를 하나의 칩으로 만들었다.
PIM이 차세대 AI 반도체로 주목받는 이유는 시스템반도체와 메모리반도체가 물리적으로 구분되는 컴퓨터 구조인 ‘폰 노이만 구조’의 한계를 극복할 수 있는 방식이기 때문이다. 미국의 수학자이자 물리학자인 폰 노이만이 1945년 처음으로 제안한 폰 노이만 구조는 입력되는 명령을 CPU가 처리하는 구조다. 명령을 담은 프로그램과 데이터를 읽고 쓰는 활동이 모두 메모리에 기반을 두고 이뤄진다는 특징이 있다.
폰 노이만 구조는 현대적인 컴퓨터 대부분에 적용될 정도로 효율적이고 범용적인 방식이지만, 어쩔 수 없는 한계점도 지니고 있다. 바로 ‘폰 노이만 병목’이라고 부르는 현상이다. 프로그램 및 데이터가 저장되는 메모리가 연산 장치와 구분돼 있다 보니 시스템반도체의 성능이 아무리 높아지더라도 메모리에서 데이터를 불러오는 속도가 이를 따라가지 못하면 시스템의 성능이 저하된다. 폰 노이만 병목은 일반적인 컴퓨터의 성능에도 영향을 미치지만, AI를 연구할 때엔 가장 큰 한계로 작용한다. 데이터를 불러오는 데 필요한 전력도 대규모 서버 운영이 필요한 AI 모델에는 극복해야 할 한계 중 하나다.
PIM은 이를 해결하기 위해 하나의 칩 안에 데이터를 저장하는 회로와 연산하는 회로를 모두 설계한다. 이렇게 되면 별도의 메모리에서 연산장치로 데이터를 불러오는 과정이 크게 단축되거나 사라진다. 연산 효율을 높이는 것은 물론 데이터 전송에 필요한 전력도 크게 아낄 수 있다.
권영수 ETRI 지능형반도체연구본부장은 “AI 모델이 가진 데이터가 기하급수적으로 증가하는 만큼 반도체 내부의 연산 장치가 데이터를 불러오는 속도가 AI의 성능에 크게 영향을 미친다”며 “PIM은 데이터 저장과 연산을 한 번에 할 수 있어서 연산속도를 크게 끌어올릴 것으로 기대되고 있다”고 말했다.
다만 아직 PIM을 제대로 구현하는 경우는 많지 않다. 권 본부장은 “반도체 발전의 역사에서 메모리반도체는 용량을 늘리는 방향으로, 시스템반도체는 연산속도를 빠르게하는 방향으로 발전해 왔다”며 “두 반도체의 설계 방법과 공정이 너무 달라 기술적으로 하나의 칩에 두 반도체를 넣는 것이 쉽지 않다”고 설명했다. 최근에는 메모리반도체와 시스템반도체를 최대한 가까이 배치하고, 둘 사이에 연결점을 늘려 데이터 전송 속도를 높이는 방식의 PIM이 개발되고 있다.
ETRI도 이런 방식을 따른 PIM인 AB31을 현재 개발 중이며, 조만간 연구결과를 발표할 예정이다. 권 본부장은 “AI 알고리즘에 적합한 형태의 연산 순서로 프로그래밍한 NPU와 고대역폭메모리(HBM)의 연결성을 높여 연산 능력은 동일하면서 전력 효율은 90% 이상 개선하는 데 성공했다”며 “최종적으로는 데이터 저장과 연산을 한 개의 칩으로 해결할 예정”이라고 말했다.
내 주변 모든 장치, AI가 된다
AI 반도체는 여전히 많은 연구가 필요한 상황이지만, 상용화만 된다면 우리 삶에 큰 변화를 끌어낼 기술로 꼽힌다. 전문가들은 AI의 데이터 학습과 추론 능력이 비약적으로 발전하면서 클라우드 컴퓨팅 환경을 넘어 엣지 컴퓨팅 시대가 찾아올 것으로 전망한다.
엣지 컴퓨팅은 중앙 서버에서 모든 데이터를 수집하고 분석하는 클라우드 환경과 달리 각각의 개별 장치에서 데이터를 처리하는 방식을 말한다. 권 본부장은 “가령 서버에서 학습한 데이터를 수신해 자동차가 자율주행하는 것이 클라우드 방식이라면, 자율주행에 필요한 데이터를 내 자동차가 학습하고 이를 통해 개인에게 적합한 자율주행을 구현하는 것이 엣지 컴퓨팅”이라고 설명했다.
엣지 컴퓨팅 환경에서 AI 반도체의 중요성은 더욱 커진다. 클라우드 컴퓨팅 환경에서는 서버에서 데이터를 학습한다. 전원을 안정적으로 공급하기에 유리하다. 공간과 크기의 제약도 상대적으로 적다. 반면 엣지 컴퓨팅 환경에서는 개별 기기에서 수많은 데이터를 처리한다. 때문에 전력 사용량을 줄이는 것이 중요하다. 크기도 작아야 한다.
기존에는 서버를 위해 연산 능력이 좋은 학습용 AI 반도체를, 개별 장치를 위해 전력 효율이 좋은 추론용 AI 반도체를 각각 개발해 사용했다. 하지만 엣지 컴퓨팅 환경에서는 연산 능력과 전력 효율을 모두 갖춘 엣지 디바이스용 반도체가 필요하다.
엣지 컴퓨팅 환경이 구축되면 AI와 IoT 장치의 활용도도 더욱 높아진다. 우선 서버에 집중된 연산량이 감소하기 때문에 짧은 시간에 많은 데이터가 몰려 부하가 발생하는 경우를 막을 수 있다. 해킹에 대한 우려도 상대적으로 적다. 클라우드 환경에서는 모든 데이터가 집중된 서버만 해킹해도 연결된 모든 기기에 영향을 미칠 수 있지만, 엣지 컴퓨팅 환경에서는 개별적인 장치에 대한 보안으로도 안전을 보장할 수 있다.
기술을 선점하기 위한 글로벌 기업들의 경쟁도 뜨겁다. 인텔과 퀄컴, 엔비디아 등 시스템반도체 산업을 이끄는 기업은 물론이고 메모리반도체를 주력으로 기술 개발에 집중하던 삼성전자, SK 하이닉스 등도 AI 반도체 시장에 출사표를 던진 상태다.
권 본부장은 “AI 반도체는 미래 기술로서 중요성이 아주 크다”며 “현재 전 세계 AI 반도체 연구를 이끄는 국가는 미국이지만, 반도체 인프라를 갖추고 있는 한국도 정부와 기업, 연구원 등이 협력해 곧 기술 우위에 설 수 있을 것”이라고 말했다.