(❋편집자주. 오늘날 생성 인공지능(AI) 시장은 막대한 자본력을 앞세운 글로벌 빅테크 기업이 이끌어가고 있다 해도 과언이 아니다. 급격하게 변화하는 시장 속에서 스타트업들은 각자 새로운 생존 전략을 고민한다. 생성 AI 상용화라는 마라톤 경기에 피지컬 최강 선수(빅테크 기업)와 피지컬보단 독특한 달리기 기술이 강점인 선수(스타트업)가 함께 달리는 셈이다. 각자 다른 전략으로 존재감을 뽐내는 생성 AI 스타트업들을 만나봤다.)
☞뤼튼테크놀로지스
☞포자랩스
☞프렌들리 AI
챗GPT가 승승장구하면서 생성 인공지능(AI)의 상용화를 이끈 오픈AI는 일면 큰 위기에 봉착했다. GPT-4를 학습시킬 때 사용한 막대한 데이터의 저작권을 고려하지 않은 탓이다. 최근 미국 뉴욕타임스, 캘리포니아주가 오픈AI에게 저작권 소송을 제기했다. 해당 소송에 대해 오픈AI는 ‘생성 AI 모델 학습이 저작권법에 의해 금지되지 않는다’고 반박했지만 앞으로 생성 AI 학습 데이터에 대한 저작권 규제는 강화될 것으로 보인다.
한국도 마찬가지다. 문화체육관광부와 한국저작권위원회가 2023년 12월 발표한 ‘생성형 AI 저작권 안내서’에 따르면 한국에서는 온라인에 게시한 콘텐츠도 저작권자의 허락 없이는 학습 데이터로 사용할 수 없다. 유럽연합(EU) 역시 2023년 12월, 모델 학습에 사용된 데이터 정보를 공개하고, 저작권법을 따르는 정책을 가져야 한다는 내용이 담긴 ‘AI 법’을 합의했다. 생성 AI의 핵심인 데이터를 저작권 규제로 쓸 수 없게 된다면, 대규모언어모델(LLM)의 성능도 더 성장하기 어렵다.
2018년 창업한 음악 창작 AI 기업 포자랩스는 기업이 문을 연 초반부터 학습 데이터의 저작권에 주의했다. 작사 작곡 분야는 저작권 문제가 특히 민감하기 때문에 저작권 소송을 미연에 방지하기 위해 아티스트의 저작물을 학습에 사용하지 않았다. 포자랩스의 AI가 학습하는 데이터는 자체 고용한 작곡가가 만든 독자적인 음원이다. 그렇게 구축한 작곡 데이터는 무려 100만 개나 된다. 포자랩스가 만든 데이터로, 포자랩스만의 음악을 만들어내는 셈이다. 허원길 포자랩스 대표는 과학동아와의 e메일 인터뷰를 통해 “이 방식은 장기적으로 봤을 때 기업의 비용도 절약할 수 있지만, 무엇보다 음악인들의 권리를 침해하지 않을 수 있다”고 설명했다.
포자랩스는 생성 AI 모델이 사용하는 음원 데이터의 ‘종류’부터 빅테크 기업들과 차별점을 둔다. 빅테크 기업들은 음악을 듣기 편리한 음원 데이터인 ‘wav’를 사용해 음악 생성 AI를 개발한다. 이에 반해 포자랩스는 악보 정보 등 작곡 데이터 수정이 용이한 음원 데이터 ‘midi(미디)’로 생성 AI 모델을 개발했다. 미디 데이터에는 악보 정보가 담겨 있어, 인간이 악기를 다루는 것 같은 연주법을 개발할 때도 유용하다. 포자랩스는 그동안 연구한 ‘미세한 셈여림 정보 생성 인공지능 기술(MID-FiLD・MIDI Dataset for Fine-level Dynamics)’을 AI 최고의 학회인 AAAI에 2023년 12월 발표했다. 이는 악기의 주법에 따라 변하는 음색과 음량을 미세한 수준으로 표현한 데이터 세트에 관한 연구로, 미세한 셈여림 정보를 학습하면 인간이 연주한 듯한 섬세한 곡을 생성할 수 있다. 다른 음악 생성 AI의 데이터 세트가 대체로 음표 수준의 강약 정도만 담을 수 있는 것과 비교하면 기술력이 돋보인다.
빅테크 기업들과 시작부터 다른 길을 가는 것은 용기와 뚝심이 필요한 일이지만, 장기적으로 좋은 차별점이 될 수 있다. 수고스럽지만 직접 음원을 제작해 학습 데이터를 쌓은 것도, 미디 확장자를 사용해 모델을 생성하는 것도, 시간이 흐를수록 더 뛰어난 품질의 음원을 생성하는 AI를 만드는 데 밑거름이 되기 때문이다.
허 대표는 “‘어떤’ 데이터를 ‘어떻게’ 사용할 것이냐가 앞으로는 점점 더 중요해질 것”이라며 “포자랩스의 음원 생성 모델은 어떤 결과물이 나올 것인지 예측, 제어가 가능하다”고 강조했다. 생성된 결과물에 창작자의 의도를 반영할 수 있어야 인간과 AI의 진정한 협업이라는 게 그의 지론이다.
빅테크 기업들은 현재 음원 생성 AI에 대한 다양한 연구를 하고 있다. 하지만 아직까지 상용화된 서비스는 거의 없다. 허 대표는 “빅테크 기업이 상용화에 나서기 전까지 포자랩스만의 독자적인 고품질 데이터를 구축할 계획”이라고 밝혔다.