영상 분야 '생성형 AI' 활약 기대↑…관련 K-스타트업에 '뭉칫돈' 투자 쏟아져

글로벌 AI영상 생성시장, 연평균 19% 성장 2030년 17억6357억불 오픈AI(소라)·구글(비오) 등 글로벌 빅테크들도 개발 경쟁 뛰어들어 트웰브랩스, 영상분야 AI생성모델 '페가수스; 개발, 700억원 투자유치

2024-06-10 김동진 기자

출처:

[더스탁=김동진 기자] 최근 생성형AI 기술이 빠르게 발전하면서 동영상 콘텐츠를 생성형 AI로 제작하는 시대가 우리 앞에 열리고 있다.

초기에 언어 텍스트 중심이었던 생성형 AI는 최근엔 이미지와 동영상(비디오) 콘텐츠를 생성할 수 있는 수준으로 진화하고 있다. 이용자가 생성형 AI 프롬프트에 간단한 명령어나 요구사항만 입력하면 높은 퀄리티의 영상을 생성해 제공한다,

전 세계적으로 숏폼 동영상이 대유행하면서 영상 콘텐츠 수요는 급증하고 있다. 이 때문에 누구나 손쉽게 영상 콘텐츠를 제작할 수 있도록 지원하는 영상 생성형 AI모델의 시장 전망도 매우 밝은 상황이다.

이미 관련 시장을 선점하려는 글로벌 경쟁이 불붙고 있다. 오픈AI는 텍스트를 입력하면 비디오를 만들어주는 AI 영상 생성 모델인 ‘소라(Sora)’를 지난 2월 공개했다. 구글도 지난 5월 개최된 연례 개발자 콘퍼런스 ‘구글 I/O 2024’에서 1080p 해상도에서 1분 이상 길이의 동영상을 생성할 수 있는 AI 영상 생성 모델 ‘비오’를 선보였다. 어도비도 지난 4월 영상 편집 도구인 프리미어 프로에 도입될 생성형 AI 기능을 공개한 바 있다.

최근 글로벌 벤처투자는 좀처럼 침체국면을 벗어나지 못하고 있으나 생성형 AI 분야 스타트업 투자는 증가세를 보이고 있다. 글로벌 시장조사기관 ‘CB인사이츠’에 따르면 2022년 32억달러 수준이었던 글로벌 생성형 AI 관련 투자규모는 2023년에는 1~3분기에만 174억 달러(약 24조원)를 기록할 정도로 빠르게 증가했다. 이같은 투자 증가 중에는 영상 분야 생성형AI 스타트업들의 몫이 적지 않은 것으로 평가된다.

이같은 흐름 속에서 최근 국내 영상 생성형AI 모델 스타트업인 트웰브랩스가 글로벌 빅테크들로부터 대규모 투자를 이끌어내 주목받고 있다.

10일 관련업계에 따르면 트웰브랩스(Twelve Labs, 대표 이재성)는 지난 5일 엔비디아의 CVC(기업형벤처캐피탈)인 엔벤처스(NVentures)와 미국의 벤처캐피탈(VC) 뉴엔터프라이즈어소시에이트(NEA), 인덱스벤처스, 래디컬벤처스, 원더코벤처스(WnerCo) 등으로부터 5000만달러(약 700억원)의 시리즈A 투자를 유치했다. 이번 투자유치로 트웰브랩스의 누적투자유치액은 7700만달러(1060억원)에 달하게 됐다.

한국 청년들이 2020년 미국에서 설립한 트웰브랩스는 영상 분야의 생성AI 모델 ‘페가수스’와 멀티모달 영상이해 모델 ‘마렝고’를 각각 개발한 업체다. 이 회사의 생성형 AI 모델들은 구글, 오픈AI 등 상용 및 오픈소스 영상 언어 모델과 비교해 최대 43%가량 성능 우위를 보이며 영상이해 기술에 있어 독보적인 경쟁력을 입증했다.

이번 투자에 참여한 모하메드 시딕 엔벤처스 대표 겸 엔비디아 부사장은 “멀티모달 영상이해 기술은 생성 AI의 핵심 요소”라며 “트웰브랩스의 영상이해 기술과 엔비디아의 가속 컴퓨팅을 바탕으로 기업 고객들을 만족시킬 수 있는 다양한 연구 협업을 지속해나가겠다”고 말했다. 한국투자파트너스의 김민준 팀장은 “LLM(대형언어모델) 시장은 오픈AI를 비롯한 빅테크 중심으로 소위 ‘그들만의 리그’가 형성되어 있지만, 멀티모달 영상이해AI 시장에서만큼은 트웰브랩스가 글로벌 선도 기업이 될 수 있다고 판단해 지난해 전략적 투자에 이어 이번 시리즈A까지 참여했다”고 투자배경을 밝혔다.

트웰브랩스는 이번 투자유치를 토대로 ‘페가수스’ 와 ‘마렝고’의 업데이트 버전을 매달 출시할 예정이며, 전직군 대상 공격적인 채용에도 나설 계획이다. 미국에선 이미 마이크로소프트, 메타, 엔비디아, 인텔, 코히어 등 글로벌 빅테크 출신의 고급 인재들이 합류하고 있으며, 한국에서도 뛰어난 AI 및 머신러닝(기계학습) 연구원과 개발자 포함 전직군을 채용할 방침이다. 현재 멀티모달 신경망 학습 능력 향상을 목표로 엔비디아와 협력하여 기존 언어모델에 특화된 텐서RT-LLM의 성능 개선 작업을 진행 중인만큼 멀티모달 영상이해 분야를 선점한다는 계획이다.

이재성 트웰브랩스 대표는 “현재 3만명 이상의 사용자들의 트웰브랩스의 API(응용프로그램 프로그래밍 인터페이스)를 활용하고 있다”며 “이번 투자유치로 영상이해 모델 개발 및 고도화에 속도를 내고 스포츠, 미디어, 광고, 보안 등 산업 전반에 트웰브랩스의 API가 활용될 수 있도록 사업 확장에 속도를 내겠다”고 말했다.

글로벌 시장조사기관 ‘더인사이트파트너스’에 따르면 전 세계 AI 동영상 생성 시장규모는 2022년 4억3748만달러에서 연평균 19.0% 성장해 오는 2030년엔 17억6357만달러(약 2조4000억원)에 달할 것으로 전망된다.