오픈AI의 동영상 생성 AI, 소라(Sora)

대화형 인공지능(AI) 챗봇 ‘챗GPT(ChatGPT)’의 개발사 오픈AI가 동영상 생성 AI ‘소라(Sora)’를 공개했습니다. 소라는 우리가 일상에서 사용하는 언어인 자연어로 명령하면 동영상을 만들어 주는 ‘텍스트 투 비디오(text-to-video)’ 모델입니다. 소라에 “눈 내리는 아름다운 도쿄의 분주한 풍경. 카메라는 떠들썩한 도시의 길을 따라 움직이고, 눈 오는 아름다운 날씨와 가판대 쇼핑을 즐기는 사람들을 좇는다. 무척 아름다운 벚꽃잎이 눈꽃과 함께 바람을 타고 흩날린다”라는 텍스트를 넣으면 아래와 같은 영상이 만들어집니다. 많은 이들이 영상 제작 산업의 판이 뒤집힐 거라고 보고 있는데요.

소라가 왜 특별한데?

사실 소라가 사상 첫 텍스트 투 비디오 AI는 아닙니다. 이 분야의 선두 주자로 손꼽히는 곳은 미국 스타트업 ‘런웨이’입니다. 2023년 3월, 자연어를 입력하면 약 4초 분량의 영상을 생성하는 AI ‘젠2(Gen-2)’를 공개했죠. 메타도 같은 해 11월 텍스트 투 비디오 AI ‘에뮤 비디오(Emu Video)’를 공개하며, 해당 기능을 추후 페이스북과 인스타그램에 탑재할 예정이라고 밝혔고요. 그럼에도 소라가 이렇게 큰 주목을 받는 것은 결과물이 뛰어나기 때문입니다. 다른 비디오 생성형 AI는 최대 15~20초가량의 영상을 만들어 내지만, 소라는 최대 1분 길이의 영상을 만들 수 있습니다. 영상 이미지의 질도 높고요. 단순히 고화질 영상이라는 얘기가 아닙니다. 오픈AI에 따르면 소라는 현실 세계의 물리 법칙을 이해하고, 그를 적용해 복잡한 장면을 영상으로 만들어내죠. 이렇게 강력한 동영상 생성형 AI 소라가 공개되자, 런웨이 CEO 크리스토발 발렌주엘라는 자신의 X에 “게임 시작(game on)”이라는 메시지를 남기기도 했습니다.

GPT 선배님 덕분입니다

소라를 만드는 데는 특히 챗GPT의 공이 컸다는 이야기가 나옵니다. AI를 학습시켜 정교한 텍스트 투 비디오 생성 시스템을 만들려면, 방대한 양의 비디오와 각각을 상세하게 설명하는 텍스트가 필요합니다. ‘이런 비디오는 이런 텍스트와 연결되는 거야’라고 알려줘야 하는 것이죠. 그러나 사람이 직접 그 설명을 다 작성하기에는 물리적, 체력적 한계가 있습니다. 그래서 오픈AI는 GPT를 활용했습니다. 그 결과 소라는 짧은 시간 안에 많은 학습 데이터를 확보해 명령어를 정확히 이해하고 높은 퀄리티의 영상을 만들어낼 수 있게 됐습니다.

일반 공개 시기는?

아쉽게도 당장 누구나 소라를 사용해 볼 수 있는 것은 아닙니다. 다양한 분야의 전문가들만 테스트 사용에 참여하고 있는데요. 더 안전한 소라를 만들기 위해 약점과 악용 가능성을 먼저 찾아내는 중이라고 합니다. 키보드를 두드리는 손끝을 타고 모두의 영감이 순식간에 멋진 영상으로 만들어질 날도 머지 않은 것 같네요. 소라가 일반에 공개되기 전까지 더 많은 영상을 살펴보고 싶다면, 오픈AI의 소라 소개 페이지(https://openai.com/sora)를 참고해 보세요!