본문 바로가기
IT 테크

SORA, 영상 생성 AI, Text to Video 끝판왕, AGI 문을 여는 Open AI

by Cleanfount 2024. 2. 28.

 

 

Sora라는 생성형 AI 서비스를 ChatGPT로 유명한 Open AI사에서 공개하였는데, 이거 뭐랄까 Text to Video 모델 서비스의 끝판왕 같은 느낌이고 생성형 인공지능 서비스에 약간의 특이점이 온 것 같은 느낌입니다. 이제 스크린 너머로 보이는 영상물은 일단 그 진위성을 100% 신뢰할 수 없고 무조건 의심을 해야 하는 시대가 막 들이닥칠 것 같습니다.

이번 포스팅에서는 SOAR에 대한 전반적인 내용에 대해 살펴보도록 하겠습니다. 

 

SORA, Text to Video 서비스의 끝판왕 예약

최근 Open AI에서 공개한 SORA는 인공지능을 활용해서 영상을 생성해 주는 기능을 하는 서비스입니다. 이 전까지 text to video는 Runway Gen2 혹은 PIKA 정도가 작년에 공개되어 이슈를 몰고 온 적이 있었는데, 그 기능도 실로 놀라웠지만 살짝 아쉬운 부분도 더러 있었던 것도 사실입니다. 

그런데 이번에 공개된 SORA는 그러한 아쉬움을 확연하게 차이나는 서비스를 선보여서, 이 뭔가 인공지능 산업에 특이점의 초입에 온 것 같은 묘한 생각이 들기도 합니다. 1차로 공개된 내용을 토대로 SORA의 주요 장점, 주요 기능, 공개된 영상 등에 대해 살펴보도록 하겠습니다.

 

 

 

SORA의 장점

Sora의 장점 중에 눈에 띄는 두가지가 있는데, 첫 번째로 바로 특별한 왜곡이 없이 최대 1분 길이의 영상을 생성할 수 있는 것으로 보입니다.

위에서 언급한 바와 같이 Text to Video의 주요 서비스인 PIKA는 최초 3초, Runway Gen2는 4초의 영상을 생성하는 데에 반해 상당한 길이를 개연성 있게 왜곡 없이 표현하는 것으로 보입니다. 

 

물론 Runway Gen2나 PIKA의 경우도 Credits을 써가며 4초씩 계속 영상을 늘려갈 수가 있도록 구현은 되어 있는데, 실제로 테스트해 본 결과, 늘리면 늘릴수록 왜곡이 너무 심하게 되고 급기야는 형체를 알아볼 수 없을 정도로 일그러지게 되기도 하는 경우도 있습니다. 

 

그런데 SORA에서 공개한 몇가지 영상들을 보니 긴 시간 동안 최초의 Theme을 그대로 유지하면서 왜곡이 없이 자연스럽게 진행되는 과정을 볼 수 있어서 솔직히 조금 놀랐습니다. 

 

두 번째 장점으로는, 바로 특정 동작 유형과 피사체와 배경의 디테일이 비교불가라는 점입니다. 기존의 서비스들은 연산의 집중을 포커스 된 피사체에 집중하고 그 외의 배경은 포커스 아웃으로 날려버리는 것을 선호하는 결과물을 많이 내보냈는데(이는 물론 조정이 가능함), 공개된 SORA의 영상은 포커스 된 피사체이던 배경이던 실제와 거의 흡사한 구현을 해 내는 것으로 보이는 것이 큰 차별성으로 보입니다. 

 

 

 

SORA의 주요기능

소라의 주요 기능은 여타 먼저 나온 영상생성 서비스와 대동소이합니다. 이미지 생성도 당연히 가능합니다. 아래는 Open AI에서 공개한 SORA의 기술보고서를 참조하여 작성하였습니다.

  • Text to video: 말 그대로 내가 원하는 영상을 글로 명령을 하면 표현해 주는 기능입니다. 
  • Image to video: 레퍼런스 이미지 한 장과 동시에 프롬프트 명령을 하면 그 이미지가 명령에 맞도록 영상이 되는 기능입니다.
  • Video to video: 텍스트로 간단하게 원본 영상에서 변환하고 싶은 부분을 입력하면 프롬프트 명령대로 변환되어 표현해 주는 기능입니다.
  • Connectiong video: 두 개의 영상을 이을 수 있는 기능입니다. 두 개의 영상 사이를 점진적으로 '보간'하여 완전히 다른 주제와 장면 구성의 영상이어도 그 둘 간의 원활한 전환을 생성할 수 있는 기능입니다. 
  • Extending generated videos: 영상의 시간을 앞당기거나 뒤로 확장할 수 있는 기능입니다.

 

위에서 언급한 내용들은 OPEN AI의 SORA 기술보고서에 잘 나와 있으니 방문하여 더 상세한 정보를 얻을 수 있습니다. 

 

 

 

SORA 공개영상

OPEN AI 홈페이지에서 현재 SORA로 생성된 영상이 다수 올라와 있기는 한데, OPEN A의 공식 유튜브 채널에 아래의 영상이 하나 올라와 있네요. 이것을 보면 대략적인 기술개요와 그에 상응하는 영상들을 한 번에 다 확인할 수 있습니다. 

출처: OPEN AI 공식 유튜브 채널, Introducing Sora- OpenAI's Text-to-video model

 

 

맺음말

지금까지 간단하게 Sora에 대해 살펴보았습니다. 아직 출시가 된 서비스는 아닙니다. 현재 이 회사에서 제공하는 서비스인 ChatGPT도 전 세계의 사용자들의 사용량을 다 감당할 수 있는 정도의 서버와 GPU가 한계가 있는데, 이 서비스까지 제공되려면 더 많은 인프라가 구축돼야 될 것 같습니다. 기술은 선보였는데, 인프라가 받쳐줄 때까지 기약 없는 기다림을 해야 되는 상황이네요. 

 

 

아울러 공식 홈페이지에서도 명시하고 있듯이 현재 버전 모델의 약점에 대해서도 상세하게 기술하고 있습니다. 복잡한 장면의 물리학을 정확하게 시뮬레이션하는데 어려움을 겪고 있으며, 이의 예시를 화면과 동시에 상세한 설명도 함께하여 공개해 놓은 상태입니다. 물리적으로 믿기기 어려운 움직임을 만들어낸다던가,  부자연스러운 물체 '모핑'에 대한 예, 각 개체들의 상호작용을 자연스럽게 시뮬레이션해내지 못하는 예 등을 확인할 수 있습니다. 자세한 내용은 홈페이지에서 확인이 가능합니다.

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

 

이상 글을 마치겠습니다. 두근두근하며 기다리면 되기도 하겠지만, 한편으로는 화면 속의 영상은 100% 진실이 아닐 수 있다는 의심이 생기는 시대가 걱정이 되기도 하네요. 감사합니다.