4일전 OpenAI에서 발표한 Sora로 인해 세상이 시끌시끌하다. 지식팔레트 사피엔젤에게는 Good News로 들리지만 , 이를 악용할 소지가 많다는 입장도 만만치 않다. 오픈 ai 가 무언가를 내놓을 때마다 들썩거리는 세상을 보면 역시 인공지능은 인류사의 거대한 한획인거는 맞다.
1. Sora는 무엇인가 ...
Sora는 "입력된 텍스트로부터 현실적이고 상상력이 넘치는 장면을 만들어낼 수 있는 AI 모델입니다." 라고 되어있다.
즉 테스트----> 비디오 , 이쯤 되면 기존의 여러가지 비디오 생성형 AI와 뭐가 다른지 궁금해 진다.
2. Sora관련 Technical report에 따르면 ...
"우리는 비디오 데이터를 활용한 생성 모델의 대규모 학습을 연구합니다. 특히, 다양한 길이, 해상도, 종횡비를 가진 비디오와 이미지에 대해 텍스트 조건부 확산 모델을 공동으로 학습시킵니다. 비디오 및 이미지 잠재 코드의 시공간 패치에서 작동하는 트랜스포머 아키텍처를 활용합니다. 당사의 최대 모델인 Sora는 고화질의 1분 길이 비디오를 생성할 수 있습니다. 연구 결과는 비디오 생성 모델의 확장이 물리적 세계의 범용 시뮬레이터를 구축하는 유망한 방법임을 시사합니다."
뭔지 모르겠지만 " 고화질의 1분 길이 비디오 " 가 눈에 들어 온다.
이런 수준의 영상이 1분이나 만들어 진다니..놀라울 따름이다.
위의 영상의 프롬프트는 단지
Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
일뿐이다. 그럼 짧게 나마 트랜스포머 아키텍쳐가 무얼까?
3. 트랜스포머 아키텍쳐란 ...
구글 Gemini advanced 에게 여쭤 보니 아래와 같은 답을 주었다.
결국 기존의 생성형 AI 툴들과 다르게 디퓨전+트랜스포머로 인해 Sora는 다른 급으로 비디오를 생성해 주는 것이다.
위와 같은 프롬프트에 자연스럽게 선그라스에 반사되는 부분, 배경속의 많은 사람들까지 더하여 1분여 가량의 동영상타임은 마법같다.
4. Weak Point ...
The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect
물론 아래와 같은 영상에서 볼 수 있는 문제점도 존재한다. "현재 모델에는 약점이 있습니다. 복잡한 장면의 물리적 현상을 정확하게 시뮬레이션하는데 어려움을 겪을 수 있으며, 구체적인 인과관계를 이해하지 못할 수도 있습니다."
이런 단점조차도 영화적 효과로 사용할 수 있지 않을까 하는 짧은 생각을 하는 지식팔레트 사피엔젤이다.
5. 현재 Open AI 사용여부
현재 대중에게 사용여부는 기다려야 한다.
우리는 오늘부터 Sora가 중요 영역의 위험성과 리스크를 평가하기 위해 보안 전문가("red teamers")들에게 제공될 것이라고 발표합니다. 또한, 보다 창의적인 전문가들에게 도움이 되도록 모델을 발전시키는 방법에 대한 피드백을 얻기 위해 많은 시각 예술가, 디자이너, 영화 제작자들에게도 접근 권한을 부여하고 있습니다.
우리는 OpenAI 외부의 사람들과 협력하고 피드백을 얻기 위해 조기에 연구 진행 상황을 공유하고 있으며, 대중에게 앞으로 가능할 인공지능의 능력에 대한 감을 제공하고자 합니다.
Today, Sora is becoming available to red teamers to assess critical areas for harms or risks. We are also granting access to a number of visual artists, designers, and filmmakers to gain feedback on how to advance the model to be most helpful for creative professionals.
We’re sharing our research progress early to start working with and getting feedback from people outside of OpenAI and to give the public a sense of what AI capabilities are on the horizon.
'인공지능, 가상세계' 카테고리의 다른 글
Gemini Advanced 무료 이용 (0) | 2024.02.13 |
---|---|
클로버 X 와 큐 cue : 는 뭐가 다르지? (0) | 2024.02.08 |
바드의 생성형 이미지로 무료 그림을!! (0) | 2024.02.07 |
인공지능(AI) 와 가상현실 (VR) 의 통합 - 의료 (0) | 2024.02.07 |
진화 된 AI, AGI 의 소셜 미디어에서 역할 (0) | 2024.02.07 |