Atualização (14/03/2024) – por DT
Em fevereiro, a OpenAI anunciou pela primeira vez o Sora, seu novo aplicativo de criação de vídeo com IA. Ele permite que as pessoas façam vídeos de até 60 segundos apenas escrevendo algumas instruções de texto.
Em uma nova entrevista ao The Wall Street Journal, a diretora de tecnologia da OpenAI, Mira Murati, afirmou que o plano atual é lançar a OpenAI ao público em geral em algum momento mais tarde, em 2024. Na verdade, ela disse que “poderia levar alguns meses”. antes do lançamento público de Sora.
Os exemplos que a OpenAI postou para mostrar vídeos criados via Sora impressionaram muitas pessoas com seus visuais realistas, movimentos de câmera e muito mais. Até agora, a OpenAI permitiu que apenas alguns usuários convidassem a experimentar o Sora.
Uma das preocupações sobre o Sora, e na verdade para todas as ferramentas de IA baseadas em prompts de texto, é de onde vêm os dados para seus grandes modelos de linguagem. No caso de Sora, Murati disse que usa conteúdo da Shutterstock licenciado pela OpenAI.
No momento, Sora só pode criar vídeos sem som e esses clipes não podem ser editados durante o processo de criação. Murati disse que a OpenAI está trabalhando para adicionar áudio aos clipes de Sora, junto com ferramentas de edição.
No momento, não há informações sobre quanto o OpenAI cobrará pelo uso do Sora ao público. De acordo com Murati, a empresa gostaria de definir o preço de Sora de forma semelhante ao preço de seu software criador de arte DALL-E 3 AI.
Texto original (15/02/2024)
A OpenAI está lançando um novo modelo de geração de vídeo chamado Sora. De acordo com a empresa, o Sora “pode criar cenas realistas e imaginativas a partir de instruções em texto.” Esse modelo permite que os usuários criem vídeos fotorrealistas de até um minuto base em prompts.
Segundo o post introdutório da OpenAI, o Sora é capaz de criar “cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo.” A empresa também observa que o modelo pode entender como objetos “existem no mundo físico” e “interpretar com precisão adereços e gerar personagens cativantes que expressam emoções vibrantes”.
Apresentando Sora, nosso modelo de texto para vídeo.
Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes. https://t.co/7j2JN27M3W
Prompt: “Lindo, com neve… pic.twitter.com/ruTEWn87vf
– OpenAI (@OpenAI) 15 de fevereiro de 2024
Ó modelo também pode gerar um vídeo com base em uma imagem estática, preencher quadros ausentes em um vídeo existente ou estendê-lo. As projeções geradas por Sora incluem uma cena aérea da Califórnia durante a corrida do ouro, um vídeo que parece ter sido filmado de um trem em Tóquio, entre outros.
Embora muitos apresentem sinais característicos de IA, a OpenAI afirma que o modelo “pode enfrentar dificuldades ao simular com conclusões a físicas de uma cena complexa” —mas os resultados, no geral, parecem convincentes.
Empresas como Runway e Pika também já mostraram modelos poderosos de conversão de texto para vídeo, e o Lumiere do Google é um dos principais concorrentes da OpenAI nesse espaço. Semelhante ao Sora, o Lumiere oferece ferramentas de texto para vídeo e também permite que os usuários criem vídeos a partir de uma imagem estática.
Atualmente, o Sora está disponível apenas para um grupo selecionado, que avalia o modelo em relação a possíveis danos e riscos. A OpenAI também está oferecendo acesso a alguns artistas visuais, designers e cineastas para obter feedback.