OpenAI lanza "Sora", una IA para generar videos realistas

OpenAI presenta Sora, un modelo de IA que convierte texto en videos realistas, avanzando en la resolución de problemas del mundo real

Por iProUP

OpenAI presenta un modelo de inteligencia artificial para crear videos realistas: cómo funciona

Innovación

18.02.2024 • 11:25hs • Innovación

OpenAI ha revelado su última creación, Sora, un innovador modelo basado en inteligencia artificial generativa capaz de transformar instrucciones de texto en vídeos realistas de hasta 60 segundos.

Esta nueva tecnología de la compañía busca avanzar en la capacidad de la inteligencia artificial para resolver problemas del mundo real, incluyendo la simulación de entornos físicos en movimiento.

Sora representa un gran avance en esta dirección, permitiendo a los usuarios generar vídeos detallados con movimientos de cámara complejos y múltiples personajes expresando emociones.

Sora de OpenAI: innovación en la generación de vídeo

OpenAI ha presentado su última creación, Sora, a través de una publicación en X (ex Twitter), destacando su capacidad para generar vídeos altamente detallados y realistas.

Este nuevo modelo de inteligencia artificial permite a los usuarios crear escenas específicas detalladas mediante simples indicaciones de texto, abriendo un nuevo mundo de posibilidades en la producción de contenido visual.

Por ejemplo, puede interpretar instrucciones como "primer plano del parpadeo del ojo de una mujer de 24 años, de pie en Marrakech durante el atardecer", dando lugar a resultados extremamente realistas.

Sora permite a los usuarios generar vídeos detallados con movimientos de cámara complejos y múltiples personajes expresando emociones

Además, Sora no solo comprende las indicaciones de texto, sino que también tiene un profundo entendimiento del mundo físico, lo que le permite recrear escenas con precisión y realismo.

Esto se refleja en su capacidad para generar personajes con emociones vibrantes y animar imágenes estáticas con detalle y precisión, así como extender la duración de vídeos existentes o completar fotogramas.

Sora transforma el ruido en video

Sora opera transformando progresivamente vídeos que inicialmente parecen ser ruido estático en imágenes realistas, mediante múltiples etapas de eliminación de ruido.

Utilizando una arquitectura de transformador similar a los modelos GPT, Sora representa las imágenes del vídeo como colecciones de unidades de datos más pequeñas, denominadas parches, para lograr un rendimiento de escalado superior.

Actualmente, su uso está limitado al equipo de investigación interno de OpenAI, quienes lo están probando para identificar posibles fallos y riesgos.

Además, se encuentra en fase de prueba por parte de un grupo de artistas visuales, diseñadores y cineastas para mejorar su utilidad en el ámbito creativo.

Sora tiene un profundo entendimiento del mundo físico, lo que le permite recrear escenas con precisión y realismo

Aunque el modelo ha demostrado habilidades prometedoras, aún enfrenta desafíos para representar adecuadamente conceptos relacionados con el espacio, la física y las acciones de causa y efecto, lo que puede llevar a errores como la falta de consistencia en la representación de objetos o la confusión en la orientación espacial.

OpenAI refuerza la seguridad de Sora

OpenAI está implementando diversas medidas de seguridad en su nuevo modelo Sora para prevenir la difusión de contenido engañoso o perjudicial.

Trabajando en colaboración con el equipo rojo, que cuenta con expertos en áreas como esinformación y contenido nocivo, la compañía está desarrollando herramientas para detectar y clasificar automáticamente los vídeos generados por Sora.

Una de estas herramientas incluye la implementación de metadatos de C2PA, un estándar que verifica el origen y la autenticidad del contenido.

Además, OpenAI está aplicando métodos de seguridad similares a los utilizados en otros productos de la compañía, como DALL·E 3, para verificar y rechazar solicitudes de ingreso de texto que infrinjan las políticas de uso, como contenido violento, sexual o de odio.

Te puede interesar

Disney apuesta por el Metaverso: Invierte u$s1.400 millones en Epic Games

Asimismo, disponen de clasificadores de imágenes que analizan los fotogramas de cada vídeo para garantizar el cumplimiento de las políticas de la compañía antes de mostrarlos al usuario.