OpenAI lanza SORA, su modelo de texto a video que revoluciona la capacidad de la inteligencia artificial en este campo

Sora es capaz de generar vídeos enteros de una sola vez a partir de texto o de ampliar los vídeos generados para hacerlos más largos. Apunta a una revolución en este tipo de herramientas ya que su capacidad y calidad es increíble.

Santiago Comillas Guzmán: 16-02-2024 11:42

Captura de fotograma de video generado por Sora. OpenAI

TECNOLOGIA

La compañía de Inteligencia artificial OPENAI conocida por sistemas como DallE y ChatGPT da una vuelta de tuerca a sus modelos y herramientas generativas de inteligencia artificial.

En este caso acaba de anunciar SORA, su modelo de texto a video, y ofrece unos resultados sorprendentes.

Según la página oficial OPENAI indica que "Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real."

Sora puede generar vídeos de hasta un minuto de duración manteniendo la calidad visual y la adherencia a la indicación del usuario.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el prompt, sino también cómo existen esas cosas en el mundo físico.

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear varias tomas dentro de un mismo vídeo generado que persistan con precisión los personajes y el estilo visual.

El modelo presentado hoy también tiene puntos débiles. Puede que le cueste simular con precisión la física de una escena compleja y que no entienda casos concretos de causa y efecto. Por ejemplo, una persona puede dar un mordisco a una galleta, pero después la galleta puede no tener la marca del mordisco.

También puede confundir detalles espaciales de una indicación, por ejemplo, confundir izquierda y derecha, y puede tener problemas con descripciones precisas de acontecimientos que tienen lugar a lo largo del tiempo, como seguir una trayectoria específica de la cámara.

Según los videos que se muestran en la página web del modelo, los resultados son prometedores, porque son mucho más realistas que otros modelos similares, además se generan a través de un sencillo prompt de texto, similar a los utilizados con DallE por lo que, a priori, no requiere más conocimiento que el típico de "ingeniería de prompts" común de estas herramientas.

Dentro de las características de seguridad y prevención del fraude OPENAI asegura que están construyendo herramientas para ayudar a detectar contenidos engañosos, como un clasificador de detección que puede decir cuándo un vídeo ha sido generado por Sora. Asimismo indica que está trabajando en incluir metadatos C2PA en el futuro si despliegan el modelo en un producto de OpenAI.

¿Qué es un modelo generativo de texto a video en Inteligencia Artificial?

Un modelo generativo de texto a video en Inteligencia Artificial (IA) es una tecnología avanzada que tiene la capacidad de generar videos realistas o animados a partir de descripciones de texto. Estos modelos utilizan algoritmos de aprendizaje profundo para entender el texto introducido y traducirlo en secuencias visuales que correspondan a la descripción dada. La idea es transformar narrativas escritas en representaciones visuales, creando contenidos que van desde escenas simples hasta narrativas complejas en forma de video.

Cómo Funcionan

Estos modelos generalmente se basan en redes neuronales profundas, incluyendo arquitecturas como las Redes Generativas Antagónicas (GANs, por sus siglas en inglés) y las Redes Neuronales Convolucionales (CNNs), entre otras. El proceso puede dividirse en varias etapas:

Comprensión del Texto: Primero, el modelo necesita comprender el texto introducido. Esto implica analizar el lenguaje natural para captar el significado, el contexto y las intenciones detrás del texto. Se utilizan modelos de procesamiento de lenguaje natural (NLP) para esta tarea.

Planificación Visual: Luego, el modelo debe planificar cómo representar visualmente el texto. Esto puede incluir decidir sobre los personajes, objetos, entornos, movimientos, y cómo estos elementos interactúan entre sí a lo largo del tiempo.

Generación de Imágenes: En esta etapa, el modelo genera las imágenes que compondrán el video. Esto puede hacerse generando primero imágenes estáticas y luego ensamblándolas en una secuencia, o generando directamente secuencias de imágenes (frames) que se unirán para formar el video.

Refinamiento y Renderizado: Finalmente, el modelo puede refinar las imágenes generadas para mejorar la calidad y el realismo, y luego renderizar el video final. Esto puede incluir ajustes en la resolución, la fluidez de los movimientos, la coherencia entre frames, y la integración de efectos de sonido o diálogos.

También te puede interesar:

EN:

Perplexity: la Inteligencia Artificial que responde tus dudas gratuitamente y sin necesidad de registro