La ya es multimodal. OpenAI, la empresa desarrolladora del popular ChatGPT, reveló el pasado jueves una nueva herramienta para genera videos a partir de descripciones de texto.

Se trata de Sora, palabra que en japonés significa cielo. Al poco tiempo de su presentación, la noticia viajó por internet y las redes sociales. ¿Qué hizo que esta IA halla llamado tanto la atención? El gran realismo de sus imágenes.

MIRA: Nuevo chip abre la puerta a computación con inteligencia artificial a la velocidad de la luz

La IA puede producir imágenes siguiendo las instrucciones del usuario tanto en tema como en estilo, así como ya nos tienen acostumbrados otras herramientas generativas de texto e imágenes. La duración de sus videos es de un minuto.

La compañía ha dicho en su que Sora puede crear un video desde cero a partir de las instrucciones de texto o tomando como referencia una imagen fija para después ampliarla con material nuevo.

“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real”, explica OpenAI al presentar la nueva herramienta de conversión de texto a video. “Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y la fidelidad a las indicaciones del usuario”, añade.


La IA multimodal

OpenAI presentó en 2022 su chatbot ChatGPT, aunque un año antes ya había lanzado Dall-E, su herramienta para generar imágenes a partir de texto. La fama de ChatGPT, que es una IA especializada en el dialogo, no tardó demasiado en llegar, en pocos meses ya había acumulado 100 millones de usuarios.

Si bien la inteligencia artificial es una tecnología con la cual se experimenta desde hace décadas, la popularidad de los productos de la compañía hizo que estás herramientas irrumpieran en el mundo tecnológico. Desde entonces otras empresas de talla mundial como Google, Meta o, incluso, Apple, trabajan en sus propios proyectos.

Aunque ya existen otros modelos para generar videos, aún se encuentran varios pasos atrás de sus homólogos en texto e imagen fija. Sora cambia un poco este escenario, ya que puede generar videos de cualquier resolución y relación de aspecto, incluso hasta 1080p.

MIRA: “Chat with RTX”, el chatbot de Nvidia que es gratis y no necesita Internet

Meses atrás,, coordinador del Grupo de Investigación en Inteligencia Artificial de la Pontificia Universidad Católica del Perú (PUCP), el especialista señaló que el camino que seguiría la inteligencia artificial sería volverse multimodal, es decir, combinar texto, imagen, video y sonido. Ya hemos llegado. ¿Cuál será el siguiente paso?

Disponibilidad de Sora

El consejero delegado de OpenAI, Sam Altman, anunció el lanzamiento de Sora en la red social X. Por el momento, Sora no es de acceso abierto, solo está disponible a algunos investigadores y creadores de video. Sin embargo, tanta ha sido la fascinación que se ha cocido en la red social de Elon Musk, que Altman ha presentado varios ejemplos más.

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes, explica la empresa.

Aquí un ejemplo del ‘prompt’ que ha utilizado OpenAI en uno de sus videos: “Una mujer elegante camina por una calle de Tokio llena de luces de neón brillantes y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva lentes de sol y lápiz labial rojo. Camina con confianza y despreocupación. La calle está húmeda y refleja, creando un efecto espejo de las luces de colores. Muchos peatones caminan por ahí”.

Aquí hay un ejemplo más: “Se ve un gato atigrado blanco y naranja corriendo felizmente por un denso jardín, como si persiguiera algo. Sus ojos están muy abiertos y felices mientras corre hacia adelante, escaneando las ramas, flores y hojas mientras camina. El camino es estrecho ya que se abre paso entre todas las plantas. La escena se captura desde un ángulo a nivel del suelo, siguiendo de cerca al gato, brindando una perspectiva baja e íntima. La imagen es cinematográfica con tonos cálidos y una textura granulada. La luz del día dispersa entre las hojas y las plantas de arriba crea un cálido contraste que acentúa el pelaje naranja del gato. La toma es clara y nítida, con poca profundidad de campo”.

El equipo con acceso a la herramienta estará encargado de poner a prueba sus capacidades y encontrar fallos, así como determinar su susceptibilidad a eludir los términos de servicio de OpenAI, que prohíben “la violencia extrema, el contenido sexual, las imágenes de odio, la imagen de celebridades o la propiedad intelectual de terceros.

Tecnología en la mira

OpenAI ha sido demandada en más de una ocasión por presunta infracción de derechos de autor en el entrenamiento de sus herramientas de inteligencia artificial generativa, que digieren cantidades gigantescas de material extraído de Internet e imitan las imágenes o el texto contenidos en esos conjuntos de datos.

La irrupción de herramientas como Sora, que tiene gran realismo, abren la posibilidad a la industria del entretenimiento y la producción audiovisual, pero también existe riesgos como la masificación de los ‘deepfakes’, video manipulados que se hacen pasar por reales. La industria tecnológica enfrenta grandes retos para los próximos años.