Que es Sora de OpenAi

La semana pasada OpenAi anuncio la salida de Sora, un modelo de Inteligencia Artificial que crea vídeos de un minuto a partir de instrucciones de texto.

Nada mejor que un ejemplo para entenderlo:

Prompt: Una camada de cachorros de golden retriever jugando en la nieve. Sus cabezas sobresalen de la cubiertas de nieve.

Como podéis ver la calidad de las imágenes es increíble y resulta casi imposible distinguir si las imágenes son “reales” o creadas por inteligencia artificial.

OpenAI ha enseñado a su modelo de inteligencia artificial para que a partir de un texto pueda generar imágenes en movimiento que representen ese peitción. Por el momento Sora no esta disponible para su uso público, está en modo de prueba y solo el “equipo rojo” de OpenAI tiene acceso. ¿Quién compone el “equipo rojo” de OpenAI? Este equipo, externo a OpenAI, está compuesto por instituciones, sociedades civiles, organizaciones y expertos de diversos campos como ingenieros, psicólogos, físicos, biólogos, sociólogos, abogados, etc. que están integrados en el ciclo de desarrollo del proyecto y prueban la solución para corregir posibles errores o sesgos que esta pudiera tener. Una de las principales misiones de este equipo es evitar el uso dañino de la tecnología y la salvaguarda de los derechos básicos de las personas.

OpenAi también a dado acceso a la herramienta a algunos artistas, cineastas y profesionales creativos para tener sus impresiones y poder participar activamente en la mejora de la solución.

Sora es capaz de generar escenas complejas con multitud de personajes que pueden interactuar entre sí y como estos personajes evolucionan en el mundo físico. También es capaz de crear diferentes tomas a partir de un video generado.

De la misma manera que las imágenes generadas por algunos sistemas de inteligencia artificial, Sora, también comete errores e incoherencias entre las interacciones de los objetos y los personajes en el vídeo pudiendo confundir indicaciones de posición en la trayectoria de la cámara o físicas al recomponer automáticamente una galleta que acaba de ser mordida.

Prompt: Una cámara de drone circula alrededor de una hermosa iglesia histórica construida sobre un saliente rocoso a lo largo de la Costa Amalfitana. La vista muestra detalles arquitectónicos históricos y magníficos, así como senderos y patios escalonados. Las olas se ven rompiendo contra las rocas debajo mientras la vista se extiende hacia el horizonte de las aguas costeras y los paisajes montañosos de la Costa Amalfitana en Italia. Se pueden observar varias personas distantes caminando y disfrutando de las vistas en los patios con dramáticas vistas al océano. El cálido resplandor del sol de la tarde crea una sensación mágica y romántica en la escena. La vista es impresionante, capturada con hermosa fotografía.

La seguridad de Sora

Antes de dar acceso al público en general, OpenAI trabajara con su “equipo rojo” y otras organizaciones para limitar el “mal uso” de Sora en la generación de contenido de odio, desinformación o sesgado. Igualmente OpenAI está desarrollando herramientas para la identificación de vídeos generados por inteligencia artificial y la integración de metadata (C2PA) en todos sus vídeos. Se integrarán medidas de control adicionales a las que ya se incluyeron en el modelo de generación de imágenes DALL.E para garantizar una mayor seguridad. Los analizadores de texto de todos los modelos de OpenAI filtraran cualquier demanda que concierna violencia extrema, contenido sexual, de odio o que implique situaciones extrañas de personajes famosos. De la misma forma verificaran que los vídeos generados están en acuerdo con las condiciones de uso de la herramienta.

OpenAI trabajará con reguladores, educadores y artistas para identificar sus preocupaciones y tratar de evitar el mayor número de problemas de uso y aplicación de este modelo. A pesar de una extensa investigación y pruebas, OpenAI es incapaz de prever todas las formas beneficiosas en que las personas usarán esta tecnología, ni todas las formas en que la utilizarán de manera abusiva. Por esta razón es importante aprender del uso en el mundo real para crear y lanzar sistemas de IA cada vez más seguros con el tiempo.

Desarrollo técnico de Sora

Sora es un modelo de difusión y es capaz de generar vídeos de una sola vez como en los ejemplos que hemos visto o modificar vídeos ya generados haciéndolos más largos. Sora no solo focaliza en el objeto o personaje que está en la imagen, también “guarda en memoria” la escena completa por si un personaje sale de cámara y vuelve a aparecer en las imágenes o escenas siguientes. Igual que cualquier modelo de GPT , Sora utiliza una arquitectura de transformador, desbloqueando un rendimiento de escalabilidad superior.

Sora descompone las imágenes en unidades de datos más pequeños que llama “parches” similares a un token de GPT. Al unir como se representan los datos, se pueden entrenar transformadores de difusión en una gama más amplia de datos visuales que anteriormente no era posible. Sora se apoya en las investigaciones y desarrollos realizados en los modelos de DALL.E y GPT, generando textos descriptivos para los datos de entrenamiento visual, así el modelo puede seguir las instrucciones de texto que acompañan a las imágenes y hacer así una interpretación más fiel de la petición del usuario.

Sora no solo puede generar vídeo a partir de un texto, también lo puede hacer tomando una imagen fija existente y animarla conservando todos los detalles.

Os dejo un último ejemplo

Hermosa, nevada ciudad de Tokio está llena de actividad. La cámara se mueve a través de la concurrida calle de la ciudad, siguiendo a varias personas que disfrutan del hermoso clima nevado y compran en los puestos cercanos. Hermosos pétalos de sakura vuelan por el viento junto con copos de nieve.

One thought on “Que es Sora de OpenAi”