Meta presenta V-JEPA, un modelo predictivo que aprende mediante la visualización de vídeos
Inteligencia artificial
A diferencia de los modelos generativos, que intentan rellenar los píxeles desaparecidos, V-JEPA puede descartar la información impredecible y hacer predicciones más eficientes
Así funciona Sora, la nueva herramienta de OpenAI para crear vídeos con inteligencia artificial
This browser does not support the video element.
Meta ha presentado un nuevo modelo no generativo desarrollado para enseñar a las máquinas a comprender y modelar el mundo físico mediante la visualización de vídeos.
Video Joint Embedding Predictive Architecture (V-JEPA) aprende a realizar tareas prediciendo partes perdidas o enmascaradas de un vídeo en un espacio de representación abstracto.
A diferencia de los modelos generativos, que intentan rellenar los píxeles desaparecidos, V-JEPA puede descartar la información impredecible y hacer predicciones más eficientes, explican desde la compañía.
This browser does not support the video element.
En un futuro, los investigadores pretenden adoptar un enfoque multimodal, no limitado al vídeo, empezando por la incorporación de audio.
Temas relacionados
No hay comentarios