Meta presenta V-JEPA, un modelo predictivo que aprende mediante la visualización de vídeos

This browser does not support the video element.

Meta presenta V-JEPA, un modelo predictivo que aprende mediante la visualización de vídeos / Europa Press

Meta ha presentado un nuevo modelo no generativo desarrollado para enseñar a las máquinas a comprender y modelar el mundo físico mediante la visualización de vídeos.

Video Joint Embedding Predictive Architecture (V-JEPA) aprende a realizar tareas prediciendo partes perdidas o enmascaradas de un vídeo en un espacio de representación abstracto.

A diferencia de los modelos generativos, que intentan rellenar los píxeles desaparecidos, V-JEPA puede descartar la información impredecible y hacer predicciones más eficientes, explican desde la compañía.

This browser does not support the video element.

V-JEPA, de Meta / Meta

En un futuro, los investigadores pretenden adoptar un enfoque multimodal, no limitado al vídeo, empezando por la incorporación de audio.