
Sign up to save your podcasts
Or


Publiée le 20 mai 2025, la nouvelle version améliore la 3D-attention :
Au lieu de traiter chaque image indépendamment, le réseau apprend des liens spatio-temporels profonds, alignant textures et géométries image après image.
Résultat :
Un mesh 4D (forme + mouvement) plus net, sans « shimmer » ni artefacts de ré-texturage, même sur des vidéos courtes filmées au smartphone.
L’époque où il fallait capturer un sujet sous dix angles est révolue. L’algorithme ingère une vidéo objet-centrée de quelques secondes et reconstruit :
Au final, on obtient un modèle animé, prêt à être exporté vers Unreal, Blender ou WebGL, idéal pour la réalité mixte, le jeu vidéo ou la pub immersive.
Sur LPIPS (finesse visuelle) comme sur les métriques vidéo FVD-V/FVD-F et la nouvelle FV4D, SV4D 2.0 occupe la première place devant DreamGaussian4D.
Les tests internes montrent jusqu’à -25 % de distance perceptuelle et un ** -18 %** de fuite de mouvement entre frames.
Concrètement, les surfaces respirent moins, les ombres collent mieux à la géométrie et le motion blur reste naturel.
Stability AI publie le code et les poids sur GitHub et Hugging Face sous sa licence Community — usage commercial libre tant que le modèle de base est crédité. Cette ouverture accélère :
Stable Video 4D 2.0 complète la panoplie :
Cette cohérence donne aux studios une chaîne de production entièrement open-source, de la capture à l’édition.
En parallèle, Stability annonce un partenariat Arm pour optimiser Stable Audio Open Small sur GPU mobiles :
Mixage procédural de musique et paysages sonores qui pourront se synchroniser avec les vidéos 4D.
L’ambition est claire : fournir un kit complet, décentralisé et léger pour créer des expériences XR sur casque autonome ou smartphone.
Stable Video 4D 2.0 pousse la génération 3D/4D dans le domaine du « one-shot » :
Capturer, reconstruire, animer – tout depuis une unique vidéo.
Entre benchmarks dominés, licence ouverte et ambitions mobiles, Stability AI confirme son passage du texte vers un écosystème multimodal complet.
Pour les créateurs XR, les équipes VFX ou les game designers, la porte d’entrée vers la volumétrie accessible vient de s’ouvrir en grand.
By ApclPubliée le 20 mai 2025, la nouvelle version améliore la 3D-attention :
Au lieu de traiter chaque image indépendamment, le réseau apprend des liens spatio-temporels profonds, alignant textures et géométries image après image.
Résultat :
Un mesh 4D (forme + mouvement) plus net, sans « shimmer » ni artefacts de ré-texturage, même sur des vidéos courtes filmées au smartphone.
L’époque où il fallait capturer un sujet sous dix angles est révolue. L’algorithme ingère une vidéo objet-centrée de quelques secondes et reconstruit :
Au final, on obtient un modèle animé, prêt à être exporté vers Unreal, Blender ou WebGL, idéal pour la réalité mixte, le jeu vidéo ou la pub immersive.
Sur LPIPS (finesse visuelle) comme sur les métriques vidéo FVD-V/FVD-F et la nouvelle FV4D, SV4D 2.0 occupe la première place devant DreamGaussian4D.
Les tests internes montrent jusqu’à -25 % de distance perceptuelle et un ** -18 %** de fuite de mouvement entre frames.
Concrètement, les surfaces respirent moins, les ombres collent mieux à la géométrie et le motion blur reste naturel.
Stability AI publie le code et les poids sur GitHub et Hugging Face sous sa licence Community — usage commercial libre tant que le modèle de base est crédité. Cette ouverture accélère :
Stable Video 4D 2.0 complète la panoplie :
Cette cohérence donne aux studios une chaîne de production entièrement open-source, de la capture à l’édition.
En parallèle, Stability annonce un partenariat Arm pour optimiser Stable Audio Open Small sur GPU mobiles :
Mixage procédural de musique et paysages sonores qui pourront se synchroniser avec les vidéos 4D.
L’ambition est claire : fournir un kit complet, décentralisé et léger pour créer des expériences XR sur casque autonome ou smartphone.
Stable Video 4D 2.0 pousse la génération 3D/4D dans le domaine du « one-shot » :
Capturer, reconstruire, animer – tout depuis une unique vidéo.
Entre benchmarks dominés, licence ouverte et ambitions mobiles, Stability AI confirme son passage du texte vers un écosystème multimodal complet.
Pour les créateurs XR, les équipes VFX ou les game designers, la porte d’entrée vers la volumétrie accessible vient de s’ouvrir en grand.