2026-04-15. Nomoyu Daily pour les développeurs indies (édition 333)

📰 Actualités

Après l’arrêt de Sora, les modèles du monde peuvent-ils continuer ?

Quand Sora est arrivé, tout le monde tech criait que “le modèle du monde était là”.

OpenAI a publié quelques vidéos de plusieurs dizaines de secondes, avec des pixels si réalistes qu’ils semblaient presque faux. Tout le monde pensait qu’il ne manquait que quelques ordres de grandeur de calcul pour simuler le monde entier.

Mais Chris Manning, figure majeure du NLP, et Moon Lake, l’entreprise qu’il a fondée, ont donné une gifle retentissante à cette époque enfiévrée.

Les modèles de génération vidéo ne sont pas du tout des modèles du monde.

Ce n’est pas une querelle académique. C’est une bataille de trajectoire pour la prochaine décennie de l’IA.

De beaux pixels, un cerveau vide

Sora peut générer une vidéo parfaite d’une boule de bowling qui renverse des quilles, mais il ne sait pas pourquoi les quilles tombent.

Il ne connaît ni la masse de la boule, ni l’accélération de la gravité, ni les lois physiques de la collision, ni ce qui se passerait si je lançais la boule depuis un autre angle. Il a seulement mémorisé la distribution de pixels d’innombrables vidéos de bowling sur Internet, puis assemblé statistiquement une séquence qui semble plausible.

C’est comme un élève qui aurait appris par cœur toutes les réponses d’un recueil d’exercices sans jamais comprendre les formules. Si l’examen reprend la même question, il obtient la note maximale. Mais dès que l’énoncé change un peu, il est perdu.

C’est pourquoi tous les “modèles du monde” purement pixel ne peuvent maintenir la cohérence que pendant quelques dizaines de secondes. Au-delà, les objets disparaissent soudainement, se traversent ou se transforment en formes étranges. Ils n’ont aucun concept abstrait de “ce qu’est le monde”. Ils prédisent seulement, image par image, la couleur du pixel suivant.

Un vrai modèle du monde ne prédit pas les pixels. Il prédit les conséquences.

Quand vous prenez une tasse, vous savez que si vous la lâchez, elle tombera au sol et se brisera. Quand vous ouvrez une porte, vous savez ce qu’il peut y avoir derrière. Quand vous marchez dans la rue, vous savez éviter une voiture qui arrive. Vous n’avez pas appris cela à partir d’innombrables vidéos, mais par votre compréhension des règles de fonctionnement du monde.

C’est le cœur d’un modèle du monde : raisonnement causal, conditionnement par l’action et cohérence de long terme. Or ce sont précisément les problèmes que la voie purement pixel ne pourra jamais résoudre.

La structure n’est pas l’échelle

Moon Lake avance ce qui pourrait être l’argument le plus important de la prochaine décennie de l’IA : la structure n’est pas l’échelle.

Depuis cinq ans, toute l’industrie de l’IA est hypnotisée par la “bitter lesson”. Il suffirait d’empiler données et calcul pour résoudre n’importe quel problème. Cela a marché pour le langage et l’image, alors tout le monde suppose naturellement que les modèles du monde suivront la même voie.

Mais Chris Manning souligne un fait que presque tout le monde ignore : le langage est déjà un système symbolique hautement abstrait. Chaque mot représente un concept. Les grands modèles de langage se tiennent en réalité sur les épaules de plusieurs millénaires de pensée abstraite humaine.

Les pixels sont les données brutes les plus basses. Passer directement des pixels à une compréhension abstraite du monde ne demande pas seulement quelques ordres de grandeur de calcul en plus. Il en faut cinq. C’est économiquement impossible et temporellement inacceptable.

Les humains ne comprennent pas non plus le monde ainsi.

Les neurosciences nous disent que nos yeux reçoivent chaque seconde des milliards de bits d’information visuelle, mais notre cerveau n’en traite qu’une infime partie. Nous ne scannons pas le monde pixel par pixel. Nous construisons un modèle sémantique abstrait du monde. Nous savons qu’une table est dure, que l’eau est humide et que le feu brûle. Ces abstractions nous permettent de survivre dans un monde complexe.

C’est précisément la voie choisie par Moon Lake. Ils n’essaient pas de tout générer directement depuis les pixels. Ils construisent d’abord un modèle symbolique de l’état du monde, qui traite logique, physique, causalité et cohérence, puis utilisent un modèle de rendu indépendant pour le transformer en beaux pixels.

C’est une architecture brillante. Elle sépare complètement “ce qu’est le monde” de “à quoi le monde ressemble”. Le premier détermine le gameplay, le comportement des robots et le raisonnement des agents. Le second ne gère que les effets visuels.

Vous pouvez changer de moteur de rendu à tout moment et transformer le même monde de jeu en style cyberpunk, Studio Ghibli ou réaliste, sans jamais changer la logique de fond.

La bataille des trajectoires a commencé

L’industrie de l’IA suit désormais deux voies totalement différentes pour les modèles du monde.

La première est la voie purement pixel d’OpenAI et de la plupart des entreprises : utiliser des données et du calcul quasiment infinis pour forcer la simulation du monde.

La seconde est la voie structure-first de Moon Lake : utiliser les connaissances et outils que l’humanité possède déjà pour construire des modèles abstraits efficaces du monde.

Beaucoup disent que la seconde est anti-“bitter lesson”, un retour en arrière historique. Mais Chris Manning est très clair : nous ne sommes pas contre l’échelle, nous sommes contre l’échelle stupide.

Si deux méthodes atteignent le même objectif, l’une avec 10 000 A100 et l’autre avec seulement 100, la seconde est évidemment le meilleur choix. D’autant plus que la voie purement pixel pourrait ne jamais atteindre cet objectif.

Bien sûr, il est encore trop tôt pour dire qui gagnera. Mais une chose est certaine : les entreprises qui ne savent générer que de belles vidéos ne construiront jamais de vrais modèles du monde.

Car le but ultime d’un modèle du monde n’est pas de vous faire regarder une jolie vidéo, mais de vous permettre d’agir, d’explorer, de créer et d’apprendre dans ce monde.

🖥️ Logiciels

Tamagrow

Tamagrow est un outil pour développeurs qui transforme automatiquement les push GitHub en brouillons pour les réseaux sociaux, avec prise en charge de LinkedIn, X et d’autres plateformes.

Nebria

Nebria est une application de ciel étoilé destinée aux personnes aveugles ou malvoyantes, transmettant noms d’étoiles et informations de distance lumineuse par morse tactile, avec mode photo de nuit.

sharpscreen

sharpscreen est un outil de tri de CV propulsé par IA qui comprend le contexte, évalue la profondeur d’expérience et l’adéquation au poste, revendique 99,6% de précision et offre 1 000 évaluations gratuites.

MapiLeads

MapiLeads est un outil de prospection locale et d’automatisation commerciale qui collecte automatiquement des informations d’entreprises et génère des emails de prospection personnalisés.

PostPeer

PostPeer est un outil API d’automatisation de contenu pour la publication sur les réseaux sociaux, créé par un développeur indie, avec workflows de contenu et publication automatisée.

🎮 Jeux

Gladiator Command

Gladiator Command est un jeu indépendant de stratégie désormais disponible.

Commitment

Commitment est le premier jeu publié sur Steam par un studio indépendant de deux personnes, centré sur la narration et le gameplay coopératif, désormais disponible.

✍️ Notes

Informations sur le projet Daily :
Site web : https://www.nomoyu.com/
RSS : https://www.nomoyu.com/rss/rss.xml
Compte officiel WeChat : 明航的AI副业
N’hésitez pas à échanger et discuter

Tous les liens sont disponibles sur le site.