2026-05-12. Nomoyu Daily pour les développeurs indies (édition 360)

📰 Actualités

Tout le monde se bat sur les modèles, mais le vrai manque est la puissance d’inférence

Beaucoup pensent que la guerre de l’IA se joue encore sur les classements de modèles.

Mais le signal envoyé par Tuhin Srivastava, CEO de Baseten, est plus frappant : une croissance multipliée par 30 l’an dernier, l’animateur mentionnant des attentes de chiffre d’affaires supérieures à 1 milliard de dollars cette année ; plus de 95 % des tokens viennent de modèles personnalisés.

Cela révèle une réalité plus dure : quand l’IA entre vraiment dans le business, ce qui manque le plus n’est pas seulement un bon modèle, mais la capacité à faire tourner l’intelligence de manière stable, bon marché et continue.

Le modèle n’est pas la fin, l’appel est le business

Le vrai business de l’IA n’a pas lieu sur les scènes de lancement, mais après chaque clic utilisateur.

L’inférence est le processus par lequel un modèle est appelé, génère une réponse et accomplit une action. Pendant longtemps, tout le monde regardait l’entraînement : qui a le plus de paramètres, qui est le plus haut dans les classements. Mais le jugement de Tuhin ressemble à une douche froide : si l’AGI arrive vraiment, le marché restant sera encore l’inférence.

Parce qu’une intelligence utilisable ne reste pas au laboratoire.

Elle entre dans les tickets de support client, les dossiers médicaux, les éditeurs de code, les workflows commerciaux et les produits éducatifs. Derrière chaque « meilleure réponse », il y a encore et encore de l’inférence.

La croissance annuelle x30 de Baseten n’est pas seulement une histoire d’entreprise.

Elle montre que l’IA passe de « qui construit le modèle » à « qui fait tourner le modèle dans le business ».

Le vrai fossé défensif, ce sont les signaux utilisateurs que les autres n’ont pas

Ce qui mérite le plus d’attention dans cette interview n’est pas la puissance de calcul, mais pourquoi la couche applicative peut encore survivre.

Tuhin donne l’exemple d’Abridge : un assistant de documentation ambiante pour médecins, profondément intégré aux hôpitaux et aux workflows cliniques. La façon dont les médecins modifient les notes, puis ce qu’ils font ensuite dans le dossier médical électronique, sont des signaux que les laboratoires de modèles ne peuvent pas obtenir facilement.

Voilà le nouveau fossé des entreprises applicatives : non pas « j’ai aussi branché une API de grand modèle », mais « je possède une chaîne de comportements utilisateurs que moi seul peux voir ».

Le support client est pareil.

Un ticket ne se termine généralement pas par une seule réponse. Il peut traverser 1, 2, 10, voire 20 actions. Celui qui voit ces actions peut utiliser le feedback pour post-entraîner le modèle, le rendre plus rapide, moins cher et plus précis sur une tâche donnée.

Les premières entreprises IA dangereuses ne sont donc pas celles dont le modèle est faible, mais celles qui n’ont ni signaux utilisateurs, ni profondeur de workflow, ni boucle de feedback.

Sans boucle, une application IA n’est qu’une belle coquille.

Tuhin donne aussi un conseil plus dur : avant le product-market fit, ne vous précipitez pas vers le post-entraînement. Utilisez d’abord le meilleur modèle pour prouver la valeur, puis parlez optimisation.

Sinon, ce que vous entraînez n’est pas un fossé défensif, mais une illusion.

Le manque de calcul d’inférence devient un nouveau ticket d’entrée

La couche plus dure est la puissance de calcul.

Tuhin dit que le marché ne comprend pas encore assez la tension de l’offre. Baseten fait tourner de grands clusters, souvent avec des taux d’utilisation au milieu des 90 %. Ils sont déployés sur 90 clusters dans 18 clouds et peuvent intégrer en une demi-journée un nouveau fournisseur d’un nouveau pays à leur réseau d’inférence.

Cela semble fort, mais ils tiennent encore des réunions de capacité chaque jour.

Le vrai blocage n’est pas seulement d’avoir des GPU, mais de savoir qui peut faire tourner des datacenters de manière stable et qui comprend les SLA de services d’inférence.

Cela change les règles de la compétition.

Le simple GPU as a Service se transforme facilement en commodité. Mais les services d’inférence avec couche logicielle sont très adhérents. L’interview mentionne que les 30 plus gros clients de Baseten ne sont pas partis, avec une rétention nette annuelle d’environ 400 %.

Ce qui est vendu derrière n’est pas une carte, mais un système complet : déploiement de modèles, latence, bascule en cas de panne, optimisation personnalisée, conservation des données et exigences d’entreprise.

L’achat est encore plus extrême.

Pour obtenir 1 024 B200 auprès d’un bon fournisseur cloud, il faut parfois signer un contrat de 3 à 5 ans et prépayer 20 à 30 % de la valeur totale.

Cela signifie que l’infrastructure IA n’est pas seulement une bataille technique, mais aussi une bataille de structure capitalistique, de chaîne d’approvisionnement, de culture opérationnelle et de courage.

La puissance de calcul n’est pas un décor. Elle devient elle-même un actif stratégique.

Plus l’IA devient bon marché, plus les humains l’utiliseront

Beaucoup pensent à tort que si les modèles deviennent moins chers, le coût de l’IA baissera.

L’observation de Tuhin est inverse. Plus l’inférence coûte peu, plus les développeurs ajouteront d’intelligence dans les produits. Les agents tourneront plus longtemps, testeront plus de chemins, prendront plus de décisions intermédiaires pour donner un meilleur résultat à l’utilisateur.

C’est le paradoxe de Jevons version IA : plus l’intelligence est bon marché, plus la consommation augmente.

Les utilisateurs ne diront pas « cette réponse est assez peu chère ». Ils diront « je veux une meilleure réponse ».

Les entreprises non plus n’utiliseront pas moins l’IA parce qu’elle devient moins chère. Elles l’intégreront dans davantage de processus.

De meilleures réponses créent de meilleures expériences ; de meilleures expériences créent plus de revenus ; plus de revenus rachètent encore plus d’inférence.

Voilà pourquoi le marché de l’inférence est redoutable.

Ce n’est pas un achat ponctuel, mais une courbe de demande qui s’amplifie elle-même.

Les vrais éliminés seront ceux qui restent au stade de la démo

Cette interview rappelle durement aux praticiens et fondateurs IA : ne soyez pas obsédés par « quel modèle j’ai branché ».

Les modèles changeront, les classements changeront, les puces changeront, les prix changeront aussi.

Ce qui est vraiment rare tient en trois choses : avez-vous des signaux utilisateurs uniques ; avez-vous une boucle qui renvoie ces signaux vers le modèle ; savez-vous faire tourner l’inférence de manière stable dans un vrai business.

L’IA ne récompensera pas seulement ceux qui savent écrire des prompts.

Elle récompensera ceux qui savent concevoir des workflows, capter du feedback, réduire les coûts et améliorer la fiabilité.

Les entreprises de demain ne remplaceront pas simplement le logiciel par une interface IA. Elles intégreront l’intelligence dans chaque action. Les médecins auront des agents à côté d’eux, les étudiants aussi, tout comme les commerciaux, le support et les programmeurs.

Dans l’interview, cela est résumé ainsi : chaque personne aura un service de conciergerie.

Mais pour les anciennes entreprises logicielles, cela peut aussi devenir un moment d’extinction.

Non pas parce que l’IA les tue soudain, mais parce que le concurrent aura intégré l’intelligence dans le workflow avant elles et utilisera chaque jour les signaux utilisateurs pour entraîner sa prochaine version.

À l’ère de l’IA, ce qui vaut le plus n’est pas « j’ai un modèle ».

C’est : j’ai des scènes que les autres n’ont pas, des feedbacks que les autres ne voient pas, et une capacité d’inférence que les autres ne savent pas faire tourner.

🖥️ Logiciels

Pasly

Pasly est un gestionnaire de presse-papiers macOS avec synchronisation multi-appareils, permettant de sauvegarder et retrouver rapidement les contenus copiés.

DevGlish

DevGlish est un outil de barre de menu macOS aidant les développeurs non natifs à rechercher des expressions techniques anglaises, leur prononciation et des rappels d’interférence chinoise pour améliorer la communication en équipe.

TranscriptAPI

TranscriptAPI est une API fiable pour récupérer les transcriptions de vidéos YouTube, avec accès rapide aux sous-titres complets horodatés et un temps de réponse de seulement 49 ms.

SellerGuards

SellerGuards est un outil pour vendeurs Amazon proposant calcul précis des profits, analyse concurrentielle et gestion des stocks sur la base de l’Amazon Selling Partner API.

Textideo

Textideo est un nouvel outil de génération vidéo, offrant des crédits gratuits à l’inscription pour tester et recueillir des retours utilisateurs.

Fluent

Fluent est un outil de suivi en temps réel des mots de remplissage pendant la parole, avec signalement rouge et analyse par coach IA pour aider à réduire leur fréquence.

QA Studio

QA Studio est un outil open source de test end-to-end qui génère automatiquement des cas de test à partir d’enregistrements d’actions, avec construction visuelle et tests multi-navigateurs.

homeassistion

homeassistion est un logiciel local écrit en Rust qui relie les appareils Mijia à HomeKit via MQTT et la passerelle centrale Mijia, avec accès cloud et un mois de fonctionnement stable.

🎮 Jeux

Hollywood Link

Hollywood Link est un jeu indépendant mêlant style rétro et gameplay guidé par la bande-son, où les joueurs font avancer l’histoire au rythme de la musique.

Neon Dealer: Risk & Profit

Neon Dealer: Risk & Profit est un jeu de deckbuilding cyberpunk dont le mécanisme central est « faire encore une transaction ou non », créant de la tension par l’équilibre entre risque et profit.

Monk’s Gambit

Monk’s Gambit est une variante d’échecs développée avec l’IA en 8 heures, avec des règles innovantes comme des moines convertissant des pions ennemis et des pions devenant obstacles.

🌐 Sites web

Killed by Google

Killed by Google est un site de visualisation de données analysant 299 produits abandonnés par Google et révélant les motifs de retrait.

摩斯电码在线转换工具

摩斯电码在线转换工具 est un convertisseur en ligne de code Morse, avec conversion texte-vers-Morse et effets audio/lumineux.

AuraMarket

AuraMarket est un marché d’actions virtuelles fondé sur l’attention culturelle, où les utilisateurs échangent des parts d’influence de personnalités publiques et reflètent en temps réel leur niveau d’attention sociale.

LaunchEU

LaunchEU est une plateforme de découverte consacrée aux logiciels européens, avec soumission de produits par les développeurs européens, votes communautaires, badge de certification UE et mise en avant d’outils locaux respectueux de la vie privée et conformes au RGPD.

✍️ Notes

Informations du projet quotidien :
Site web : https://www.nomoyu.com/
RSS : https://www.nomoyu.com/rss/rss.xml
Compte officiel WeChat : 明航的AI副业
N’hésitez pas à échanger

Tous les liens sont disponibles sur le site.