Cognitive debt: the threat no one sees coming

In 2025 we talked about technical debt. In 2026 the real risk is called cognitive debt — the accumulated cost of poorly managed agent interactions, context loss, and unpredictable behaviors.

Il y a douze mois, le sujet dominant dans les revues architecture était la dette technique. Comment rembourser les choix faits trop vite, les abstractions mal posées, les migrations jamais terminées. C'était un problème réel, mesurable, outillé. SonarQube avait une vue pour ça. Les managers avaient un mot pour ça. Les sprints avaient une colonne pour ça.

Ce problème n'a pas disparu. Mais il a été doublé par un autre, plus insidieux, que la plupart des équipes n'ont pas encore nommé.

La dette cognitive.

Spiros Xanthos, cofondateur de Resolve AI, l'a formulé en février 2026 dans un article qui a circulé sans bruit dans les cercles d'ingénierie. Le raisonnement est simple : en 2025, le goulot d'étranglement c'était la génération de code. Aujourd'hui ce n'est plus ça. Les agents génèrent. Les IDE agentiques commitent. Claude Code écrit des compilateurs en Rust. Le problème c'est ce qui se passe quand ce code arrive en production et que personne ne comprend vraiment pourquoi il se comporte comme ça.

La dette cognitive c'est le coût accumulé des interactions mal gérées avec les agents. La perte de contexte entre deux sessions. Le comportement imprévisible d'un agent qui a optimisé pour un objectif légèrement mal spécifié. La confiance accordée à une sortie sans comprendre le raisonnement intermédiaire. Multipliez ça par cent développeurs, cinquante agents, douze environnements, et vous avez une organisation qui ship vite et comprend de moins en moins ce qu'elle shippe.

Ce n'est pas de la science-fiction. C'est ce que décrivent les équipes en production dès qu'elles passent au-delà du stade du prototype agentique.

Ce qui aggrave tout : les modèles qui arrivent

Et pendant qu'on essaie de gérer cette dette cognitive naissante, les trois grands providers sortent des modèles dont les capacités dépassent ce que leurs propres équipes de sécurité avaient anticipé.

Commençons par Anthropic.

Le 27 mars 2026, Fortune révèle qu'Anthropic a involontairement exposé près de 3 000 documents internes via une erreur de configuration de son CMS. Parmi ces documents : un draft de blog annonçant un nouveau modèle appelé Claude Mythos, appartenant à une nouvelle catégorie baptisée Capybara — un tier positionné au-dessus des modèles Opus, qui étaient jusqu'ici les plus puissants. Le document décrit Mythos comme "de loin le modèle d'IA le plus puissant que nous ayons jamais développé" et indique qu'il surpasse Claude Opus 4.6 de façon spectaculaire sur les benchmarks de coding, de raisonnement académique, et de cybersécurité.

La ligne qui a retenu l'attention de tout le monde : le modèle est décrit comme "actuellement très en avance sur tout autre modèle d'IA en termes de capacités cyber" et "préfigure une vague de modèles capables d'exploiter des vulnérabilités à un rythme qui dépasse les défenseurs."

Anthropic a confirmé l'existence du modèle. Un porte-parole l'a décrit comme "un changement de palier" et "le plus capable que nous ayons jamais construit." Le rollout sera limité à un petit groupe de clients en accès anticipé, focalisés sur la défense cyber.

L'ironie n'a pas échappé à personne : une entreprise dont le positionnement est centré sur la sécurité de l'IA a laissé fuiter les détails de son modèle le plus dangereux via une misconfiguration basique de son système de publication. On peut lire les détails du leak <a href="https://fortune.com/2026/03/26/anthropic-says-testing-mythos-powerful-new-ai-model-after-data-leak-reveals-its-existence-step-change-in-capabilities/" target="_blank" rel="noopener noreferrer">sur le site de Fortune</a>.

Du côté d'OpenAI, la situation est différente mais tout aussi révélatrice.

Le 24 mars 2026, The Information rapporte qu'OpenAI a terminé le pré-entraînement d'un nouveau modèle au nom de code Spud. Dans une note interne, Sam Altman décrit le modèle comme capable de "vraiment accélérer l'économie." Il a également annoncé aux employés l'arrêt de Sora, le générateur vidéo, pour rediriger la puissance de calcul vers Spud. L'organisation produit a été renommée "AGI Deployment" — un signal sémantique lourd de sens sur la perception qu'OpenAI a de sa propre trajectoire.

Les détails techniques n'ont pas été divulgués. Ce qui a été dit : c'est un modèle "très fort", nativement multimodal, probablement avec une architecture différente des modèles GPT-5 précédents. Des employés ont évoqué une capacité "très différente de ce qu'on a vu jusqu'ici." OpenAI prépare son IPO et la sortie de Spud est attendue dans les prochaines semaines.

OpenAI était en "Code Red" depuis décembre 2025 après que Anthropic et Google l'ont rattrapé sur plusieurs benchmarks clés. Spud est la réponse.

Google, de son côté, avance sur un rythme différent — plus industriel, plus intégré.

Gemini 3 Pro a été lancé en novembre 2025 avec un score de 1501 Elo sur LMArena, un niveau de raisonnement PhD sur GPQA Diamond (91.9%), et des capacités multimodales qui surpassent significativement Gemini 2.5. Le mode Deep Think — un mode de raisonnement étendu avec plusieurs flux de pensée parallèles — a été mis en accès limité pour les testeurs de sécurité avant son déploiement aux abonnés Ultra, avec la mention explicite que Google "prend du temps supplémentaire pour les évaluations de sécurité."

Ce n'est pas anodin. Quand un lab de la taille de Google dit publiquement qu'il ralentit un déploiement pour des raisons de sécurité, c'est que le modèle a surpris quelqu'un pendant les tests.

En mars 2026, Gemini 3.1 Pro est disponible. Le support du Computer Use tool — la capacité à naviguer sur un ordinateur comme un utilisateur humain — a été lancé sur Gemini 3 Pro et Flash. Apple a annoncé en janvier 2026 qu'elle intégrera Gemini dans la prochaine version de Siri.

Ce que ça signifie architecturalement

Trois labs, trois modèles qui dépassent ce que leurs équipes de test avaient prévu. Ce n'est pas une coïncidence. C'est la direction.

Les capacités cyber de Mythos, le potentiel économique de Spud, le raisonnement parallèle de Gemini Deep Think — tout ça converge vers des systèmes qui vont agir dans vos architectures avec une autonomie croissante. Et c'est là que la dette cognitive devient un problème architectural, pas seulement organisationnel.

Premier principe : spécifier l'intention, pas seulement le résultat. La source principale de dette cognitive c'est une spécification qui dit ce que le système doit produire sans dire pourquoi. Un agent mal spécifié optimise pour une proxy metric qui diverge silencieusement de l'objectif réel. La solution : un CLAUDE.md ou équivalent qui documente les invariants métier, les contraintes non-négociables, les cas limites connus.

Deuxième principe : tracer les décisions agent, pas seulement les outputs. LangSmith et Langfuse existent précisément pour ça. Un système agent en production sans observabilité fine des étapes de raisonnement accumule de la dette cognitive à chaque run. Vous ne savez pas ce que vous ne savez pas.

Troisième principe : circuit breaker humain systématique. Pas de boucle agentique sans point de contrôle humain explicite sur les décisions à fort impact. Ce n'est pas une question de confiance dans le modèle — c'est une question de gouvernance. Le modèle peut être juste et la décision rester hors périmètre de ce qu'un agent devrait prendre seul.

Quatrième principe : dette cognitive = KPI. Mesurez le taux de comportements agent inattendus par sprint. Mesurez le temps moyen avant que quelqu'un comprenne pourquoi un agent a pris une décision particulière. Si ces métriques augmentent, votre architecture accumule un passif que vous ne voyez pas encore dans vos dashboards Grafana.

La question qui compte

La vraie question en 2026 n'est pas "quel modèle choisir." C'est "comment gouverner des systèmes dont les capacités dépassent ce que leurs créateurs avaient prévu, dans des architectures qui n'ont pas été conçues pour les accueillir."

Anthropic a laissé fuiter un draft sur Claude Mythos en laissant un dossier public en cache. OpenAI a éteint Sora pour gagner des GPU. Google retarde un mode de raisonnement pour des raisons de sécurité qu'il ne détaille pas.

Ces trois événements de la même semaine ne sont pas des anecdotes. Ils décrivent l'état réel de l'industrie : des capacités qui progressent plus vite que les pratiques qui permettent de les gouverner.

La dette technique se rembourse avec du refactoring. La dette cognitive se rembourse avec de l'architecture, de la gouvernance, et des décisions prises avant que les problèmes arrivent en production.

C'est exactement ce que fait un architecte data et IA. Pas choisir le meilleur modèle. Concevoir le système qui reste gouvernable quand le modèle change.