Des IA capables de se fabriquer elles-mêmes : Anthropic lance l’alerte et dévoile Claude Fable 5
En l’espace de cinq jours, la start-up américaine a d’abord publié un essai appelant à une pause mondiale dans la course à l’IA de pointe. Elle évoque le risque d’une IA capable de s’améliorer elle-même sans supervision humaine, avant de lancer Claude Fable 5, une version grand public de son modèle ultra-puissant Mythos, dont les fonctionnalités les plus sensibles ont été volontairement limitées.
L’ESSAI QUI A SECOUE LA SILICON VALLEY
Le 4 juin 2026, Anthropic a publié un texte intitulé « When AI builds itself » (Quand l’IA se construit elle-même). Les deux auteurs, Marina Favaro, directrice de la recherche interne, et Jack Clark, président d’Anthropic, y posent une question qui dérange autant qu’elle fascine. Que se passera-t-il lorsque les systèmes d’intelligence artificielle seront capables de concevoir, entraîner et déployer leurs propres successeurs, sans que des ingénieurs humains n’interviennent à chaque étape ?
Ce seuil théorique, que les chercheurs en IA nomment « amélioration récursive » (recursive self-improvement), n’a pas encore été franchi, reconnaissent les auteurs. Mais leur diagnostic est sans ambiguïté. « Il pourrait arriver plus tôt que la plupart des institutions ne s’y préparent ». Et si ce moment arrive sans garde-fous adéquats, il deviendra considérablement plus difficile pour les humains, de maintenir un contrôle significatif sur le développement de l’IA.
Pour étayer leur argumentation, Favaro et Clark s’appuient sur des données internes inédites. Plus de 80 % du code intégré dans la base de code d’Anthropic est aujourd’hui rédigé par Claude lui-même. Les ingénieurs de la société produisent environ huit fois plus de codes par jour qu’ils ne le faisaient en 2024. Ces chiffres ne sont pas que des indicateurs de performance. Ils illustrent, selon les auteurs, une dynamique d’accélération qui se rapproche dangereusement du point de non-retour.
La conclusion du texte est aussi prudente que radicale . « Il serait bon pour le monde d’avoir la possibilité de ralentir ou de suspendre temporairement le développement de l’IA de pointe ». Non pas un arrêt unilatéral, mais un mécanisme de coordination mondiale permettant à plusieurs grands laboratoires, dans plusieurs pays, de freiner simultanément et de manière vérifiable.
UNE PAUSE PRESQUE IMPOSSIBLE A ORGANISER
L’appel d’Anthropic résonne comme un aveu d’impuissance autant que comme une alerte sincère. La start-up le reconnaît elle-même : instaurer une telle pause supposerait que des laboratoires américains, européens et surtout chinois acceptent de suspendre leurs travaux au même moment, selon des règles communes et vérifiables. Un défi de coordination comparable, selon les analystes, aux traités de limitation des armes nucléaires de la Guerre froide. Mais bien plus difficile à mettre en œuvre.
Surveiller des silos à missiles est une chose. Tracer des ressources informatiques décentralisées (centres de données privés, puces disséminées aux quatre coins du globe, algorithmes entraînés discrètement) en est une autre. Sans mécanisme de vérification crédible, toute promesse de pause risque de profiter aux acteurs les moins scrupuleux. L’essai n’a pas manqué de susciter des critiques acerbes dans l’industrie.
Plusieurs observateurs ont relevé le calendrier troublant de sa publication. Le 1er juin, trois jours à peine avant sa sortie, Anthropic déposait confidentiellement un formulaire S-1 auprès de la Securities and Exchange Commission américaine, en vue d’une introduction en Bourse qui pourrait valoriser la société à plus de mille milliards de dollars. Appeler à une pause tout en préparant la plus grosse levée de fonds de l’histoire de l’IA, l’ironie n’a échappé à personne !
L’analyste Rob Enderle, souvent cité dans ce débat, a tranché : « Les gains de productivité rapportés sont probablement réels, mais mettre en avant la progression vers l’amélioration récursive relève d’un positionnement stratégique calculé. » Anthropic, en clair, achète de la légitimité morale au moment où elle cherche à séduire les marchés.
MYTHOS : LE MODELE QUI A BRISE SES PROPRES BARRIERES
Pour comprendre pourquoi Anthropic appelle à la prudence, il faut revenir à ce qui s’est produit en avril 2026, lors des premiers tests de son modèle le plus avancé. Baptisé Mythos, ce système a alors fait l’effet d’une bombe silencieuse dans les cercles de la cybersécurité mondiale.
Durant les évaluations internes, les chercheurs d’Anthropic ont encouragé Mythos à chercher un moyen de s’échapper d’un environnement virtuel isolé (un « sandbox ») et à envoyer un message s’il y parvenait. Dans un fait pour le moins surprenant, un chercheur a reçu un courrier électronique inattendu, émanant du modèle alors qu’il mangeait un sandwich dans un parc.
La décision s’est imposée d’elle-même. Mythos ne serait pas rendu public. La société a lancé le Projet Glasswing, un programme restreint permettant à un groupe limité de partenaires de confiance (dont AWS, Microsoft, Apple et CrowdStrike), d’utiliser le modèle dans un cadre strictement défensif, pour identifier et corriger des vulnérabilités dans les infrastructures critiques.
En mai, l’accès a été étendu à quelques centaines d’organisations dans quinze pays, toujours sur des critères sélectifs.
CLAUDE FABLE 5 : LA PUISSANCE DE MYTHOS, AVEC DES GARDE-FOUS
Le 9 juin, soit cinq jours après l’appel à la pause, Anthropic a pris tout le monde de court en annonçant Claude Fable 5. Le modèle est décrit comme appartenant à la même famille que Mythos, mais conçu pour un usage général. Son slogan interne : « les capacités de Mythos, les garde-fous en plus ».
Concrètement, Fable 5 excelle en ingénierie logicielle, en raisonnement scientifique, en vision par ordinateur et en travaux de connaissance avancée. Mais sur quatre catégories précises, le modèle bascule automatiquement vers un système moins puissant (Claude Opus 4.8) plutôt que de répondre directement. Ces catégories sont la cybersécurité, la biologie, la chimie, et ce qu’Anthropic appelle la « distillation » : la technique consistant à faire interroger un grand modèle par un modèle plus petit pour en reproduire les capacités. Une pratique que la société attribue notamment à des acteurs basés en Chine.
Avant le lancement, Anthropic a soumis Fable 5 à un programme de recherche de failles (bug bounty), impliquant des experts extérieurs, cumulant plus de mille heures de tests d’attaque. Aucun contournement universel de ses filtres de sécurité n’a été trouvé. La société précise que les garde-fous ne s’activent que dans moins de 5 % des sessions, préservant ainsi, la fluidité du modèle pour la grande majorité des usages.
Sur le plan commercial, Fable 5 est accessible dès maintenant via l’API Anthropic et les plans d’entreprise. Jusqu’au 22 juin 2026, il est inclus sans surcoût dans les abonnements Pro, Max, Team et Enterprise. Au-delà, des crédits d’usage pourraient être requis le temps que les capacités d’infrastructure s’élargissent.
LE DILEMME STRUCTUREL D’ANTHROPIC
Ces deux annonces en rafale exposent crûment la contradiction fondamentale qui traverse toute l’industrie de l’IA de pointe ; et Anthropic en particulier. La société a été fondée en 2021 par d’anciens cadres d’OpenAI, avec pour mantra explicite la sécurité de l’IA avant la performance. Dario Amodei, son PDG, a lui-même évalué publiquement à 25 % la probabilité d’un scénario catastrophique lié à l’IA. Ce n’est pas rien : quand l’homme à la tête de l’une des plus importantes sociétés du secteur donne une chance sur quatre à une catastrophe, la formule mérite qu’on s’y arrête.
Pourtant, Anthropic continue de pousser ses modèles vers des capacités toujours plus élevées. Elle publie Fable 5 au grand public tout en appelant les autres acteurs à lever le pied. Elle construit des garde-fous sophistiqués sur des systèmes dont elle admet elle-même qu’ils pourraient, s’ils tombaient dans de mauvaises mains, « causer de sérieux dégâts ».
La réponse d’Anthropic à cette contradiction est de l’ordre du pragmatisme assumé : si les modèles les plus puissants vont de toute façon être développés, mieux vaut que ce soient des acteurs soucieux de sécurité qui les déploient, avec des barrières robustes, plutôt que de laisser le champ libre à des concurrents moins regardants. Cet argument dit « course vers le haut» est séduisant en théorie. Il est aussi, reconnaissons-le, parfaitement confortable pour justifier de ne jamais s’arrêter.
GOUVERNANCE : L’URGENCE SANS REPONSE
Ce n’est pas la première fois que des acteurs du secteur appellent à une pause. En 2023, l’Institut Future of Life avait lancé une pétition signée notamment par Elon Musk, demandant un gel de six mois du développement des IA plus puissantes que GPT-4. L’appel avait fait grand bruit. L’effet concret avait été quasi nul. Depuis, les gouvernements peinent à suivre le rythme. L’Union européenne a adopté l’AI Act, un cadre réglementaire par niveaux de risque qui constitue une avancée notable mais dont la mise en application complète n’interviendra qu’en 2026-2027. Aux États-Unis, une décision exécutive de l’administration Trump, publiée quelques jours avant l’essai d’Anthropic, a choisi de s’en remettre aux laboratoires eux-mêmes : ils sont désormais invités à soumettre volontairement leurs modèles les plus puissants à des tests de cybersécurité gouvernementaux avant tout déploiement public.
Volontairement. Le mot résume l’impasse. Sans contrainte légale vérifiable, sans organisme international doté d’une autorité réelle, sans mécanisme de sanction, tout appel à la pause reste un vœu pieux ou, au pire, un outil de communication.
C’est d’ailleurs sur ce point que l’essai de Favaro et Clark est le plus honnête : ses auteurs reconnaissent explicitement qu’une coordination mondiale est « très difficile à obtenir ». Ce qui ne les empêche pas de demander qu’on réfléchisse sérieusement à la question. Un geste politique plus qu’une feuille de route opérationnelle.
CE QUE LA SEMAINE D’ANTHROPIC REVELE
En cinq jours, Anthropic a publié un manifeste sur les dangers de l’IA et lancé sur le marché de masse la technologie qui illustre ces dangers. Ce n’est pas de l’hypocrisie : c’est la condition même d’un acteur qui croit à la fois que la course est dangereuse et qu’on ne peut pas en descendre.
Ce que cette séquence révèle surtout, c’est l’état réel du débat sur la gouvernance de l’IA : les alertes se multiplient, les cadres réglementaires avancent lentement, et les modèles les plus puissants continuent de sortir, soigneusement emballés dans des discours de responsabilité. L’amélioration récursive n’a pas encore eu lieu. Mais la course pour y arriver, elle, se poursuit à toute allure.
Alioune BA
Spécialiste en Ethique de l’IA

