IA agentique : le guide complet pour les Product Builders et les dirigeants
Comprendre, adopter et industrialiser l'IA agentique — de la boîte à outils du builder à la stratégie du dirigeant.

L'IA agentique n'est pas une version un peu meilleure de ChatGPT. C'est un changement de nature : on ne suggère plus du texte à un humain qui tape, on confie un objectif à un agent qui lit le code, identifie les bons fichiers, implémente, lance les tests, corrige ses erreurs et recommence jusqu'à ce que tout soit vert. Ce déplacement — de l'assistance passive à l'exécution autonome — redéfinit le métier de ceux qui construisent des produits, et la stratégie de ceux qui dirigent les équipes qui les construisent.
Ce guide rassemble tout ce que j'ai appris en menant cette transition sur mes propres produits et chez les équipes que j'accompagne : ce qu'est vraiment l'IA agentique, la boîte à outils du builder, la méthode pour industrialiser sans casser, l'organisation que ça impose et les chiffres qui en font un sujet de direction. C'est volontairement long. C'est le document de référence vers lequel je renvoie, et il existe pour qu'on n'ait plus à reprendre les bases à chaque conversation.
- L'agentique ≠ la complétion de code. L'agent ne suggère pas, il exécute un objectif de bout en bout — c'est le saut du SMS au smartphone. - La vraie compétence n'est pas le prompt, c'est l'orchestration : savoir cadrer, savoir quel outil sortir, savoir quand reprendre la main. - Le levier décisif est la mémoire, pas le modèle. Un monorepo où code et décisions cohabitent, versionnés, accessibles à l'IA comme à l'humain. - L'IA amplifie l'expertise, elle ne l'invente pas. Même boîte à outils, expert vs débutant : deux résultats sans rapport. - Pour un dirigeant, c'est un sujet de CODIR, pas un gadget de devs : recrutements évités, coûts d'infra divisés, time-to-market réduit.
Qu'est-ce que l'IA agentique ?
Pour comprendre l'agentique, il faut d'abord comprendre ce qu'est un modèle de langage, et surtout ce qu'il n'est pas. Un LLM (Large Language Model) n'est ni intelligent ni conscient au sens où on l'entend. C'est une machine à prédire le mot statistiquement le plus probable. Concrètement, le système a lu des milliards de pages, et pour chaque « trou » qu'on lui présente il calcule la suite la plus vraisemblable selon le contexte : après « le chat est monté sur le », il proposera « toit » ou « canapé », jamais « algorithme ». On génère ainsi mot par mot, phrase par phrase, jusqu'à un texte entier. C'est probabiliste, pas véridique — le modèle « ne sait pas ce qu'est la vérité », il produit du plausible. J'ai détaillé ce fonctionnement, ses limites et ses idées reçues dans un article dédié sur le fonctionnement des LLM, parce que comprendre cette mécanique est ce qui sépare un usage naïf d'un usage maîtrisé.
De ce socle découle la première distinction qui structure tout le reste : génératif simple contre agentique.
La complétion de code à la GitHub Copilot est passive. Elle attend que vous tapiez et vous suggère la suite. C'est un correcteur orthographique qui souligne les fautes pendant que vous écrivez. Utile, mais c'est de l'hygiène, pas un levier stratégique.
Le mode agentique est actif. Vous décrivez un objectif — « ajoute la réinitialisation de mot de passe » — et l'agent s'exécute seul : il lit le code existant, identifie les fichiers concernés, implémente, lance les tests, détecte une erreur, la corrige, recommence. C'est la différence entre un correcteur orthographique et un rédacteur qui écrit à partir d'un brief. Entre le SMS et le smartphone. L'agent ne devine plus la suite : il comprend le projet et il peut même le challenger plutôt que de seulement exécuter. C'est ce basculement, survenu en l'espace de quelques mois, qui rend obsolète toute évaluation de l'IA antérieure à 2026.
L'IA agentique ne remplace pas l'expertise : elle l'amplifie. La vraie compétence devient l'orchestration.
Mini-glossaire
Cinq termes reviennent en permanence dès qu'on parle d'agentique. Les voici, débarrassés du jargon.
| Terme | Ce que c'est, en clair |
|---|---|
| LLM | Le moteur. Un modèle entraîné sur des milliards de textes qui prédit le mot suivant le plus probable. C'est lui qui « écrit », mais il ne raisonne pas, il complète. |
| Agent | Un LLM équipé d'outils (lire un fichier, lancer une commande, exécuter des tests) et d'une boucle : il agit, observe le résultat, ajuste, recommence — jusqu'à atteindre l'objectif ou échouer. |
| Contexte | La mémoire de travail de l'agent pour une session : tout ce qu'il « a sous les yeux » (consigne, fichiers lus, sorties de commandes). Limité, et c'est la ressource la plus rare du système. |
| RAG | Retrieval-Augmented Generation. Récupérer les bons bouts d'information (doc, base de connaissances) et les injecter dans le contexte au bon moment, pour que l'agent réponde sur des faits réels plutôt que sur ses souvenirs flous. |
| MCP | Model Context Protocol. Un standard qui branche un agent sur des outils et des sources externes (une base de données, un CRM, une API) de façon uniforme. C'est la prise universelle entre l'agent et le reste de votre système. |
Une notion mérite qu'on s'y attarde, parce qu'elle est invisible jusqu'à devenir un mur : la fenêtre de contexte. Il y a un an, elle tenait dans quelques milliers de tokens — deux ou trois fichiers. Aujourd'hui elle peut atteindre le million de tokens, de quoi ingérer un projet entier : code, doc, config, historique des commits. C'est précisément ce saut qui invalide le vieux reproche « l'IA ne respecte pas nos conventions » : légitime à 4 000 tokens, faux à un million. Mais même large, ce contexte se remplit, et quand il déborde la qualité s'effondre. Toute la discipline de l'agentique tourne en partie autour de cette ressource.
Pourquoi ça change tout
La meilleure façon de saisir le bouleversement, c'est de mesurer l'écart. Pas un gain de productivité de 10 %, qu'on absorbe dans le bruit. Un saut net, d'un facteur, sur les tâches bien cadrées.
Sur la frappe de code, la complétion classique apporte 20 à 50 % de productivité — réel, mais marginal. L'agentique, elle, fait travailler un développeur qui maîtrise l'outil 5 à 10 fois plus vite, et sur certaines tâches précises le facteur monte à 10–30×. Ce n'est pas que l'IA est « plus intelligente » : c'est qu'elle supprime la recherche manuelle des fichiers, l'écriture répétitive, les allers-retours. Un refactoring qui occupait un senior une demi-journée se fait en quinze minutes.
10×vitesse de livraison sur les tâches cadréesMais le chiffre brut cache le vrai déplacement, et c'est ici qu'il faut être précis pour ne pas se tromper de promesse. Écrire du code devient une commodité. La valeur migre vers ce qui précède et ce qui suit : comprendre le besoin, cadrer juste, relire, valider. « La partie coder n'est plus ce qui crée le plus de valeur, c'est savoir quoi coder. » Un développeur qui tape deux fois plus vite du code mal conçu produit simplement deux fois plus de dette technique.
C'est pour ça que la valeur s'est déplacée vers la préparation. Le ratio s'inverse : on passait grossièrement 20 % du temps à réfléchir et 80 % à coder ; on passe désormais 60 à 80 % à préparer, cadrer et valider, et 20 à 40 % à piloter l'exécution. Sur un système de notifications push livré chez une startup que j'accompagne, le calcul était limpide : 2 à 4 heures de cadrage en amont, puis une livraison en 2–3 jours au lieu de 3–4 semaines, avec une meilleure couverture de tests parce que les cas limites avaient été identifiés avant d'écrire la moindre ligne. À l'échelle, ça donne un rapport de l'ordre de 1 heure de préparation pour 30 économisées.
1 → 30heure de préparation vs économisée en exécutionPour un Product Builder, ça veut dire qu'un seul profil bien outillé fait aujourd'hui le travail d'une petite équipe — et qu'un fondateur peut désormais passer de l'idée à un MVP de qualité production en quelques semaines, sans recruter, pour aller chercher son product-market fit bien plus tôt. Pour un dirigeant, ça veut dire que l'avantage compétitif ne se mesure plus en effectifs mais en capacité à cadrer et à orchestrer — et que le retard se paie vite, parce que les cycles d'évolution de l'IA sont de 1 à 2 mois, pas de 6 à 12 comme le logiciel classique. Un retard pris aujourd'hui se rattrape dans 4 à 6 mois, pas dans deux ans.
La boîte à outils du Product Builder
Il n'existe pas de méthode unique pour bien travailler avec l'IA agentique, et celui qui vous en vend une se trompe ou vous trompe. Il existe une boîte à outils, et la vraie compétence, c'est de savoir lequel sortir selon le moment — et lequel ranger.
Je veux être honnête dès le départ : aucun de ces outils n'est magique, et la plupart ne sont même pas nouveaux. Certains existaient bien avant l'IA et n'ont jamais été aussi pertinents. Ce qui a changé, ce n'est pas leur nature, c'est leur agencement et le poids relatif de chacun. Avec un développeur humain, on tolérait une spécification floue parce qu'il posait des questions. Avec un agent qui exécute à toute vitesse une consigne mal formulée, la moindre imprécision se paie cash, et au centuple.
| Famille | Ce qu'elle couvre | Le réflexe à acquérir |
|---|---|---|
| 1. Cadrage | Le pourquoi, puis le quoi précis | Investir en amont ce qu'on économise en aval |
| 2. Déterminisme | Lint, types, tests unitaires, E2E, journey | Tout ce qui peut être vérifié par une machine doit l'être |
| 3. Vérification | QA manuelle, spot-check, personas, canari | Ne jamais faire confiance sur parole |
| 4. Économie de contexte | Subagents, rtk, LSP, graphe de code | Le contexte est la ressource la plus rare |
| 5. Orchestration | Loop engineering, workflows, harnais | Industrialiser ce qui est répétitif et cadré |
| 6. Design & produit | Du BP aux maquettes, design system en code | Faire dialoguer le produit et le code |
| 7. Posture | Expertise × IA, choix de l'outil, garder la main | L'outil le plus important, c'est vous |
| 8. Socle classique | Git, code review, observabilité, infra déclarative | Les fondamentaux ne disparaissent pas, ils comptent plus |
Famille 1 — Le cadrage : le pourquoi avant le quoi
C'est l'outil le plus sous-estimé, et de loin. Quand on découvre l'agentique, la tentation est de foncer : on décrit vaguement une fonctionnalité, on lance l'agent, on regarde ce qui sort. Ça marche pour un prototype jetable. Ça ne marche pas pour construire un produit qui tient. La raison est simple : un agent comble les vides de votre spécification par des hypothèses, et il le fait avec un aplomb déconcertant. Si vous ne lui dites pas pourquoi vous construisez ce que vous construisez, il choisira un « pourquoi » à votre place.
Je passe donc, systématiquement, beaucoup plus de temps qu'on ne l'imagine sur deux choses, dans cet ordre. D'abord l'intention : quel problème on résout, pour qui, comment on saura que c'est réussi. Ensuite seulement le périmètre précis : les parcours, les cas limites, ce qui est dans le scope et — tout aussi important — ce qui n'y est pas. Cette phase ressemble à du temps perdu quand on a un agent qui n'attend qu'un feu vert. C'est en réalité l'investissement au meilleur rendement de tout le cycle : une heure passée à clarifier le périmètre en économise dix en réécriture et en débogage de fonctionnalités qui n'auraient jamais dû exister.
Et le cadrage n'est pas un monologue : un bon agent challenge. Sur un CRM que j'ai construit pour mon propre usage — prospects, pipeline, devis, contrats, time tracking — une heure d'échange a fait émerger des choses auxquelles je n'avais pas pensé : brouillons de devis, PDF avec signature électronique, système d'invitation client, bien avant la première ligne de code. L'agent pose les questions que les devs n'osent pas toujours poser. Le résultat, une fois le cadrage posé, équivalait à trois à six mois de développement solo — non pas parce que l'IA code plus vite, mais parce qu'elle a transformé une heure de réflexion structurée en jours de code correct.
Ce cadrage ne vit pas que dans votre tête ou dans un document qui pourrit dans un coin. Il vit dans la mémoire du projet — un sujet à part entière, traité plus bas — parce qu'une intention non écrite est une intention que l'agent réinventera à sa façon à la session suivante. Cadrer, c'est aussi alimenter cette mémoire.
Famille 2 — Le déterminisme : votre allié face au probabiliste
Voici le principe qui structure ma façon de travailler : tout ce qui peut être rendu déterministe doit l'être. Un LLM est probabiliste par nature — il produit du plausible, pas du garanti. Or on ne construit pas un produit fiable sur du plausible. La parade n'est pas de se méfier de l'IA en permanence, ce serait épuisant ; c'est d'entourer sa production d'une cage d'outils déterministes qui, eux, ne mentent jamais.
Ces outils, vous les connaissez : le linter et le formateur, le typage statique (TypeScript strict, PHPStan) qui transforme une classe entière de bugs en erreurs de compilation, les tests unitaires, les tests end-to-end à la Playwright qui rejouent les parcours dans un vrai navigateur, et au sommet les tests de journey qui valident des scénarios complets. Rien de neuf. Sauf que leur valeur a explosé : un agent produit en une heure ce qu'un développeur produisait en une journée, il faut donc une cage de vérification capable de suivre ce rythme. L'agent code vite, mais il ne peut pas mentir à un test E2E qui échoue.
# Le harnais déterministe : aucune story ne passe si une étape est rouge.
pnpm lint # style + erreurs bêtes
pnpm typecheck # TypeScript strict / PHPStan : une classe de bugs éliminée
pnpm test:unit # la logique
pnpm test:e2e # les parcours réels, dans un vrai navigateur
pnpm test:journey # les scénarios cross-fonctionnalités
Un conseil de terrain : à chaque bug trouvé, ajoutez le test qui l'aurait attrapé. C'est ennuyeux, et c'est ce qui fait que la cage se resserre avec le temps au lieu de se relâcher.
Famille 3 — La vérification : ne jamais faire confiance sur parole
Le déterministe attrape ce qu'on a pensé à vérifier. Il reste tout le reste — et c'est là qu'intervient la vérification humaine, ou semi-humaine. Elle repose sur une posture : ne jamais croire un livrable sur parole, surtout quand c'est un agent qui vous le présente.
Un agent, quand il a fini, vous fait un rapport. Et ses rapports sont presque toujours optimistes : « tout est vert, tout est vérifié. » Dans la grande majorité des cas, c'est vrai. Mais ce n'est pas votre travail de parier sur la majorité des cas quand le coût d'une erreur en production est élevé. En migrant toute mon infrastructure de bases de données, j'ai pris l'habitude de re-vérifier chaque livrable : un agent m'annonçait une migration réussie, je recomptais les documents des deux côtés avant de le croire. Plusieurs fois le rapport était juste mais incomplet. Une fois, un agent a affirmé avoir écrit un fichier qui n'était pas sur le disque.
Cette famille comprend plusieurs outils : les sessions de QA manuelle à l'ancienne, où l'on utilise vraiment le produit et où l'œil humain attrape des incohérences qu'aucun test n'anticipe ; le canari, un smoke test après chaque changement sensible qui confirme que le service répond toujours ; la vérification adversariale, où d'autres agents ont pour seul rôle d'essayer de réfuter une affirmation ; et le test de maquettes par des personas joués par l'IA, avant même d'écrire une ligne de code. La vérification, ce n'est pas de la défiance ; c'est de la rigueur.
Famille 4 — L'économie de contexte : la ressource la plus rare
On la découvre souvent trop tard, parce qu'elle est invisible jusqu'à devenir un mur. La fenêtre de contexte de l'agent est limitée, et chaque fichier lu, chaque commande, chaque rapport la remplit. Quand elle déborde, la qualité s'effondre : l'agent oublie le début de sa tâche, perd le fil, recommence des choses déjà faites. Apprendre à l'économiser, c'est doubler votre capacité de travail sans rien changer d'autre.
Le premier outil, le plus puissant, ce sont les subagents. Au lieu de tout faire dans un seul fil qui se sature, on délègue les tâches lourdes à des agents secondaires qui démarrent en contexte vierge, font leur travail, et ne rendent que la conclusion. La recherche dans une grande base de code, une migration, l'écriture d'un long document : tout part chez des subagents, et le fil principal reste clair. À côté, un outillage plus discret : rtk (Rust Token Killer), un proxy qui réécrit les commandes courantes pour réduire de 60 à 90 % le volume de tokens de leurs sorties ; LSP (Language Server Protocol), qui donne à l'agent une intelligence de code précise — définition, références, types — sans relire des fichiers entiers ; et le graphe de connaissance du code, qui indexe le dépôt et permet de requêter sa structure (« qui appelle cette fonction ? ») au lieu d'ingérer des milliers de lignes. C'est de la plomberie, mais c'est elle qui décide si vous tenez une heure ou une journée.
Famille 5 — L'orchestration : industrialiser ce qui est cadré
L'orchestration, c'est l'art de faire travailler plusieurs agents ensemble, dans un ordre maîtrisé, pour traiter un volume qu'on ne pourrait pas piloter à la main. C'est le sujet de la section suivante de ce guide, parce que c'est devenu le cœur de ma méthode. J'insiste ici sur un seul point, parce que c'est le piège où beaucoup tombent : l'orchestration n'est puissante que sur du travail bien cadré, testable et répétitif. Une académie de 51 stories similaires avec un harnais de tests solide ? Idéal. Une migration d'infra pleine d'inconnues et de décisions irréversibles ? Dangereux — là, je reprends la main. Plus le travail est spécifié et répétitif, plus on l'automatise ; plus il est flou ou à enjeu, plus on le garde en pilotage rapproché.
Famille 6 — Le design et le produit augmentés
On parle beaucoup de l'IA qui code, beaucoup moins de l'IA qui conçoit. C'est dommage, car c'est là que se jouent certains des plus grands gains, et qu'un Product Builder se distingue d'un simple développeur assisté. Je suis aujourd'hui capable de partir d'un business plan et d'un cahier des charges pour en sortir, en quelques heures de pilotage, un design system, plusieurs variantes d'interface et des dizaines d'écrans implémentables. Une fois posées, ces maquettes ne dorment pas dans un Figma à part : elles vivent à côté du code, versionnées, et forment avec le modèle de données un double harnais qui guide les agents. L'agent ne devine pas l'interface ; il l'implémente à partir d'une référence explicite. Et la frontière s'efface : un Product Designer peut désormais mettre à jour le design system directement, sans repasser par un développeur, en s'appuyant sur l'IA pour faire le pont — donc moins de décalage entre l'intention de design et ce qui finit en production. C'est l'une des familles qui transforme le plus visiblement la composition des équipes : un profil qui maîtrise à la fois le produit, le design et un peu de code devient extraordinairement productif, parce qu'il pilote d'un bout à l'autre une chaîne qui mobilisait auparavant trois personnes et autant de points de friction.
Famille 7 — La posture : l'outil le plus important, c'est vous
J'ai gardé la famille la plus importante pour la fin, parce qu'elle commande toutes les autres. Tous les outils précédents ne valent que par la personne qui les manie : l'IA n'invente pas l'expertise, elle l'amplifie. C'est le malentendu le plus coûteux du moment. Donnez la même boîte à outils à un expert et à un débutant, et vous obtiendrez deux résultats sans aucun rapport. L'expert sait quel outil sortir, reconnaît quand l'IA propose une solution plausible mais fausse, sait quand s'arrêter, repère le défaut subtil qui cassera dans six mois, apporte le vocabulaire métier. Le débutant produit vite quelque chose qui a l'air de marcher et qui s'effondre au premier cas limite. J'en ai fait un article entier, parce que c'est central : les meilleurs résultats viennent d'utilisateurs déjà experts du sujet, seuls capables de repérer quand le modèle déraille.
La posture, c'est d'abord cette compétence méta : savoir quel outil pour quel contexte. Aucune de ces décisions ne se délègue à l'IA ; elles relèvent du jugement, et le jugement se construit avec l'expérience. C'est pour ça que je garde toujours la main sur la revue : déléguer l'écriture ne veut pas dire déléguer la responsabilité.
Famille 8 — Le socle classique, qui compte plus que jamais
Je termine par une famille qu'on serait tenté de zapper parce qu'elle n'a rien à voir avec l'IA — et c'est justement pour ça qu'il faut en parler. Les fondamentaux ne disparaissent pas à l'ère agentique ; ils deviennent le filet sous le funambule. Tout versionner d'abord : Git n'est plus seulement pour le code, mais aussi pour l'infra, les docs, les maquettes — parce que quand un agent fait une bêtise, un git revert vous sauve, à condition que tout soit versionné. La revue de code humaine ensuite, sur ce que produisent les agents. L'observabilité — monitoring, logs, alertes — parce que la seule façon de savoir si ce que vous avez livré fonctionne vraiment en production, c'est de le regarder tourner. Et l'infrastructure déclarative, reproductible, rejouable. Ces outils ne sont pas excitants, on n'en fait pas des posts viraux. Mais ce sont eux qui font la différence entre une démo qui impressionne et un produit qui tient.
La méthode : le loop engineering
Une fois la boîte à outils en main, la question devient : comment industrialiser ? La réponse, pour le travail bien cadré et répétitif, c'est ce que j'appelle le loop engineering — concevoir le système qui prompte les agents plutôt que de les prompter soi-même à la main. Comme le formule Boris Cherny, créateur de Claude Code : « Je ne prompte plus Claude. J'ai des boucles qui tournent et qui promptent Claude. »
La boucle fermée tient en trois pièces, toutes versionnées dans le repo :
- Une queue de fichiers. Les tâches vivent en markdown et transitent de
todo/versdoing/puisdone/. Le simple déplacement de fichier sert de verrou — pas de base de données, pas d'orchestrateur externe, juste des fichiers que Git suit. - Un harnais d'exécution déterministe. Le harnais de tests à trois niveaux de la famille 2. Aucune tâche ne passe si une étape est rouge, et il est interdit d'affaiblir un test pour faire passer le vert. Le vérificateur qui compte n'est pas un agent qu'on peut convaincre : c'est une suite de tests qui ne négocie pas.
- Une inbox de décisions. Quand l'agent rencontre un choix produit non trivial, il ne tranche pas seul : il dépose une fiche de décision (Go / No-go / À discuter) que je relève quand je veux. La boucle ne s'arrête pas, mais elle ne décide pas à ma place sur ce qui compte.
Ce qui distingue vraiment cette boucle de la littérature, c'est l'étape de convergence. Après chaque implémentation, l'agent prend des captures d'écran — desktop et mobile — relues par deux experts-agents : l'un joue le rôle d'un product designer, l'autre d'un product manager. Ils notent ce qui cloche, l'agent corrige, on recommence. La boucle est bornée à trois tours maximum, avec un seuil de sévérité : on s'arrête dès qu'un tour passe sans correction mécanique, pour ne pas sur-polir indéfiniment. Une règle distingue le mécanique (corrigé automatiquement) du produit (envoyé en inbox).
J'ai construit la première version de ce système en une journée avec Claude Code. La toute première tâche réelle a révélé deux frictions — un format d'argument mal passé entre agents, un port de dev déjà occupé — corrigées le soir même dans les templates d'un installeur réutilisable. Aujourd'hui, la boucle s'installe sur n'importe quel repo en une commande. C'est l'aboutissement d'une méthode que j'affinais déjà depuis des mois : sur les cinq briques que décrit la littérature, j'en avais quatre — mémoire versionnée, skills, subagents, connecteurs MCP. Il ne manquait que l'automatisation qui ferme la boucle.
La boucle excelle sur du travail cadré, testable et répétitif. Sur de l'exploratoire à fort enjeu — une migration irréversible, une décision d'architecture ouverte — elle est dangereuse. La maîtrise n'est pas « tout automatiser », c'est savoir où s'arrête le domaine de validité de l'automatisation et reprendre la main avant.
La mémoire partagée : le vrai levier
Si je ne devais désigner qu'un seul levier décisif, ce ne serait ni le modèle ni le prompt. Ce serait la mémoire. Un LLM est puissant mais amnésique : d'une session à l'autre, il re-propose des stacks qu'on a écartées, des modèles économiques déjà tranchés, des architectures incompatibles. Cette amnésie peut coûter jusqu'à 30 % du temps d'un projet — du temps passé à re-contextualiser ce qui aurait dû être acquis.
La parade, c'est le monorepo-mémoire : un seul dépôt Git où cohabitent le code et la mémoire structurée du projet, en markdown lisible — business plan, concurrents, pricing, PRD, ADR (les décisions d'architecture et leur justification), audits, personas, le tout chargé à chaque session via un fichier d'instructions (CLAUDE.md, AGENTS.md). L'intérêt par rapport à un wiki externe à la Notion est décisif : l'agent voit le code et le business simultanément, il croise PRD, ADR, code et personas avant chaque choix. Dans ma pratique, ça élimine l'essentiel des retours du type « tu n'as pas pris en compte X ».
Cette mémoire n'est pas qu'un confort technique. C'est ce que j'appelle le système nerveux de l'organisation, et c'est ce qui rend l'avantage cumulatif : chaque décision documentée rend l'agent plus efficace dès la session suivante. Documenter cesse d'être une corvée à ROI lointain pour devenir un investissement à rendement immédiat. Tout est versionné — chaque décision a un commit, un auteur, une date, elle est réversible et branchable. L'onboarding d'un nouvel arrivant se résume à un git clone qui hérite de toute la mémoire. À terme, ce monorepo-mémoire devient un actif d'entreprise qui se valorise lors d'une levée, d'un recrutement ou d'une due diligence — bien plus difficile à copier qu'une fonctionnalité.
Le contexte permet aussi de mobiliser des experts qu'on n'aurait jamais réunis. Pour auditer un produit, je lance en parallèle une dizaine de sous-agents spécialisés — Symfony, React Native, Go, SEO, DevOps, DBA, sécurité, PM technique — chacun produisant un rapport chiffré en quinze à vingt minutes. L'équivalent prendrait deux semaines et 10 à 15 K€ à une agence.
11 experts · 20 minaudit complet en parallèle, vs 2 semaines en agenceEt le plus contre-intuitif : cette mémoire n'a plus à être réservée aux profils techniques. J'ai monté un système pour servir toute la doc git d'un projet directement dans le LLM d'un fondateur non-dev — sans Notion, sans compte GitHub, sans abonnement. Un simple endpoint HTTP renvoie un zip de la doc et deux skills qui permettent au fondateur d'alimenter et de modifier cette mémoire en langage naturel, via des pull requests qu'il ouvre sans jamais voir GitHub. Le controller fait une cinquantaine de lignes, le système a été écrit en deux heures. Le contexte de l'entreprise cesse d'être un silo de développeurs pour devenir un bien commun, que le juriste, le financier ou le marketing alimentent au même titre que les devs.
Les nouveaux rôles dans l'équipe
Quand l'écriture de code devient une commodité et que la valeur migre vers le cadrage, la composition des équipes se reconfigure. Les équipes deviennent plus petites, plus seniors dans la réflexion, et l'idée même qu'un développeur puisse coder sans comprendre ce qu'il construit devient obsolète.
Le profil le plus transformant est ce que j'appelle le PO Technique : un développeur expérimenté, issu de l'engineering, capable de réaliser une fonctionnalité de bout en bout — la spécifier, la faire implémenter par des agents, la vérifier, la déployer, en flux continu. Les réflexes purement techniques (créer un endpoint, écrire un test, structurer une archi) se banalisent, comme des briques sur étagère. Ce qui reste rare, c'est de faire la bonne feature, pour les bonnes raisons. Un PO Technique formé traite trois à cinq fois plus de sujets qu'un PO classique, et peut réaliser seul ce qui mobilisait une petite équipe.
Le cas le plus parlant que j'ai vu : un back-office complet, estimé à environ 40 jours-homme en workflow classique, livré en 2 jours-homme — périmètre dépassé en prime. Un facteur 20 sur une fonctionnalité réelle, pas un benchmark de démo.
40 j → 2 jun back-office complet, en jours-homme réelsLes autres rôles bougent aussi. Le senior écrit moins de code et fait davantage d'architecture, de revue et de mentorat — il devient aussi chasseur de dette technique, parce qu'auditer et réécrire du legacy passe de jours à heures, dans un cercle vertueux : plus la base est saine, meilleure est la génération IA. Le junior gagne un « senior virtuel » permanent et monte en compétences deux à trois fois plus vite, ce qui change l'équation du recrutement. Le management se recentre sur le contexte et la culture : le manager passe de « donner des tickets » à « donner du contexte », et le CTO de « mains dans le code » à stratège au CODIR. Le pair programming devient du « pair prompting ». J'ai détaillé cette recomposition dans un panorama des nouveaux rôles — y compris ce qu'elle exige humainement : des seniors qui acceptent de moins coder, des juniors qui montent vite, des managers qui transmettent.
Résultats concrets et ROI
Tout ce qui précède resterait théorique sans preuve. En voici, à plusieurs échelles.
À l'échelle d'un produit livré entièrement par des agents autonomes : une académie de formation complète, conçue avec un harnais de tests à trois niveaux. Le bilan parle de lui-même.
51 stories · 0 bug4 sprints, une academy livrée par des agents autonomesDerrière ce chiffre : 51 stories, 4 sprints, environ 20 000 lignes de code, 295 tests unitaires, 68 tests E2E, 5 parcours journey, zéro régression. Le setup initial — PRD, stories détaillées, tests journey, prompt — a pris environ deux heures. Le sprint 1 a produit 18 stories et 25 endpoints en 1h20 d'agent ; les sprints suivants ont tourné chacun en un seul run sans intervention. Le temps humain total, supervision et corrections UX comprises, a tenu dans une demi-journée, faite en parallèle d'autres tâches. À titre de comparaison, le même périmètre aurait pris 3 à 4 mois à une équipe de 2-3 développeurs avec un PO. J'ai raconté le déroulé complet, sprint par sprint, parce que c'est le détail qui rend le chiffre crédible.
À l'échelle d'une équipe, l'IA agentique transforme l'économie tout entière. J'ai construit un cluster Kubernetes bare-metal — trois machines, Talos OS, ArgoCD — en deux à trois jours, alors que ça m'aurait pris plusieurs semaines sans assistance, n'étant pas SRE de formation. Et côté DX comme côté business, les gains sont systémiques : au service des développeurs, le refactoring legacy passe de 3-5 jours à 1, l'onboarding technique de 2-3 semaines à 1 ; au service du business, un cas marquant — la production du cocon sémantique SEO d'une startup en quelques semaines au lieu de plusieurs mois, avec un trafic organique multiplié par plus de 100.
×100trafic SEO d'une startup, cocon sémantique produit en semainesPour un dirigeant, le calcul se pose sur trois axes : la masse salariale évitée (des recrutements qu'on ne fait pas, pas des licenciements), les coûts d'infrastructure (un cluster bare-metal assisté coûte 5 à 10 fois moins cher qu'un équivalent managé), et la vélocité business. Sur une équipe de 40 développeurs équipée, le ROI documenté est sans ambiguïté.
173 K€ → 670 K€+investissement année 1 vs économies annuellesUne équipe de 40 développeurs outillée absorbe la charge de 60 à 80 développeurs sans ces outils. Là où dix recrutements étaient prévus, un ou deux suffisent. Pour un coût moyen chargé de 80 K€ par développeur, les recrutements évités se chiffrent en centaines de milliers d'euros par an. Face à un investissement de première année d'environ 173 K€ (accompagnement plus licences), les économies annuelles se situent entre 670 K€ et 1,25 M€ — l'investissement est rentabilisé en deux à trois mois, et dès l'année 2 le coût se réduit aux seules licences.
Comment démarrer
Connaître la théorie ne suffit pas. Voici par où je commence, concrètement, et les pièges qui font échouer la plupart des tentatives. La cause d'échec la plus répandue n'est presque jamais technique : c'est de sauter le cadrage et la mémoire pour aller droit à l'exécution, parce que c'est la partie spectaculaire. On lance un agent sur une consigne floue, on obtient un résultat flou, et on en conclut un peu vite que « l'IA ne marche pas ». Elle marchait très bien ; c'est l'entrée qui était mauvaise.
Commencez par un vrai projet, pas un side project sans enjeu. L'IA agentique ne se prouve que sur un terrain qui compte. Un POC sans conséquence ne convaincra personne et ne révélera aucune des vraies difficultés.
Posez la mémoire avant de poser des agents. Avant la moindre boucle, créez le monorepo-mémoire : un CLAUDE.md, quelques fichiers de décisions, le PRD du projet. Sans ce socle, tous les outils tournent à vide.
Cadrez avant d'exécuter. Le réflexe le plus payant est aussi le plus contre-intuitif : passer plus de temps en amont. Une idée floue produit un résultat flou. Une heure de cadrage structuré vaut des jours de correction.
Montez progressivement vers l'orchestration. Commencez en pilotage manuel, rapproché. N'automatisez en boucle que ce qui est devenu répétitif, testable et cadré. L'orchestration est un palier, pas un point de départ.
Pour déployer à l'échelle d'une équipe, la méthode qui marche est phasée, jamais un email de licences : une équipe pilote de 4 à 7 personnes mêlant promoteurs et sceptiques, un accompagnement embarqué de 2 à 4 semaines où l'on code avec l'équipe, puis une diffusion par capillarité — les pilotes deviennent formateurs — qui touche toute l'équipe en deux à trois mois sans cesser de livrer.
Les pièges à éviter
Le plus fréquent est aussi le plus humain : le rejet par les développeurs seniors. Il repose presque toujours sur le même test biaisé — on évalue la complétion de code (le SMS) en croyant juger l'agentique (le smartphone), sans formation, sans configurer le contexte du projet. À quoi s'ajoute un biais inconscient : demander à ses meilleurs artisans d'évaluer un outil qui transforme leur métier provoque une réaction défensive prévisible. Le testeur a un intérêt inconscient à l'échec. La parade n'est pas d'imposer, c'est de faire vivre le bon outil, dans les bonnes conditions, sur un vrai projet.
Les autres pièges découlent de ce qui précède : foncer sans cadrage, faire confiance aux rapports d'agents sans vérifier, automatiser de l'exploratoire à fort enjeu, négliger le socle classique. Aucun n'est fatal. Tous sont évitables avec la bonne posture.
Et concrètement, pour un dirigeant ?
Si vous dirigez une équipe tech, l'IA agentique n'est pas un sujet à déléguer à vos développeurs. C'est un sujet de direction, pour trois raisons.
La première est financière : les chiffres ci-dessus déplacent la conversation du « gadget » vers l'investissement stratégique, avec un retour sur quelques mois. La deuxième est concurrentielle : les cycles d'évolution se comptent en semaines, et l'écart entre une équipe outillée et une équipe qui ne l'est pas se creuse vite, de façon cumulative — le retard se rattrape de plus en plus difficilement. La troisième est organisationnelle : l'agentique récompense les organisations qui communiquent bien et documentent, et pénalise les silos. C'est donc autant une transformation de culture qu'un changement d'outil.
Un point mérite d'être posé sans détour, parce qu'il est souvent mal compris. Le gain de l'IA agentique ne se résume pas à « les développeurs codent plus vite ». Le levier le plus profond est ailleurs : il déplace l'effort vers la qualité de la réflexion en amont, ce qui valorise précisément les compétences qu'une bonne direction cherche déjà à cultiver — la clarté du besoin, la rigueur du cadrage, la capacité à poser les bonnes questions. Le « bon développeur » de demain n'est pas celui qui tape le plus vite, c'est celui qui pose les meilleures questions. C'est pour ça que l'IA agentique est, paradoxalement, autant un sujet de management qu'un sujet technique : elle amplifie ce que votre organisation fait déjà bien, et expose impitoyablement ce qu'elle fait mal.
Le risque inverse existe aussi, et il faut l'anticiper. Une équipe qui adopte l'IA sans poser de mémoire, sans cage déterministe et sans discipline de vérification produira plus vite — du code mal conçu, de la dette technique, des fonctionnalités à côté du besoin. La vitesse sans le cadre n'est pas un progrès, c'est une accélération des erreurs. Le rôle d'une direction est précisément de garantir que l'accélération s'accompagne du socle qui la rend sûre.
Le rôle d'un dirigeant n'est pas de coder, mais de créer les conditions : choisir le bon projet pilote, protéger l'équipe le temps de l'apprentissage, investir dans la mémoire de l'entreprise, et recruter désormais sur l'appétence produit autant que sur la technique pure. C'est exactement ce que je fais quand j'accompagne le déploiement de l'IA agentique dans une organisation — de l'équipe pilote au passage à l'échelle.
Questions fréquentes
À lire aussi dans ce dossier
- Loop engineering : ce qui est vraiment nouveau (et ce que ma méthode faisait déjà)J'ai confronté le « loop engineering » d'Addy Osmani à ma méthode de travail avec les agents IA. Verdict : une seule brique manquait vraiment — et ma boucle de captures d'écran relues par des experts va plus loin que ce que propose la littérature.
- Le monorepo-mémoire : le vrai levier n'est pas le promptComment transformer un monorepo en mémoire vivante d'entreprise — docs markdown, équipe d'experts IA, livraison MVP quasi-V2 en 2 mois. La méthode qui converge avec le gist récent de Karpathy.
- Partager toute la doc git d'un projet avec un fondateur non-dev (et son LLM) : 400 lignes, zéro NotionUn endpoint HTTP qui sert un zip de toute la doc, deux skills Claude (lire la mémoire / proposer une PR), un PAT GitHub scopé : comment alimenter directement le LLM d'un fondateur non-dev sans Notion, sans compte GitHub, sans abonnement. Le pattern, les décisions techniques (UUID statique, default-deny, llms.txt), et les limites honnêtes — V1 codée, pas encore en main du fondateur.
- Le PO Technique : le profil qui va redéfinir les équipes produitAvec l'IA agentique, un développeur expérimenté peut réaliser une fonctionnalité de bout en bout. Mais ce qui fera la différence, c'est la compréhension du produit. Le PO Technique, issu des équipes d'engineering, est le profil qui va redéfinir vos équipes.
- Les nouveaux rôles dans une équipe tech augmentée par l'IAComment l'IA agentique redessine les rôles dans les équipes tech et produit. Le PO Technique, le développeur-architecte, le manager augmenté. Ce qui disparaît, ce qui émerge.
- L'IA n'invente pas l'expertise — elle l'amplifiePourquoi la qualité de ce qu'une IA produit dépend directement de l'expertise de qui la pilote — et ce que ça change pour la collaboration dans nos organisations. Constat de terrain et conséquences pour les équipes.
- IA au service de la DX : bien plus que de la complétion de codeDe Copilot à l'IA agentique, l'IA transforme le quotidien des développeurs. Complétion, analyse de code, agents autonomes : les 3 niveaux d'usage et leur impact réel sur la productivité.
- IA au service du business : au-delà de la hype, les vrais impactsL'IA transforme tous les métiers de l'entreprise, pas seulement la tech. Exemples concrets, erreurs à éviter, et pourquoi automatiser le support en premier est souvent une mauvaise idée.
- Déployer l'IA agentique dans une équipe de 40 personnes : méthodologieComment structurer le déploiement de l'IA agentique dans une équipe de 40 développeurs. Équipe pilote, pair prompting, diffusion par capillarité et extension aux non-techs.
- Le vrai ROI de l'IA agentique : moins de recrutement, moins de coûts, plus de vélocitéAu-delà de la productivité des développeurs : comment l'IA agentique réduit les besoins en recrutement, optimise les coûts d'infrastructure et accélère la croissance. Chiffres concrets.
- 51 stories, 4 sprints, 0 régression : comment j'ai livré une academy complète avec des agents IA autonomesComment j'ai livré une academy de formation complète — présentations, quiz interactifs, émargement, certificats — en 4 sprints d'agents IA autonomes avec un harnais de tests E2E à 3 niveaux. 51 stories, 68 tests E2E, 0 bug de régression.
- IA agentique en 2026 : ce qui a changé en 6 mois et pourquoi il faut réévaluerContexte 1M de tokens, mode agentique, mémoire persistante, outils pour non-devs : ce qui a changé dans l'IA en 6 mois rend les évaluations précédentes obsolètes.
- LLM : comment ça marche vraiment ?Comprendre le fonctionnement des LLM sans jargon technique : le principe des textes à trous, pourquoi ça marche, et les limites à connaître (hallucinations, biais, coûts).
- Pourquoi vos devs seniors rejettent l'IA — et ce que ça vous coûteVos développeurs ont testé l'IA et conclu que ça ne marchait pas. Derrière ce verdict se cache un test biaisé, un malentendu sur le paradigme et un coût d'inaction qui se chiffre en centaines de milliers d'euros.
- L'IA agentique en pratique : 2 heures de préparation, 3 jours d'exécutionL'IA agentique ne remplace pas le temps de réflexion — elle le valorise. Deux retours d'expérience concrets qui montrent pourquoi la préparation est devenue le vrai travail.