01Pourquoi le modèle seul n’est pas le produit
Les échecs d’agents ne viennent pas toujours d’un manque d’intelligence linguistique. Ils apparaissent lorsque le modèle agit sans cadre durable : il oublie le contexte après une reprise, ne sait pas si un fichier a été modifié par lui ou par un outil généré, lance une commande sans preuve suffisante, ou reste bloqué devant un navigateur, un simulateur iOS, un trousseau de certificats ou une session longue.
Le problème se découpe en trois douleurs. Le contrôle des outils décide quelles commandes, éditions, requêtes réseau et validations humaines sont permises. Le contrôle de l’état garde prompts, diffs, logs, checkpoints et décisions. Le contrôle de l’exécution fournit une machine stable où Homebrew, Xcode, Safari, les tests et les caches se comportent de façon prévisible.
02Matrice de décision : chat, script ou agent harness
| Type de travail | Modèle seul | Script classique | Agent harness |
|---|---|---|---|
| Explication ponctuelle | Très adapté | Trop rigide | Souvent excessif |
| Migration répétable | Pas d’état | Bon si les règles sont fixes | Meilleur avec exceptions |
| Réparation de dépôt avec tests | Vérification faible | Fragile dès que l’erreur change | Planifie, édite, teste, reprend |
| Release, QA ou navigateur | Pas d’hôte durable | Utile pour une étape étroite | Idéal pour boucles de preuve |
03Les six couches d’un harnais d’agent exploitable
Un bon harnais est presque discret. Il transforme une conversation ouverte en poste de travail borné. La première couche est le cadrage de tâche : objectif, dépôt, fichiers, critères d’acceptation et règles d’arrêt. La deuxième est la médiation des outils : shell, recherche, édition, navigateur, gestionnaires de paquets et API passent par une politique explicite.
La troisième couche est la mémoire opérationnelle, avec transcript, sorties de terminal, variables d’environnement, diffs et checkpoints. La quatrième est l’isolation : branche, workspace ou Mac distant jetable, afin de ne jamais écraser un changement humain. La cinquième est la vérification : tests, lint, captures, logs, benchmark ou revue de diff. La sixième est le passage de relais, c’est-à-dire un compte rendu clair des fichiers touchés, risques et commandes exécutées.
04Runbook en sept étapes pour du travail réel
- Définir le contrat. Nommer le dépôt, la branche, le livrable, le propriétaire, les outils autorisés et le format de sortie attendu.
- Provisionner l’hôte. Choisir un Mac mini M4 dédié si le travail touche Xcode, Safari, Homebrew, WebGPU, simulateurs ou automatisation navigateur.
- Charger le contexte avec mesure. Lire les fichiers, diffs récents, scripts de test et notes de déploiement au lieu d’inonder le prompt.
- Mettre des garde-fous. Demander validation pour suppression, accès secrets, publication, facturation ou déploiement production.
- Tracer chaque édition. Garder diffs et sorties de commande attachés à l’exécution pour que la revue soit reconstructible.
- Exécuter les boucles de preuve. Tests, formatage, lancement d’application et captures doivent alimenter l’étape suivante du modèle.
- Reprendre proprement. Utiliser checkpoints, espaces isolés et relance fraîche lorsqu’un chemin devient trop coûteux.
05Signaux mesurables avant de passer à l’échelle
Avant de confier plus de surface à un agent, fixez des seuils simples. Visez moins de 200 ms pour les recherches et lectures courantes. Conservez les journaux au moins pendant un cycle de revue. Exigez un diff lisible et une commande de vérification réussie avant toute demande de fusion. Pour les charges Mac, réservez 16 Go aux agents de maintenance simples et 24 Go lorsque le harnais lance navigateur, Xcode ou tests parallèles.
Le Mac distant simplifie aussi la partie humaine : SSH pour scripts, VNC pour contrôles graphiques, Safari pour captures, stockage local pour caches et artefacts. Avec neokvm, le même hôte bare metal garde dépôt, paquets, simulateurs et preuves, sans reconstruire tout l’environnement à chaque tour.
Donnez à votre agent harness un espace Mac mini M4 stable
Louez un Mac neokvm dédié pour agents de code, tests navigateur, tâches Xcode et boucles de vérification longues. Commencez par un nœud adapté, puis augmentez la flotte lorsque le harnais prouve sa valeur.