Can AI Agents Generate Microservices? How Far are We?

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef d'orchestre (l'architecte logiciel) qui veut construire un nouveau quartier dans une ville existante. Chaque maison de ce quartier est un microservice : une petite application indépendante qui doit communiquer parfaitement avec ses voisins pour que la ville fonctionne.

Jusqu'à récemment, construire ces maisons demandait des années d'études et des plans très précis. Mais aujourd'hui, nous avons fait appel à des ouvriers intelligents et autonomes : les Agents IA.

Cette étude cherche à répondre à une question simple : Ces ouvriers robots peuvent-ils construire ces maisons seuls, sans qu'on ait à leur tenir la main à chaque brique ?

Voici ce que les chercheurs ont découvert, expliqué comme une histoire de construction.

1. Le Grand Expérience : Deux Scénarios de Construction

Les chercheurs ont testé 3 types d'ouvriers robots (Claude, Codex, et Qwen) sur 4 chantiers différents. Ils ont utilisé deux méthodes de travail très différentes :

Scénario A : La Rénovation (Génération "Incremental")
- L'analogie : Vous donnez à l'ouvrier une maison existante dans un quartier déjà construit. Il doit ajouter une nouvelle pièce (le microservice) en respectant les tuyaux, les câbles et le style des maisons voisines.
- Le défi : Il ne doit pas casser les connexions existantes.
- Le résultat : C'est plus difficile qu'on ne le pense ! Les robots ont réussi environ 50 à 76 % du temps. Paradoxalement, plus on leur donnait de détails précis sur la maison existante, moins ils réussissaient bien. Ils avaient tendance à se fier trop à la description et à oublier de regarder les vrais tuyaux dans les murs.
Scénario B : Le Nouveau Quartier (Génération "Clean State")
- L'analogie : Vous donnez à l'ouvrier un terrain vague et un cahier des charges (ex: "Il faut une boulangerie"). Il n'y a aucune maison autour, pas de tuyaux existants. Il doit tout inventer de zéro.
- Le défi : Il doit imaginer la structure lui-même.
- Le résultat : Là, les robots ont été étonnants ! Ils ont réussi 81 à 98 % du temps. Pourquoi ? Parce qu'ils étaient libres de construire exactement comme ils l'entendaient, sans avoir à s'adapter à des contraintes invisibles d'une maison voisine.

2. La Qualité du Bâtiment

Des maisons plus simples ? Oui. Les maisons construites par les robots étaient souvent plus simples et moins complexes que celles construites par des humains. C'est comme si les robots avaient tendance à faire des maisons minimalistes : pas de décorations inutiles, juste l'essentiel.
Est-ce que ça tient ? Parfois, oui. Mais attention : un robot peut construire une boulangerie qui fonctionne parfaitement à l'intérieur, mais qui n'a pas la bonne porte pour que les clients entrent (problème de contrat d'API). C'est là qu'un humain doit vérifier.

3. La Vitesse et le Prix (L'efficacité)

Tous les robots ne se valent pas pour le même travail :

Le Robot Rapide et Économe (Code Qwen) : Il travaille vite (environ 7 minutes par maison) et coûte très cher (environ 3 $). C'est le "bon marché" de la construction.
Le Robot Précieux (Claude Code) : Il est aussi rapide, mais il coûte beaucoup plus cher (environ 13 $). Cependant, il écrit des plans très concis et précis.
Le Robot Lourd (Codex) : Il prend beaucoup de temps (parfois plus d'une heure pour une seule maison !) et coûte cher. Il a tendance à écrire des plans très longs et détaillés, mais ce n'est pas toujours mieux.

Leçon importante : Le fait qu'un robot écrive beaucoup de texte (des plans très longs) ne signifie pas que la maison sera meilleure. Parfois, le robot le plus rapide et le plus court fait le meilleur travail.

4. Les Pièges à Éviter

Les chercheurs ont découvert quelques pièges amusants mais sérieux :

La Maladie de la Mémoire : Les robots sont très forts sur les projets célèbres (comme "Train-Ticket" ou "PiggyMetrics") qu'ils ont déjà vus dans leur entraînement. C'est comme s'ils avaient mémorisé les plans de ces maisons spécifiques. Mais dès qu'on leur donne un projet privé et nouveau (comme un projet d'étudiant), ils sont beaucoup moins performants. Ils ne "comprennent" pas vraiment, ils "rappellent".
Le Piège des Détails : Dans le scénario de rénovation, donner trop de détails à l'ouvrier (un résumé détaillé) l'a parfois empêché de réussir. Il se focalisait sur le résumé et oubliait de vérifier la réalité du terrain. Mieux vaut lui donner juste le nom de la pièce et le laisser explorer.

Conclusion : Où en sommes-nous ?

Les Agents IA sont devenus d'excellents maçons capables de construire des microservices fonctionnels et propres. Ils peuvent même le faire plus vite et avec moins de complexité que certains humains.

MAIS, nous ne sommes pas encore au stade où l'on peut leur dire "Construis-moi un quartier" et partir en vacances.

Ils ont besoin d'un chef de chantier humain pour vérifier que les portes s'ouvrent bien vers les voisins (les contrats API).
Ils ne sont pas encore fiables à 100 % sur des projets nouveaux et obscurs.

En résumé : L'IA est un super-assistant qui peut faire 80 % du travail, mais l'architecte humain doit rester là pour valider les 20 % restants qui font la différence entre une maison solide et une catastrophe.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La génération automatique de systèmes exécutables à partir de descriptions d'architecture est un objectif central en ingénierie logicielle. Bien que les modèles de langage (LLM) aient fait des progrès significatifs dans la génération de code, leur capacité à générer des microservices complets — qui impliquent une logique interne complexe, des contrats d'API stricts et une intégration inter-services — reste peu étudiée.

Les défis spécifiques aux microservices incluent :

La nécessité de respecter des contrats d'API rigoureux pour assurer la communication entre services.
La gestion de la cohérence globale (intégration) tout en garantissant la correction locale (logique du service).
Le manque d'outils de développement robustes pour soutenir les agents IA dans ces tâches complexes, au-delà de la simple complétion de code.

L'étude vise à évaluer si les agents IA (qui utilisent des boucles de rétroaction, des outils et une itération) peuvent générer des microservices fonctionnels et de haute qualité, et comment le contexte informationnel influence leurs performances.

2. Méthodologie de l'Étude

Les auteurs ont conçu une expérience empirique rigoureuse évaluant 144 microservices générés à travers plusieurs variables :

Agents IA Évalués (3) :
- Claude Code (Modèle propriétaire, accès par abonnement/API).
- Codex (GPT-5, modèle propriétaire, accès par abonnement/API).
- Code Qwen (Modèle open-source, qwen3-coder).
Projets Cibles (4) :
- Deux projets open-source populaires (PiggyMetrics, Train-Ticket).
- Deux projets privés (issus de travaux étudiants, TeamSync, Project Management).
Scénarios de Génération (2) :
1. Génération Incrémentale : Le service cible est supprimé d'un système existant. L'agent a accès à l'architecture, aux tests et aux contrats d'API existants. Évalué via des tests unitaires.
2. Génération "Clean State" (État Propre) : Le service est généré uniquement à partir des spécifications de besoins, sans accès au code existant. L'agent doit déduire l'architecture. Évalué via des tests d'intégration (tests des services consommateurs).
Stratégies de Prompting (2) :
- P1 (Contexte Minimal) : Nom du service + chemin des besoins. L'agent doit explorer le codebase.
- P2 (Contexte Détaillé) : Ajout d'un résumé d'implémentation généré précédemment (portée fonctionnelle, responsabilités API, etc.).
Métriques d'Évaluation :
- Correction Fonctionnelle : Taux de réussite des tests (unitaires ou d'intégration).
- Qualité du Code : Complexité cyclomatique, complexité cognitive, lignes de code (SLOC) via SonarQube.
- Efficacité : Temps de génération, coût monétaire, consommation de tokens.

3. Contributions Principales

Première étude empirique sur la génération de microservices par des agents IA dans différents scénarios contextuels.
Analyse comparative de l'efficacité (temps, coût, tokens) entre des agents propriétaires et open-source.
Identification des limites de l'autonomie totale, soulignant la nécessité d'une supervision humaine pour la conformité aux contrats d'API.

4. Résultats Clés

A. Correction Fonctionnelle (RQ1)

Génération Incrémentale : Les agents ont obtenu des taux de réussite de 50 % à 76 % aux tests unitaires.
- Surprise : Les prompts minimaux (P1) ont souvent surperformé les prompts détaillés (P2). Les résumés détaillés ont parfois "ancré" l'agent sur des informations de haut niveau, le faisant ignorer des détails d'implémentation critiques (ex: convertisseurs MongoDB spécifiques), entraînant des échecs de compilation ou de test.
- Codex a obtenu les meilleurs résultats en incrémental (75,9 % avec P1).
Génération "Clean State" : Les taux de réussite aux tests d'intégration sont beaucoup plus élevés (81 % à 98 %).
- Cela suggère que les agents sont capables de respecter les contrats d'API et la logique métier même sans contexte de code existant.
- Claude Code a montré une grande cohérence (97,8 % de réussite).
- Code Qwen a échoué à générer du code dans certains cas avec P1 (boucles infinies), mais a récupéré avec P2, prouvant que le guidage explicite aide les modèles moins performants.

B. Qualité du Code

Le code généré présente systématiquement une complexité plus faible (cyclomatique et cognitive) que les implémentations humaines de base (réductions de 15 à 40 %).
Le nombre de lignes de code (SLOC) est comparable ou légèrement inférieur.
Conclusion : Les agents produisent du code plus concis et potentiellement plus lisible, mais cela ne garantit pas toujours la couverture de cas limites ou la robustesse défensive.

C. Efficacité (RQ2)

Temps : Claude Code et Code Qwen sont rapides (~~7-8 min par service). Codex est beaucoup plus lent (~~16,6 min en moyenne) avec des pics inquiétants atteignant 1h44, posant des problèmes de fiabilité pour la production.
Coût : Code Qwen est le plus économique (~3 $/service). *Claude Code* est le plus cher (~13$ /service), bien qu'il génère moins de tokens de sortie (code plus concis).
Verbeux vs Correct : Il n'y a pas de corrélation entre la longueur du code (nombre de tokens) et la correction fonctionnelle. Claude Code génère peu de tokens mais obtient d'excellents résultats.

5. Signification et Implications

Autonomie Limitée : Bien que les agents puissent générer des microservices fonctionnels et maintenables, la génération entièrement autonome n'est pas encore réalisable. Une supervision humaine est cruciale, notamment pour valider la conformité aux contrats d'API et gérer les cas où les agents "s'ancrent" sur des résumés incorrects.
Importance du Contexte : L'approche "Clean State" (à partir des besoins uniquement) semble paradoxalement plus robuste pour l'intégration que la génération incrémentale dans certains cas, car elle évite les conflits de structure avec le code existant, mais elle exige une compréhension parfaite des besoins.
Biais de Contamination : Les agents performent nettement mieux sur des projets open-source populaires (probablement présents dans leurs données d'entraînement) que sur des projets privés, soulignant le besoin de benchmarks privés pour une évaluation réaliste.
Recommandations pour la Pratique :
- Ne pas suivre des règles de "prompting" universelles ; tester empiriquement (P1 vs P2) selon l'agent et le scénario.
- Mettre en place des limites de temps (timeout) pour éviter les blocages longs (surtout avec Codex).
- Prioriser la fiabilité et la correction plutôt que le coût, car l'économie réalisée est faible par rapport au temps de développement humain.

Conclusion

L'étude conclut que les agents IA sont des outils puissants pour accélérer le développement de microservices, produisant un code de qualité égale ou supérieure en termes de complexité. Cependant, leur fiabilité reste dépendante du contexte (incrémental vs état propre) et du type d'agent. L'avenir réside dans le développement de benchmarks spécifiques à l'architecture et de modèles de collaboration humain-agent mieux définis pour gérer les compromis systémiques.