ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Le papier présente ToolRosetta, un cadre unifié qui automatise la conversion de dépôts de code open-source en outils MCP standardisés pour permettre aux agents d'IA d'exécuter des tâches complexes avec une intervention humaine minimale, tout en intégrant une couche de sécurité et en surpassant les performances des modèles commerciaux.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

Cette étude de cas démontre que, bien que ChatGPT puisse générer des spécifications de exigences système synthétiques réalistes dans une certaine mesure grâce à des itérations de prompts, les évaluations automatisées par LLM ne peuvent pas remplacer les vérifications approfondies par des experts en raison de contradictions et de lacunes détectées.

Alex R. Mattukat, Florian M. Braun, Horst LichterWed, 11 Ma💻 cs

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

Ce rapport d'expérience présente une approche systématique et des principes fondamentaux pour intégrer efficacement des cours d'ingénierie des exigences dans des curriculums d'ingénierie logicielle destinés aux professionnels, en tenant compte de la nature dynamique et modulaire de ces formations.

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide FucciWed, 11 Ma💻 cs

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Le papier présente EsoLang-Bench, un nouveau benchmark utilisant des langages de programmation ésotériques pour révéler que les grands modèles de langage, bien que performants sur les tâches de codage standards, échouent à démontrer un raisonnement véritable en raison d'une dépendance excessive à la mémorisation des données d'entraînement.

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Cette étude empirique propose une première taxonomie des « Interaction Smells » dans la génération de code collaborative multi-tours avec les LLM, analyse leur distribution sur plusieurs modèles et introduit le cadre InCE pour améliorer la qualité des interactions grâce à l'extraction d'invariants globaux et à des audits pré-génération.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida YeWed, 11 Ma💻 cs

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

Cet article présente iProg, un outil d'induction inductive interactive structurée qui utilise un protocole de communication à double intelligibilité pour collaborer avec des LLMs et des experts humains afin de générer rapidement des systèmes d'analyse de données fiables et interprétables, surpassant les approches Low Code/No Code traditionnelles.

Shraddha Surana, Ashwin Srinivasan, Michael BainTue, 10 Ma💻 cs