Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

El artículo propone "Traversal-as-Policy", un marco que convierte los registros de ejecución de agentes LLM en árboles de comportamiento con puertas (GBT) ejecutables y verificables, logrando mejorar drásticamente el éxito en tareas complejas, eliminar violaciones de seguridad y reducir costos computacionales al reemplazar la generación libre por una política de control basada en la exploración de macros validadas.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

El documento presenta EigenData, una plataforma multiagente autoevolutiva que automatiza la síntesis, auditoría y reparación de datos para la llamada de funciones, demostrando su eficacia al corregir sistemáticamente el benchmark BFCL-V3 y mejorar la correlación entre las métricas de evaluación y la corrección funcional percibida por humanos.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

El artículo presenta Tool-Genesis, un nuevo marco de evaluación diagnóstico que mide la capacidad de los agentes de lenguaje para crear herramientas desde cero a partir de requisitos abstractos, revelando que incluso los modelos más avanzados sufren una degradación significativa en el rendimiento final debido a errores iniciales en la generación de interfaces y lógica.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

El artículo presenta LTLGuard, una herramienta modular que combina la generación de modelos de lenguaje compactos con verificación simbólica ligera para traducir requisitos informales en especificaciones de lógica temporal lineal (LTL) correctas y sin conflictos.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

El artículo presenta CodeScout, un enfoque de refinamiento de consultas que mejora las tasas de resolución de agentes de software en un 20% al transformar solicitudes mal definidas en problemas contextualizados mediante un análisis previo del código base, sin necesidad de modificar la infraestructura subyacente de los agentes.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder es un nuevo marco de aprendizaje por refuerzo que entrena a modelos de lenguaje grandes para internalizar la capacidad de autocrítica y autocorrección de código de forma autónoma durante la inferencia, logrando un rendimiento de vanguardia en múltiples benchmarks sin depender de oráculos externos ni motores de ejecución.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Este trabajo presenta un enfoque sistemático de IA explicable que transforma los registros de ejecución crudos de agentes de codificación en explicaciones estructuradas y visualmente intuitivas, permitiendo a los desarrolladores identificar la causa raíz de los fallos y proponer soluciones correctas de manera significativamente más rápida y precisa en comparación con los métodos actuales.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

El marco MCCom equilibra la latencia y la precisión en la finalización de código mediante la cascada de un modelo pequeño local con un modelo grande en la nube, activando este último solo cuando es necesario según las acciones del usuario y empleando técnicas de decodificación especulativa y recuperación iterativa para reducir significativamente la latencia y el uso de recursos sin sacrificar la calidad.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

El artículo presenta APIDiffer, el primer marco de prueba diferencial guiado por especificaciones que detecta automáticamente inconsistencias en las APIs de los clientes de Ethereum, logrando una cobertura de código superior y reduciendo las falsas alarmas al identificar y validar 72 errores en la infraestructura crítica de la red.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Este artículo presenta un nuevo marco de modelado de amenazas de privacidad específico para la IA generativa, basado en LINDDUN y desarrollado mediante una revisión sistemática y un estudio de caso, que amplía la base de conocimientos con 100 ejemplos y valida su eficacia en un sistema de agentes de IA.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Este trabajo propone adaptar la herramienta Pynguin para ejecutar pruebas automatizadas en subprocesos aislados, lo que permite detectar y generar casos de prueba para fallos que provocan el colapso del intérprete en extensiones C de proyectos Python, logrando así identificar 32 errores previamente desconocidos y aumentar la cobertura de pruebas en un 56,5%.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Este estudio empírico demuestra que el ajuste adecuado de los hiperparámetros en modelos de aprendizaje profundo puede reducir significativamente el consumo de energía sin comprometer el rendimiento, incluso en entornos de entrenamiento paralelo, promoviendo así el desarrollo de inteligencia artificial más sostenible.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Este artículo presenta LoCoEval, el primer benchmark diseñado para evaluar la gestión de contextos conversacionales de largo alcance en el desarrollo de repositorios, identificando las limitaciones de los métodos actuales y proponiendo una solución mejorada que integra información conversacional y del repositorio en una memoria unificada.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi LiMon, 09 Ma💻 cs