cs.SE artículos | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

El artículo propone "Traversal-as-Policy", un marco que convierte los registros de ejecución de agentes LLM en árboles de comportamiento con puertas (GBT) ejecutables y verificables, logrando mejorar drásticamente el éxito en tareas complejas, eliminar violaciones de seguridad y reducir costos computacionales al reemplazar la generación libre por una política de control basada en la exploración de macros validadas.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

El documento presenta EigenData, una plataforma multiagente autoevolutiva que automatiza la síntesis, auditoría y reparación de datos para la llamada de funciones, demostrando su eficacia al corregir sistemáticamente el benchmark BFCL-V3 y mejorar la correlación entre las métricas de evaluación y la corrección funcional percibida por humanos.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

El artículo presenta Tool-Genesis, un nuevo marco de evaluación diagnóstico que mide la capacidad de los agentes de lenguaje para crear herramientas desde cero a partir de requisitos abstractos, revelando que incluso los modelos más avanzados sufren una degradación significativa en el rendimiento final debido a errores iniciales en la generación de interfaces y lógica.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

Este artículo presenta la primera taxonomía a gran escala de fallos en servidores MCP, basada en evidencia empírica y validada mediante una encuesta a expertos, que identifica cinco categorías de errores específicos para guiar el desarrollo de sistemas de IA más robustos y seguros.

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

El artículo presenta LTLGuard, una herramienta modular que combina la generación de modelos de lenguaje compactos con verificación simbólica ligera para traducir requisitos informales en especificaciones de lógica temporal lineal (LTL) correctas y sin conflictos.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

El artículo presenta CodeScout, un enfoque de refinamiento de consultas que mejora las tasas de resolución de agentes de software en un 20% al transformar solicitudes mal definidas en problemas contextualizados mediante un análisis previo del código base, sin necesidad de modificar la infraestructura subyacente de los agentes.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder es un nuevo marco de aprendizaje por refuerzo que entrena a modelos de lenguaje grandes para internalizar la capacidad de autocrítica y autocorrección de código de forma autónoma durante la inferencia, logrando un rendimiento de vanguardia en múltiples benchmarks sin depender de oráculos externos ni motores de ejecución.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Este trabajo presenta un enfoque sistemático de IA explicable que transforma los registros de ejecución crudos de agentes de codificación en explicaciones estructuradas y visualmente intuitivas, permitiendo a los desarrolladores identificar la causa raíz de los fallos y proponer soluciones correctas de manera significativamente más rápida y precisa en comparación con los métodos actuales.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

El marco MCCom equilibra la latencia y la precisión en la finalización de código mediante la cascada de un modelo pequeño local con un modelo grande en la nube, activando este último solo cuando es necesario según las acciones del usuario y empleando técnicas de decodificación especulativa y recuperación iterativa para reducir significativamente la latencia y el uso de recursos sin sacrificar la calidad.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

El artículo presenta APIDiffer, el primer marco de prueba diferencial guiado por especificaciones que detecta automáticamente inconsistencias en las APIs de los clientes de Ethereum, logrando una cobertura de código superior y reduciendo las falsas alarmas al identificar y validar 72 errores en la infraestructura crítica de la red.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

Este artículo propone un enfoque basado en Procesamiento de Lenguaje Natural y Modelos de Lenguaje Grande para detectar y clasificar la alineación semántica entre especificaciones textuales y modelos de dominio, logrando una alta precisión y un recall del 78% en la identificación de elementos correctos, incorrectos o no clasificados.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

Este estudio establece una línea base cuantitativa de la satisfacción de los desarrolladores y la autonomía de las herramientas en 2022, revelando que la elección libre de IDE es el predictor más fuerte de satisfacción y proporcionando un punto de referencia crucial para medir el impacto de la IA generativa en la productividad y la retención de herramientas.

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Este artículo presenta un nuevo marco de modelado de amenazas de privacidad específico para la IA generativa, basado en LINDDUN y desarrollado mediante una revisión sistemática y un estudio de caso, que amplía la base de conocimientos con 100 ejemplos y valida su eficacia en un sistema de agentes de IA.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Este trabajo propone adaptar la herramienta Pynguin para ejecutar pruebas automatizadas en subprocesos aislados, lo que permite detectar y generar casos de prueba para fallos que provocan el colapso del intérprete en extensiones C de proyectos Python, logrando así identificar 32 errores previamente desconocidos y aumentar la cobertura de pruebas en un 56,5%.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Este estudio empírico demuestra que el ajuste adecuado de los hiperparámetros en modelos de aprendizaje profundo puede reducir significativamente el consumo de energía sin comprometer el rendimiento, incluso en entornos de entrenamiento paralelo, promoviendo así el desarrollo de inteligencia artificial más sostenible.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Este estudio demuestra que los modelos de lenguaje grande pueden estimar puntos de historia en proyectos de software con mayor precisión que los modelos de aprendizaje profundo tradicionales sin datos de entrenamiento, y que su rendimiento mejora aún más al utilizar ejemplos de juicios comparativos en configuraciones de pocos ejemplos.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs

A Generalized Feature Model for Digital Twins

Este artículo presenta un modelo de características generalizado para Gemelos Digitales, desarrollado a partir de un estudio sistemático y validado mediante casos de uso en los ámbitos de emergencias, vehículos y manufactura, con el objetivo de facilitar la toma de decisiones, el desarrollo y la verificación de estas tecnologías.

Philipp Zech, Yanis Mair, Michael Vierhauser, Pablo Oliveira Antonino, Frank Schnicke, Tony ClarkMon, 09 Ma💻 cs

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Este artículo presenta LoCoEval, el primer benchmark diseñado para evaluar la gestión de contextos conversacionales de largo alcance en el desarrollo de repositorios, identificando las limitaciones de los métodos actuales y proponiendo una solución mejorada que integra información conversacional y del repositorio en una memoria unificada.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi LiMon, 09 Ma💻 cs

A Reference Architecture of Reinforcement Learning Frameworks

Este artículo propone una arquitectura de referencia para los marcos de aprendizaje por refuerzo, derivada del análisis de 18 implementaciones de vanguardia mediante teoría fundamentada, con el fin de estandarizar su comparación, evaluación e integración.

Xiaoran Liu, Istvan DavidMon, 09 Ma🤖 cs.AI

Understanding and Finding JIT Compiler Performance Bugs

Este trabajo presenta el primer estudio empírico de errores de rendimiento en compiladores JIT y propone una técnica de prueba diferencial automatizada, implementada en la herramienta Jittery, que ha permitido descubrir y confirmar múltiples errores de rendimiento previamente desconocidos.

Zijian Yi, Cheng Ding, August Shi, Milos GligoricMon, 09 Ma💻 cs

← Anterior Siguiente →