Process-Centric Analysis of Agentic Software Systems

Este artículo presenta Graphectory, un marco de análisis centrado en procesos que representa las trayectorias de sistemas agénticos como grafos para revelar patrones de razonamiento y estrategias, demostrando que el monitoreo y la intervención en tiempo real basados en este análisis mejoran significativamente las tasas de resolución y reducen la longitud de las trayectorias.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench es un nuevo benchmark impulsado por telemetría real que evalúa modelos de lenguaje grandes en tareas de generación de código ecológicamente válidas, ofreciendo diagnósticos detallados sobre su precisión sintáctica, razonamiento semántico y utilidad práctica para guiar su selección y mejora.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Este estudio demuestra que las métricas espectrales derivadas de redes estructurales extraídas de requisitos mediante procesamiento de lenguaje natural predicen el esfuerzo de integración con una correlación superior a 0,95, superando a las métricas estructurales tradicionales y cerrando una brecha metodológica crítica en la ingeniería de requisitos.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

El artículo presenta GraphSkill, un marco de codificación guiado por agentes que mejora el razonamiento sobre grafos complejos mediante una recuperación jerárquica de documentación técnica y un agente de autodepuración que utiliza casos de prueba generados automáticamente, todo ello respaldado por un nuevo dataset de evaluación.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

El artículo presenta ResearchEnvBench, un nuevo benchmark diseñado para evaluar la capacidad de los agentes autónomos para sintetizar entornos de ejecución funcionales a partir de repositorios de investigación, revelando que los modelos actuales tienen dificultades significativas en la resolución de dependencias y la gestión de versiones.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Este estudio empírico analiza más de 13.000 incidencias en sistemas de IA agéntica para desarrollar y validar una taxonomía exhaustiva de tipos de fallos, síntomas y causas raíz, revelando patrones de propagación críticos derivados de la interacción entre la generación probabilística de los modelos y las restricciones deterministas del sistema.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Este estudio presenta un marco de evaluación multidimensional que revela que, aunque los modelos de lenguaje pequeños (SLMs) pueden ser viables para la arquitectura de software, su capacidad de razonamiento varía significativamente según el tamaño de los parámetros, la estrategia de ajuste fino y la técnica de prompting, estableciendo así una línea base para el despliegue de asistentes arquitectónicos sostenibles en la era de la Ingeniería de Software 2.0.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Este estudio empírico demuestra que las restricciones de despliegue en cuatro modelos de lenguaje grandes no mejoran la veracidad de las citas académicas, ya que la mayoría de las referencias generadas son inexistente o no verificables, lo que subraya la necesidad imperativa de verificar las citas después de la generación antes de integrarlas en revisiones de literatura o herramientas de ingeniería de software.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

Echo es un agente innovador que genera casos de prueba para reproducir errores mediante la recuperación de contexto mejorada con grafos de código, la ejecución automática de pruebas para validar el fallo y la generación de parches, logrando un nuevo estado del arte con una tasa de éxito del 66,28% en SWT-Bench Verified.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

Este estudio cualitativo revela que, en equipos de desarrollo de software remotos e híbridos, la ejecución de las pruebas de regresión depende cada vez más de la documentación, la automatización y la integración de herramientas para facilitar la colaboración asíncrona, sustituyendo las interacciones informales presenciales por mecanismos estandarizados de comunicación y trazabilidad.

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Este estudio presenta la primera evaluación exhaustiva de diversas representaciones de código para la predicción de corrección de parches, demostrando que las representaciones basadas en grafos superan consistentemente a otras y que su integración con representaciones heurísticas mejora significativamente la detección de parches incorrectos en herramientas de reparación automática de programas.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

El artículo presenta AgentRaft, un marco automatizado que combina análisis de programas y razonamiento semántico para detectar y mitigar el riesgo de sobreexposición de datos en agentes LLM, logrando una alta precisión en la identificación de violaciones de privacidad en herramientas del mundo real.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

KCoEvo es un marco de trabajo aumentado con grafos de conocimiento que mejora la generación evolutiva de código mediante la recuperación de rutas de migración y la generación informada por estas, superando a los modelos de lenguaje estándar en precisión y éxito de ejecución al abordar la obsolescencia de APIs.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

Este estudio investiga cómo la ofuscación de código afecta la comprensión humana mediante una tarea de predicción de salidas en Python y JavaScript, revelando que, aunque generalmente aumenta el tiempo de razonamiento y reduce la precisión, su impacto no es estrictamente monotónico y varía según el lenguaje, sugiriendo que los desafíos de la ofuscación dependen más de la familiaridad específica con el lenguaje que de la capacidad general de programación.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs