SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

El artículo presenta SWE-Fuse, un marco de entrenamiento que fusiona muestras guiadas por descripciones de problemas con otras libres de ellas y utiliza un entrenamiento RLVR sensible a la entropía para superar la falta de descripciones de alta calidad, logrando mejoras significativas en la resolución de problemas de software en el benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Este artículo propone un enfoque híbrido e interpretable basado en redes 1dCNN-GRU y técnicas de IA explicable para la detección, identificación y localización de fallos en sistemas de software automotriz, con el fin de mejorar la eficiencia, reducir costos computacionales y aumentar la confianza en aplicaciones de seguridad crítica.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

En colaboración con Hacon, este estudio presenta un enfoque de IA agéntica que genera automáticamente scripts de prueba de regresión a partir de especificaciones validadas, demostrando mediante análisis industrial que esta herramienta aumenta el rendimiento y reduce el esfuerzo manual mientras mantiene la supervisión humana esencial en entornos ágiles.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

El artículo presenta PostTrainBench, un marco de evaluación que demuestra que, aunque los agentes de IA autónomos pueden mejorar el rendimiento de modelos base durante la fase de post-entrenamiento, su progreso general aún se queda atrás frente a los modelos instruidos oficialmente, al tiempo que revela riesgos significativos como la manipulación de recompensas y la necesidad de un entornos de prueba más seguros.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

Este artículo presenta PromCopilot, un marco basado en modelos de lenguaje grande que utiliza un grafo de conocimiento para traducir consultas en lenguaje natural a PromQL, simplificando así el monitoreo de métricas en sistemas de servicios en línea nativos de la nube.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Este estudio presenta la primera evaluación sistemática con sujetos humanos que demuestra que, aunque los modelos de lenguaje grandes pueden generar especificaciones Gherkin de alta calidad a partir de normativas de seguridad alimentaria, la presencia de omisiones y alucinaciones hace indispensable una revisión humana sistemática en dominios críticos.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

El artículo presenta Compiler.next, un compilador basado en búsqueda diseñado para la era de la Ingeniería de Software 3.0 que transforma intenciones humanas en software funcional mediante la optimización dinámica de arquitecturas cognitivas y modelos de IA, democratizando así el desarrollo de software y permitiendo sistemas automatizados, escalables y adaptativos.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. HassanThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Este artículo presenta OODEval, un nuevo benchmark y métricas unificadas para evaluar la capacidad de diseño orientado a objetos de 29 modelos de lenguaje grande, revelando que, aunque algunos modelos alcanzan un rendimiento cercano al de estudiantes universitarios, aún presentan deficiencias semánticas significativas y están muy por debajo del nivel de los diseñadores humanos expertos.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artículo presenta la primera evaluación exhaustiva del ajuste fino eficiente en parámetros (PEFT) para el análisis de código multitarea, demostrando que un único módulo PEFT compartido puede igualar o superar al ajuste completo con una reducción drástica de costos computacionales y de almacenamiento, aunque su éxito depende críticamente de factores como la estabilidad de las tareas, la arquitectura del modelo y la calidad de los datos.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Este artículo presenta y evalúa cinco estrategias de ingeniería de prompts para reducir las alucinaciones en modelos de lenguaje grandes en entornos industriales, demostrando que métodos como el registro de datos mejorado y la especialización de agentes logran resultados más consistentes y repetibles sin modificar los pesos del modelo.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Este artículo presenta los AIBOMs (Facturas de Materiales de Inteligencia Artificial), una extensión de las SBOMs tradicionales mediante una arquitectura multiagente autónoma que captura el comportamiento en tiempo real y la deriva del entorno para generar afirmaciones de explotabilidad contextualizadas y reproducibles, mejorando así la seguridad de la cadena de suministro de software.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Este artículo presenta FLA³, una plataforma de aprendizaje federado que integra controles de autenticación, autorización y contabilidad para habilitar la investigación clínica global segura y cumplir con las normativas de privacidad sin compartir datos.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

El artículo presenta DUCTILE, un enfoque de orquestación agencial basado en LLM que separa la adaptación dinámica de la ejecución determinista para automatizar tareas de análisis de ingeniería en entornos industriales, logrando resultados correctos y cumpliendo criterios metodológicos mientras supervisa la tensión entre la eliminación de tareas rutinarias y la creación de roles de supervisión exigentes.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI