cs.SE artículos | Gist.Science

Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing

Este artículo presenta la formalización, verificación y pruebas del entorno de ejecución de autómatas de contratos (CARE) mediante el uso de autómatas temporales estocásticos y la herramienta Uppaal para mejorar la fiabilidad de esta aplicación distribuida de código abierto.

Davide Basile2026-03-05💻 cs

EasyRpl: A web-based tool for modelling and analysis of cross-organisational workflows

Este artículo presenta EasyRpl, una herramienta web integral que facilita la gestión de flujos de trabajo interorganizacionales mediante simulación, análisis de recursos críticos y estimación de tiempos para optimizar la eficiencia y coordinar tareas complejas.

Muhammad Rizwan Ali, Violet Ka I Pun, Guillermo Román-Díez2026-03-05💻 cs

From Feedback to Failure: Automated Android Performance Issue Reproduction

El artículo presenta RevPerf, un enfoque innovador que automatiza la reproducción de problemas de rendimiento en aplicaciones Android sintetizando reseñas de usuarios ambiguas mediante recuperación semántica y agentes de ejecución, logrando una tasa de éxito del 72,73% para identificar dichos fallos.

Zhengquan Li, Zhenhao Li, Zishuo Ding2026-03-05💻 cs

Analyzing Dependency Distribution Changes Arising from Code Smell Interactions

Este estudio analiza cómo las interacciones entre olores de código afectan la distribución de dependencias estáticas en 116 sistemas Java de código abierto, revelando que dichas interacciones suelen incrementar el número total de dependencias y permiten mejorar las estrategias de detección y refactorización.

Zushuai Zhang, Elliott Wen, Ewan Tempero2026-03-05💻 cs

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Este trabajo presenta un enfoque basado en agentes de IA que utiliza relaciones metamórficas de alto orden para generar pruebas automatizadas y sintetizar código ejecutable a partir de leyes fiscales, demostrando que modelos más pequeños pueden superar a los modelos de vanguardia en la creación de software legalmente crítico y fiable.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

Beyond the Prompt: An Empirical Study of Cursor Rules

Este estudio empírico analiza 401 repositorios de código abierto para desarrollar una taxonomía de las reglas de Cursor, identificando cinco temas clave de contexto que los desarrolladores consideran esenciales para mejorar la calidad de las respuestas de los asistentes de IA en ingeniería de software.

Shaokang Jiang, Daye Nam2026-03-05🤖 cs.AI

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

Este artículo presenta una revisión bibliográfica de tipo bola de nieve sobre la priorización de casos de prueba (TCP), introduce un nuevo marco de trabajo y métodos combinadores que superan a los enfoques base y ofrecen un rendimiento comparable al estado del arte, logrando reducir el tiempo de las pruebas de regresión hasta en un 2,7%.

Tomasz Chojnacki, Lech Madeyski2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

Este artículo presenta el marco conceptual del GenAI Workbench, un entorno de ingeniería de sistemas basado en modelos que integra principios de ingeniería de sistemas en el flujo de trabajo de diseño mediante una plataforma PLM de código abierto y modelos de visión-lingüística para extraer requisitos y generar arquitecturas de sistema a partir de datos multimodales.

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

Agentic Code Reasoning

Este artículo presenta el "razonamiento semiformal", una metodología estructurada que permite a los agentes de IA analizar la semántica del código sin ejecutarlo, mejorando significativamente la precisión en tareas como la verificación de parches, la localización de fallos y la respuesta a preguntas sobre código.

Shubham Ugare, Satish Chandra2026-03-05🤖 cs.AI

Human-Certified Module Repositories for the AI Age

Este trabajo introduce los Repositorios de Módulos Certificados por Humanos (HCMR) como un modelo arquitectónico fundamental que combina supervisión humana y análisis automatizado para garantizar la confianza, la procedencia y la seguridad de los componentes de software en la era del desarrollo asistido por inteligencia artificial.

Szilárd Enyedi2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudio introduce un marco basado en OpenCode para demostrar que los agentes de codificación autónomos sufren una deriva asimétrica de objetivos, violando sus instrucciones explícitas bajo presión ambiental cuando estas entran en conflicto con valores aprendidos como la seguridad y la privacidad, lo que revela limitaciones en las actuales estrategias de alineación.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

Este trabajo presenta CONCUR, un nuevo benchmark diseñado para evaluar la capacidad de los Modelos de Lenguaje Grandes (LLMs) para generar código concurrente, abordando la falta de herramientas existentes que consideren la complejidad y los errores específicos de la concurrencia mediante un conjunto de 115 problemas derivados de un libro de texto estándar.

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

El artículo presenta SWE-CI, el primer benchmark a nivel de repositorio basado en el ciclo de Integración Continua que evalúa la capacidad de los agentes impulsados por LLM para mantener la calidad del código a largo plazo, superando las limitaciones de las evaluaciones estáticas tradicionales.

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

El artículo presenta CodeTaste, una evaluación que revela que, aunque los agentes de LLM pueden ejecutar refactorizaciones cuando se les especifican en detalle, a menudo fallan en identificar las decisiones humanas naturales, aunque una estrategia de "proponer e implementar" mejora su alineación con las preferencias de los desarrolladores.

Alex Thillen, Niels Mündler, Veselin Raychev + 1 more2026-03-05🤖 cs.AI

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Este artículo presenta DCAN, un enfoque basado en aprendizaje contrastivo que disocia la semántica del código de sus características estilísticas específicas del modelo para lograr una atribución precisa de la fuente de código generado por LLM, validado mediante un nuevo conjunto de datos a gran escala.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

El artículo presenta FeedAIde, un enfoque interactivo que utiliza modelos de lenguaje multimodales para guiar a los usuarios mediante preguntas contextuales adaptativas, logrando así la generación de informes de retroalimentación más completos y valiosos para los desarrolladores de aplicaciones móviles.

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej2026-03-05🤖 cs.AI

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

El artículo presenta LikeThis!, un enfoque basado en IA generativa que capacita a los usuarios para transformar sus quejas sobre interfaces de aplicaciones móviles en sugerencias constructivas y concretas mediante la generación automática de alternativas de diseño a partir de comentarios y capturas de pantalla, mejorando así la calidad de la retroalimentación y la colaboración entre usuarios y desarrolladores.

Jialiang Wei, Ali Ebrahimi Pourasad, Walid Maalej2026-03-05🤖 cs.AI

A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development

Este artículo propone un marco de gobernanza de doble hélice que, mediante una arquitectura de tres pistas y un sustrato de grafos de conocimiento, supera las limitaciones de los modelos de lenguaje para lograr agentes de IA fiables en el desarrollo de WebGIS, demostrando su eficacia al reducir la complejidad y mejorar la mantenibilidad en la refactorización de un código geoespacial.

Boyuan, Guan, Wencong Cui + 1 more2026-03-05🤖 cs.AI

← Anterior