cs.SE artículos | Gist.Science

Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators

Once4All es un nuevo marco de fuzzing asistido por LLM que sintetiza generadores de términos reutilizables a partir de gramáticas extraídas de la documentación para producir fórmulas SMT sintácticamente válidas y semánticamente diversas con un único costo de interacción, logrando así descubrir y ayudar a corregir 43 errores en los solucionadores Z3 y cvc5.

Maolin Sun, Yibiao Yang, Yuming ZhouFri, 13 Ma🤖 cs.AI

Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics

Este estudio revela una desconexión entre el enfoque académico, las prioridades de la industria y el comportamiento observado de los modelos de lenguaje grandes en cuanto a las características de calidad no funcionales del código generado, destacando la necesidad urgente de integrar mecanismos de aseguramiento de calidad para evitar la acumulación de deuda técnica.

Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph KesslerFri, 13 Ma🤖 cs.AI

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

El paper presenta DIVE, un enfoque basado en evidencia que invierte el orden de síntesis de tareas para priorizar la diversidad estructural en lugar de la cantidad, logrando una generalización superior en el uso de herramientas para modelos de lenguaje al entrenar con datos derivados de trazas de ejecución reales.

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua XiaoFri, 13 Ma🤖 cs.AI

CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents

El artículo presenta CR-Bench y CR-Evaluator, un conjunto de datos y un protocolo de evaluación detallado para analizar agentes de revisión de código impulsados por IA, revelando que una búsqueda excesiva de errores puede generar falsos positivos que oscurecen el progreso real y la productividad en entornos de ingeniería de software.

Kristen Pereira, Neelabh Sinha, Rajat Ghosh, Debojyoti DuttaFri, 13 Ma💬 cs.CL

Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain

Este artículo presenta Questions-of-Thoughts (QoT), un método de razonamiento auto-evaluativo que mejora la calidad, modularidad y seguridad del diseño de software asistido por LLMs mediante la descomposición de objetivos en pasos de ingeniería y la verificación iterativa de restricciones, demostrando mejoras significativas en dominios complejos como APIs y sistemas de archivos.

Yen-Ku Liu, Yun-Cheng TsaiFri, 13 Ma🤖 cs.AI

Resolving Java Code Repository Issues with iSWE Agent

El artículo presenta iSWE Agent, un sistema automatizado que combina técnicas basadas en reglas de análisis estático de Java con modelos de lenguaje para resolver problemas en repositorios de código, logrando un rendimiento superior al estado del arte específicamente en proyectos escritos en Java.

Jatin Ganhotra, Sami Serhan, Antonio Abu Nassar, Avraham Shinnar, Ziv Nevo, Martin HirzelFri, 13 Ma🤖 cs.AI

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

El artículo propone un marco sistemático para operacionalizar las normas sociales, legales, éticas, empáticas y culturales (SLEEC) en agentes de IA, cerrando la brecha entre los principios abstractos y los requisitos verificables para garantizar su alineación con los valores humanos en dominios de alto riesgo.

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley TownsendFri, 13 Ma🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Este artículo presenta un método automatizado y de bajo costo que utiliza agentes de IA para generar implementaciones de entornos de aprendizaje por refuerzo de alto rendimiento, logrando aceleraciones masivas y verificando su equivalencia semántica mediante validación jerárquica.

Seth Karten, Rahul Dev Appapogu, Chi JinFri, 13 Ma🤖 cs.LG

Quantum Computing for All: Online Courses Built Around Interactive Visual Quantum Circuit Simulator

Este artículo presenta un curso en línea diseñado para democratizar el aprendizaje de la computación cuántica mediante un simulador interactivo de circuitos que ofrece retroalimentación inmediata y tareas evaluadas automáticamente, eliminando así la barrera de entrada para estudiantes sin conocimientos previos de física cuántica.

Juha Reinikainen, Vlad Stirbu, Teiko Heinosaari + 2 more2026-03-11⚛️ quant-ph

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Este artículo presenta ScenarioFuzz, un método pionero de fuzzing basado en escenarios que utiliza datos históricos y redes neuronales gráficas para orquestar pruebas de seguridad en sistemas de conducción autónoma, logrando reducir los costos de tiempo en un 60,3% y descubrir un 103% más de escenarios de error por unidad de tiempo, identificando además 58 errores en seis sistemas probados.

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

LAMBDA: A Large Model Based Data Agent

El artículo presenta LAMBDA, un sistema de análisis de datos multiagente de código abierto y sin necesidad de programación que utiliza modelos de lenguaje grandes, roles especializados de programador e inspector, y mecanismos de integración de conocimiento para facilitar la colaboración entre humanos e inteligencia artificial en tareas de análisis de datos.

Maojun Sun, Ruijian Han, Binyan Jiang + 4 more2026-03-10🤖 cs.AI

Exploration of Evolving Quantum Key Distribution Network Architecture Using Model-Based Systems Engineering

Este trabajo propone un marco basado en la ingeniería de sistemas y la modelización de variabilidad para gestionar la evolución de las arquitecturas de redes de distribución de claves cuánticas, facilitando su integración con infraestructuras clásicas y garantizando la seguridad ante las amenazas de la computación cuántica.

Hayato Ishida, Amal Elsokary, Maria Aslam + 3 more2026-03-10⚛️ quant-ph

Real-Time BDI Agents: a model and its implementation

Este artículo redefine el bucle de control de los agentes BDI integrando restricciones temporales explícitas para garantizar respuestas efectivas en entornos de tiempo real, validando el modelo mediante su implementación en un videojuego de recolección de recursos.

Andrea Traldi, Francesco Bruschetti, Marco Robol + 3 more2026-03-06💻 cs

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

El artículo presenta AUTOTEE, un enfoque basado en modelos de lenguaje grande (LLM) que automatiza la identificación, transformación y portabilidad de funciones sensibles hacia Entornos de Ejecución de Confianza (TEE) con alta precisión y tasas de éxito en Java y Python, reduciendo así la necesidad de intervención manual y conocimientos especializados.

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

Este estudio presenta un marco de evaluación a gran escala que demuestra que la capacidad de los modelos de lenguaje grandes para localizar fallos es frágil y depende en gran medida de señales sintéticas irrelevantes en lugar de un razonamiento semántico profundo, ya que la mayoría de las localizaciones exitosas fallan al aplicar mutaciones que preservan la semántica.

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

MioHint: LLM-assisted Mutation for Whitebox API Testing

MioHint es un enfoque innovador de pruebas de API de caja blanca que supera las limitaciones de los métodos existentes al combinar el análisis estático con la comprensión de código de los Grandes Modelos de Lenguaje (LLM) para recuperar solo el código relevante, logrando así mejoras significativas en la cobertura de líneas y la precisión de mutación en servicios REST reales.

Jia Li, Jiacheng Shen, Yuxin Su + 1 more2026-03-06💻 cs

Vision Language Model-based Testing of Industrial Autonomous Mobile Robots

Este artículo presenta RVSG, un enfoque de prueba basado en Modelos de Lenguaje Visual (VLM) desarrollado junto con PAL Robotics para generar escenarios de comportamiento humano que violan los requisitos de seguridad de los Robots Móviles Autónomos (AMR) industriales en simulación, permitiendo así identificar comportamientos inciertos de manera segura y eficiente.

Jiahui Wu, Chengjie Lu, Aitor Arrieta + 2 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

El artículo presenta RefAgent, un marco de trabajo basado en agentes LLM multiagente para la refactorización automática de software que, tras ser evaluado en proyectos Java, demuestra superar significativamente a los enfoques de agente único y herramientas tradicionales al mejorar la calidad del código, reducir los "code smells" y lograr una alta tasa de éxito en pruebas unitarias.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

Toward architecting self-coding information systems

Este artículo propone el concepto de sistemas de información auto-codificantes, una nueva área de investigación en IA agéntica que permite la adaptación dinámica, la generación de código y el despliegue autónomo en tiempo de ejecución para reducir el tiempo de comercialización de nuevas funcionalidades.

Rodrigo Falcão, Frank Elberzhager, Karthik Vaidhyanathan2026-03-06💻 cs

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Este estudio de seguimiento ocular con 32 novatos en Java revela que, aunque la extracción de métodos mejora el rendimiento en tareas complejas, puede perjudicar el desempeño y aumentar la carga cognitiva en tareas simples debido a la navegación excesiva, lo que sugiere precaución al modularizar código para principiantes.

José Aldo Silva da Costa, Rohit Gheyi, José Júnior Silva da Costa + 5 more2026-03-06💻 cs

← Anterior Siguiente →