Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Este estudio presenta la primera auditoría sistemática de las "APIs sombra" que prometen acceso a modelos de lenguaje avanzados, revelando mediante evidencia directa e indirecta prácticas engañosas que incluyen divergencias de rendimiento, comportamientos de seguridad impredecibles y fallos de verificación de identidad, lo que compromete gravemente la validez de la investigación científica y perjudica tanto a los usuarios como a los proveedores oficiales.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Este estudio evalúa por primera vez la influencia académica y la calidad del código de 31 benchmarks de seguridad en LLM, revelando que, aunque los benchmarks no superan a otros trabajos en impacto académico, existe una desconexión significativa entre la prominencia de los autores y la calidad del código, evidenciando una necesidad urgente de mejorar la reutilización y los estándares éticos en los repositorios.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

El artículo presenta iScript, un modelo de lenguaje grande adaptado al dominio para la generación de scripts Tcl en diseño físico, junto con el benchmark iScript-Bench y una pipeline de síntesis de datos que, mediante entrenamiento especializado y un marco de verificación de dos pasos, supera a los modelos de lenguaje de última generación en la tarea de generación de scripts para EDA.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

Este trabajo presenta CLARC, un nuevo benchmark automatizado en C/C++ derivado de repositorios reales de GitHub que, al evaluar modelos de búsqueda de código bajo condiciones desafiantes como la anonimización de identificadores y la compilación a lenguajes de bajo nivel, revela la dependencia persistente de los modelos actuales en características léxicas en lugar de una comprensión semántica profunda.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

El artículo presenta "Vibe Code Bench", un nuevo benchmark que evalúa la capacidad de 16 modelos de IA avanzados para desarrollar aplicaciones web completas de principio a fin mediante agentes autónomos, revelando que la fiabilidad en este proceso sigue siendo un desafío significativo y destacando la importancia de la autoevaluación durante la generación y la alineación de los evaluadores.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Este artículo evalúa el rendimiento de GPT-4, Claude 3 y Gemini en la generación automática de escenarios de Desarrollo Dirigido por Comportamientos (BDD) a partir de un conjunto de datos de 500 historias de usuario, revelando que, aunque GPT-4 supera en métricas de similitud, Claude 3 obtiene las mejores calificaciones en evaluación humana y mediante LLM, mientras que la calidad del resultado depende críticamente de la especificidad de los requisitos de entrada y de la configuración de parámetros y técnicas de prompting adecuadas para cada modelo.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Este estudio cualitativo identifica seis arquetipos de Oficinas de Programas de Código Abierto (OSPO) en el sector público europeo, proporcionando orientación práctica sobre cómo diseñar estas unidades para fomentar la adopción de software de código abierto, la soberanía digital y la mejora de los servicios públicos.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

RepoLaunch es un agente pionero que automatiza la compilación, la resolución de dependencias y la ejecución de pruebas en repositorios de código de cualquier lenguaje y plataforma, permitiendo la creación escalable de conjuntos de datos para la investigación en ingeniería de software asistida por IA con intervención humana mínima.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Este estudio analiza las motivaciones de los contribuyentes de Stack Overflow en Estados Unidos, China y Rusia antes de la era de los LLM, revelando diferencias culturales significativas donde los estadounidenses se inclinan hacia la autopromoción y los chinos hacia el aprendizaje, con el fin de comprender cómo estas variaciones influyen en la participación y el uso de la plataforma.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Este artículo presenta un marco genérico para evaluar la capacidad de los modelos de lenguaje grandes (LLM) para generar código en lenguajes de dominio específico basados en restricciones, como OCL y Alloy, demostrando que su rendimiento es inferior al de lenguajes generales como Python y que técnicas como la reparación de código o múltiples intentos pueden mejorar significativamente la calidad de los resultados.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Este estudio presenta la primera evaluación empírica a gran escala de la capacidad de los modelos de lenguaje (LLMs) para generar casos de prueba unitarios a nivel de clase, revelando que, aunque las técnicas de razonamiento como GToT mejoran la legibilidad y la compilación en comparación con métodos tradicionales, los altos índices de fallos por alucinación y problemas de mantenibilidad indican que se requieren enfoques híbridos para lograr resultados aptos para producción.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Este trabajo presenta TrashFuzz, un algoritmo de fuzzing de caja negra que genera escenarios realistas de adversarios al manipular la ubicación de objetos comunes en el borde de la carretera para engañar a los sistemas de percepción de vehículos autónomos y provocar violaciones de leyes de tránsito, demostrando su eficacia al inducir infracciones en 15 de 24 leyes probadas en el sistema Apollo.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs