cs.SE artículos | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Este estudio presenta la primera auditoría sistemática de las "APIs sombra" que prometen acceso a modelos de lenguaje avanzados, revelando mediante evidencia directa e indirecta prácticas engañosas que incluyen divergencias de rendimiento, comportamientos de seguridad impredecibles y fallos de verificación de identidad, lo que compromete gravemente la validez de la investigación científica y perjudica tanto a los usuarios como a los proveedores oficiales.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

El artículo presenta LoRA-MME, un sistema de ensamble multi-modelo que combina cuatro codificadores transformer ajustados eficientemente mediante LoRA para la clasificación de comentarios en código, logrando un alto rendimiento semántico pero enfrentando limitaciones de eficiencia computacional en la competencia NLBSE'26.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Este artículo presenta MPBMC, un enfoque híbrido que utiliza redes neuronales gráficas y estadísticas de diseño para agrupar propiedades de manera funcional y acelerar la verificación formal mediante comprobación de modelos acotada.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Este estudio evalúa por primera vez la influencia académica y la calidad del código de 31 benchmarks de seguridad en LLM, revelando que, aunque los benchmarks no superan a otros trabajos en impacto académico, existe una desconexión significativa entre la prominencia de los autores y la calidad del código, evidenciando una necesidad urgente de mejorar la reutilización y los estándares éticos en los repositorios.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

El artículo presenta iScript, un modelo de lenguaje grande adaptado al dominio para la generación de scripts Tcl en diseño físico, junto con el benchmark iScript-Bench y una pipeline de síntesis de datos que, mediante entrenamiento especializado y un marco de verificación de dos pasos, supera a los modelos de lenguaje de última generación en la tarea de generación de scripts para EDA.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

Este trabajo presenta CLARC, un nuevo benchmark automatizado en C/C++ derivado de repositorios reales de GitHub que, al evaluar modelos de búsqueda de código bajo condiciones desafiantes como la anonimización de identificadores y la compilación a lenguajes de bajo nivel, revela la dependencia persistente de los modelos actuales en características léxicas en lugar de una comprensión semántica profunda.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

Este artículo presenta los hallazgos de una encuesta industrial en Wallonia sobre las prácticas actuales, desafíos y brechas en la prueba de robustez de los Sistemas Ciberfísicos, comparándolas con el estado del arte y estudios similares.

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

El artículo presenta "Vibe Code Bench", un nuevo benchmark que evalúa la capacidad de 16 modelos de IA avanzados para desarrollar aplicaciones web completas de principio a fin mediante agentes autónomos, revelando que la fiabilidad en este proceso sigue siendo un desafío significativo y destacando la importancia de la autoevaluación durante la generación y la alineación de los evaluadores.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Este artículo evalúa el rendimiento de GPT-4, Claude 3 y Gemini en la generación automática de escenarios de Desarrollo Dirigido por Comportamientos (BDD) a partir de un conjunto de datos de 500 historias de usuario, revelando que, aunque GPT-4 supera en métricas de similitud, Claude 3 obtiene las mejores calificaciones en evaluación humana y mediante LLM, mientras que la calidad del resultado depende críticamente de la especificidad de los requisitos de entrada y de la configuración de parámetros y técnicas de prompting adecuadas para cada modelo.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger es un agente de IA especializado que combina generación aumentada por recuperación con herramientas de análisis y ejecución deterministas para convertir instrucciones en lenguaje natural en archivos de entrada válidos y ejecutables para el entorno de simulación MOOSE, logrando una tasa de éxito del 93% frente al 8% de los modelos de lenguaje puros.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

El artículo presenta FireBench, un nuevo benchmark de código abierto basado en casos de uso reales empresariales y de API que evalúa la capacidad de seguimiento de instrucciones de 11 modelos de lenguaje en seis dimensiones clave, superando las limitaciones de las evaluaciones centradas únicamente en asistentes de chat.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Este estudio cualitativo identifica seis arquetipos de Oficinas de Programas de Código Abierto (OSPO) en el sector público europeo, proporcionando orientación práctica sobre cómo diseñar estas unidades para fomentar la adopción de software de código abierto, la soberanía digital y la mejora de los servicios públicos.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

Este estudio presenta un sistema de generación automática de personas basado en reseñas de usuarios de tiendas de aplicaciones de realidad virtual, el cual se utilizó en un curso para facilitar la discusión de requisitos de accesibilidad y fomentar una mayor empatía entre los estudiantes.

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

RepoLaunch es un agente pionero que automatiza la compilación, la resolución de dependencias y la ejecución de pruebas en repositorios de código de cualquier lenguaje y plataforma, permitiendo la creación escalable de conjuntos de datos para la investigación en ingeniería de software asistida por IA con intervención humana mínima.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Este estudio analiza las motivaciones de los contribuyentes de Stack Overflow en Estados Unidos, China y Rusia antes de la era de los LLM, revelando diferencias culturales significativas donde los estadounidenses se inclinan hacia la autopromoción y los chinos hacia el aprendizaje, con el fin de comprender cómo estas variaciones influyen en la participación y el uso de la plataforma.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

Este trabajo propone un marco de referencia y una plataforma unificada para evaluar sistemáticamente la calidad, representatividad y idoneidad de los conjuntos de datos de modelos de software, abordando la falta de estandarización actual que limita la comparabilidad y reproducibilidad en la investigación de ingeniería dirigida por modelos.

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Este artículo presenta un marco genérico para evaluar la capacidad de los modelos de lenguaje grandes (LLM) para generar código en lenguajes de dominio específico basados en restricciones, como OCL y Alloy, demostrando que su rendimiento es inferior al de lenguajes generales como Python y que técnicas como la reparación de código o múltiples intentos pueden mejorar significativamente la calidad de los resultados.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Este estudio presenta la primera evaluación empírica a gran escala de la capacidad de los modelos de lenguaje (LLMs) para generar casos de prueba unitarios a nivel de clase, revelando que, aunque las técnicas de razonamiento como GToT mejoran la legibilidad y la compilación en comparación con métodos tradicionales, los altos índices de fallos por alucinación y problemas de mantenibilidad indican que se requieren enfoques híbridos para lograr resultados aptos para producción.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Este trabajo presenta TrashFuzz, un algoritmo de fuzzing de caja negra que genera escenarios realistas de adversarios al manipular la ubicación de objetos comunes en el borde de la carretera para engañar a los sistemas de percepción de vehículos autónomos y provocar violaciones de leyes de tránsito, demostrando su eficacia al inducir infracciones en 15 de 24 leyes probadas en el sistema Apollo.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing

Este artículo presenta la formalización, verificación y pruebas del entorno de ejecución de autómatas de contratos (CARE) mediante el uso de autómatas temporales estocásticos y la herramienta Uppaal para mejorar la fiabilidad de esta aplicación distribuida de código abierto.

Davide Basile2026-03-05💻 cs

← Anterior Siguiente →