cs.SE artículos | Gist.Science

Social Proof is in the Pudding: The (Non)-Impact of Social Proof on Software Downloads

Este estudio mediante experimentos de campo en GitHub demuestra que la manipulación de métricas de prueba social, como las estrellas o las descargas, no tiene un impacto discernible en las descargas posteriores ni en la actividad de los desarrolladores de paquetes de software de código abierto.

Lucas Shen, Gaurav SoodTue, 10 Ma💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

El artículo presenta SWE-Fuse, un marco de entrenamiento que fusiona muestras guiadas por descripciones de problemas con otras libres de ellas y utiliza un entrenamiento RLVR sensible a la entropía para superar la falta de descripciones de alta calidad, logrando mejoras significativas en la resolución de problemas de software en el benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Este artículo propone un enfoque híbrido e interpretable basado en redes 1dCNN-GRU y técnicas de IA explicable para la detección, identificación y localización de fallos en sistemas de software automotriz, con el fin de mejorar la eficiencia, reducir costos computacionales y aumentar la confianza en aplicaciones de seguridad crítica.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

En colaboración con Hacon, este estudio presenta un enfoque de IA agéntica que genera automáticamente scripts de prueba de regresión a partir de especificaciones validadas, demostrando mediante análisis industrial que esta herramienta aumenta el rendimiento y reduce el esfuerzo manual mientras mantiene la supervisión humana esencial en entornos ágiles.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

Designing Value-Based Platforms: Architectural Strategies Derived from the Digital Markets Act

Este artículo investiga las implicaciones técnicas del Reglamento de Mercados Digitales (DMA) mediante análisis cualitativo para proponer ocho estrategias de diseño arquitectónico y quince tácticas que permiten a las plataformas digitales grandes cumplir con sus objetivos de equidad, competencia y elección del usuario.

Fabian Stiehle, Markus Funke, Patricia Lago, Ingo WeberTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

El artículo presenta PostTrainBench, un marco de evaluación que demuestra que, aunque los agentes de IA autónomos pueden mejorar el rendimiento de modelos base durante la fase de post-entrenamiento, su progreso general aún se queda atrás frente a los modelos instruidos oficialmente, al tiempo que revela riesgos significativos como la manipulación de recompensas y la necesidad de un entornos de prueba más seguros.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

Este artículo presenta PromCopilot, un marco basado en modelos de lenguaje grande que utiliza un grafo de conocimiento para traducir consultas en lenguaje natural a PromQL, simplificando así el monitoreo de métricas en sistemas de servicios en línea nativos de la nube.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

Getting Python Types Right with RightTyper

El artículo presenta RightTyper, un enfoque híbrido novedoso para Python que genera anotaciones de tipos precisas y fundamentadas en el comportamiento real del programa mediante muestreo adaptativo, logrando una mayor calidad que los métodos anteriores con un sobrecosto de ejecución de solo aproximadamente el 27%.

Juan Altmayer Pizzorno, Emery D. BergerThu, 12 Ma💻 cs

What Makes Code Generation Ethically Sourced?

Este artículo introduce el concepto de Generación de Código Éticamente Abastecida (ES-CodeGen), estableciendo una taxonomía de 11 dimensiones basada en una revisión de literatura y una encuesta a practicantes para gestionar todo el ciclo de vida de los modelos de generación de código mediante prácticas éticas y sostenibles.

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei TanThu, 12 Ma🤖 cs.AI

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Este estudio presenta la primera evaluación sistemática con sujetos humanos que demuestra que, aunque los modelos de lenguaje grandes pueden generar especificaciones Gherkin de alta calidad a partir de normativas de seguridad alimentaria, la presencia de omisiones y alucinaciones hace indispensable una revisión humana sistemática en dominios críticos.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

El artículo presenta Compiler.next, un compilador basado en búsqueda diseñado para la era de la Ingeniería de Software 3.0 que transforma intenciones humanas en software funcional mediante la optimización dinámica de arquitecturas cognitivas y modelos de IA, democratizando así el desarrollo de software y permitiendo sistemas automatizados, escalables y adaptativos.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. HassanThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Este artículo presenta OODEval, un nuevo benchmark y métricas unificadas para evaluar la capacidad de diseño orientado a objetos de 29 modelos de lenguaje grande, revelando que, aunque algunos modelos alcanzan un rendimiento cercano al de estudiantes universitarios, aún presentan deficiencias semánticas significativas y están muy por debajo del nivel de los diseñadores humanos expertos.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artículo presenta la primera evaluación exhaustiva del ajuste fino eficiente en parámetros (PEFT) para el análisis de código multitarea, demostrando que un único módulo PEFT compartido puede igualar o superar al ajuste completo con una reducción drástica de costos computacionales y de almacenamiento, aunque su éxito depende críticamente de factores como la estabilidad de las tareas, la arquitectura del modelo y la calidad de los datos.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Este estudio demuestra que las condiciones de evaluación, especialmente el formato de las preguntas, influyen más en las puntuaciones de seguridad de los modelos de lenguaje que la arquitectura de los andamios de despliegue, revelando que las clasificaciones de seguridad carecen de fiabilidad generalizable y exigen pruebas específicas para cada modelo y configuración.

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Este artículo presenta y evalúa cinco estrategias de ingeniería de prompts para reducir las alucinaciones en modelos de lenguaje grandes en entornos industriales, demostrando que métodos como el registro de datos mejorado y la especialización de agentes logran resultados más consistentes y repetibles sin modificar los pesos del modelo.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

OAuthHub: Mitigating OAuth Data Overaccess through a Local Data Hub

El artículo presenta OAuthHub, un marco de desarrollo que utiliza dispositivos personales como intermediarios para mitigar el acceso excesivo a datos en OAuth mediante un modelo de permisos centralizado y patrones de acceso discretos, logrando reducir significativamente el tiempo de codificación y la complejidad del código en comparación con las APIs tradicionales.

Qiyu Li, Yuhe Tian, Haojian JinThu, 12 Ma💻 cs

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Este artículo presenta los AIBOMs (Facturas de Materiales de Inteligencia Artificial), una extensión de las SBOMs tradicionales mediante una arquitectura multiagente autónoma que captura el comportamiento en tiempo real y la deriva del entorno para generar afirmaciones de explotabilidad contextualizadas y reproducibles, mejorando así la seguridad de la cadena de suministro de software.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Este artículo presenta FLA³, una plataforma de aprendizaje federado que integra controles de autenticación, autorización y contabilidad para habilitar la investigación clínica global segura y cumplir con las normativas de privacidad sin compartir datos.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

El artículo presenta DUCTILE, un enfoque de orquestación agencial basado en LLM que separa la adaptación dinámica de la ejecución determinista para automatizar tareas de análisis de ingeniería en entornos industriales, logrando resultados correctos y cumpliendo criterios metodológicos mientras supervisa la tensión entre la eliminación de tareas rutinarias y la creación de roles de supervisión exigentes.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI

MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment

Este artículo presenta MALTA, un marco de puntuación que mejora la identificación de dependencias de alto riesgo al combinar el retraso técnico con señales de mantenimiento, revelando que la mayoría de los paquetes clasificados como seguros por métricas tradicionales son, en realidad, abandonados y vulnerables.

Shane K. Panter, Nasir U. EistyThu, 12 Ma💻 cs

← Anterior Siguiente →