"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Este estudio analiza cómo las inexactitudes y la sobrecarga cognitiva provocadas por los asistentes de IA en tareas de ingeniería de software llevan a la mayoría de los participantes a abandonar su uso, revelando que las respuestas poco útiles aumentan significativamente la probabilidad de abandono mientras que la iteración de prompts la reduce.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

El artículo presenta GateLens, un agente de IA basado en modelos de lenguaje que utiliza el álgebra relacional como representación intermedia formal para traducir consultas en lenguaje natural a código Python optimizado, logrando así un análisis de datos tabulares más rápido, transparente y preciso en el contexto de la industria automotriz en comparación con los enfoques tradicionales.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Este estudio evalúa empíricamente la eficacia de modelos de lenguaje preentrenados y grandes modelos de lenguaje en la detección de vulnerabilidades multilingües a nivel de función y línea, demostrando que los grandes modelos de lenguaje, especialmente GPT-4o, superan significativamente a los enfoques anteriores al identificar con mayor precisión vulnerabilidades críticas en múltiples lenguajes de programación.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Este estudio presenta el primer análisis a gran escala del uso de aritmética de punto flotante en repositorios públicos de GitHub para lenguajes estáticamente tipados, revelando que, aunque algunos benchmarks existentes son representativos, el código real presenta matices que requieren nuevas evaluaciones y proporcionando un conjunto de datos de 10 millones de funciones para guiar el desarrollo futuro de técnicas de razonamiento.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Este artículo presenta Preguss, un marco modular que combina análisis estático y modelos de lenguaje grandes para sintetizar especificaciones formales y verificar automáticamente la ausencia de errores en tiempo de ejecución en programas a gran escala, reduciendo significativamente el esfuerzo humano necesario.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

El artículo presenta SkillCraft, un nuevo benchmark diseñado para evaluar la capacidad de los agentes LLM para abstraer y reutilizar composiciones de herramientas como habilidades reutilizables, demostrando que esta competencia no solo mejora drásticamente la eficiencia al reducir el uso de tokens hasta en un 80%, sino que también se correlaciona fuertemente con el éxito en tareas complejas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

El trabajo presenta SiliconMind-V1, un marco multiagente que utiliza la generación de datos de razonamiento y la verificación impulsada por pruebas para entrenar modelos de lenguaje localmente y generar código Verilog funcionalmente correcto de manera más eficiente que los métodos actuales.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

El paper presenta KernelCraft, el primer benchmark que demuestra cómo los agentes de IA pueden generar y optimizar automáticamente kernels de bajo nivel para aceleradores emergentes con nuevas arquitecturas de instrucciones, reduciendo significativamente el tiempo y la complejidad del desarrollo manual.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

Extension of ACETONE C code generator for multi-core architectures

Este trabajo presenta la extensión del generador de código C ACETONE, diseñado originalmente para sistemas de aprendizaje automático, hacia arquitecturas multinúcleo mediante la definición formal de un problema de asignación de procesadores y el desarrollo de heurísticas de programación y mecanismos de sincronización para generar código paralelo.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

El artículo presenta Turn, un lenguaje de programación compilado y basado en actores diseñado específicamente para el software agéntico, que garantiza la seguridad y la autonomía mediante primitivas de tipo cognitivo, un operador de confianza, un modelo de procesos aislado, un sistema de identidad basado en capacidades y la absorción de esquemas en tiempo de compilación para integrar modelos de lenguaje grandes de forma segura y controlada.

Muyukani KizitoWed, 11 Ma🤖 cs.AI