cs.SE artículos | Gist.Science

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Este estudio analiza cómo las inexactitudes y la sobrecarga cognitiva provocadas por los asistentes de IA en tareas de ingeniería de software llevan a la mayoría de los participantes a abandonar su uso, revelando que las respuestas poco útiles aumentan significativamente la probabilidad de abandono mientras que la iteración de prompts la reduce.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

Towards a Taxonomy of Software Log Smells

Este estudio presenta una taxonomía de nueve "malos olores" en el registro de software (log smells) derivada de una revisión de literatura y herramientas existentes, con el objetivo de ayudar a los desarrolladores a escribir un código de registro de mayor calidad y señalar oportunidades de investigación futura.

Nyyti Saarimäki, Donghwan Shin, Domenico BianculliWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

El artículo presenta GateLens, un agente de IA basado en modelos de lenguaje que utiliza el álgebra relacional como representación intermedia formal para traducir consultas en lenguaje natural a código Python optimizado, logrando así un análisis de datos tabulares más rápido, transparente y preciso en el contexto de la industria automotriz en comparación con los enfoques tradicionales.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Este estudio evalúa empíricamente la eficacia de modelos de lenguaje preentrenados y grandes modelos de lenguaje en la detección de vulnerabilidades multilingües a nivel de función y línea, demostrando que los grandes modelos de lenguaje, especialmente GPT-4o, superan significativamente a los enfoques anteriores al identificar con mayor precisión vulnerabilidades críticas en múltiples lenguajes de programación.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Este estudio presenta el primer análisis a gran escala del uso de aritmética de punto flotante en repositorios públicos de GitHub para lenguajes estáticamente tipados, revelando que, aunque algunos benchmarks existentes son representativos, el código real presenta matices que requieren nuevas evaluaciones y proporcionando un conjunto de datos de 10 millones de funciones para guiar el desarrollo futuro de técnicas de razonamiento.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

El artículo presenta SEER, un marco auto-optimizador que comprime adaptativamente el razonamiento de cadena de pensamiento en modelos de lenguaje grandes para reducir costos computacionales y truncamientos sin sacrificar la precisión, demostrando su eficacia en tareas de ingeniería de software y matemáticas.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Este artículo presenta Preguss, un marco modular que combina análisis estático y modelos de lenguaje grandes para sintetizar especificaciones formales y verificar automáticamente la ausencia de errores en tiempo de ejecución en programas a gran escala, reduciendo significativamente el esfuerzo humano necesario.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

Este artículo propone un enfoque centrado en objetivos para evaluar los métodos de ingeniería de requisitos destinados al Privacidad por Diseño, argumentando que su selección debe alinearse con las metas organizacionales en lugar de limitarse a las características del proceso.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel MendezWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

El artículo presenta SkillCraft, un nuevo benchmark diseñado para evaluar la capacidad de los agentes LLM para abstraer y reutilizar composiciones de herramientas como habilidades reutilizables, demostrando que esta competencia no solo mejora drásticamente la eficiencia al reducir el uso de tokens hasta en un 80%, sino que también se correlaciona fuertemente con el éxito en tareas complejas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

El trabajo presenta SiliconMind-V1, un marco multiagente que utiliza la generación de datos de razonamiento y la verificación impulsada por pruebas para entrenar modelos de lenguaje localmente y generar código Verilog funcionalmente correcto de manera más eficiente que los métodos actuales.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

El paper presenta KernelCraft, el primer benchmark que demuestra cómo los agentes de IA pueden generar y optimizar automáticamente kernels de bajo nivel para aceleradores emergentes con nuevas arquitecturas de instrucciones, reduciendo significativamente el tiempo y la complejidad del desarrollo manual.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

FormalRTL: Verified RTL Synthesis at Scale

El artículo presenta FormalRTL, un marco de trabajo multiagente que integra modelos de referencia de software como especificaciones formales para generar y verificar código RTL de manera escalable y fiable, abordando así los desafíos de los diseños industriales a gran escala mediante la síntesis asistida por modelos de lenguaje grandes.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Extension of ACETONE C code generator for multi-core architectures

Este trabajo presenta la extensión del generador de código C ACETONE, diseñado originalmente para sistemas de aprendizaje automático, hacia arquitecturas multinúcleo mediante la definición formal de un problema de asignación de procesadores y el desarrollo de heurísticas de programación y mecanismos de sincronización para generar código paralelo.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

El artículo presenta Turn, un lenguaje de programación compilado y basado en actores diseñado específicamente para el software agéntico, que garantiza la seguridad y la autonomía mediante primitivas de tipo cognitivo, un operador de confianza, un modelo de procesos aislado, un sistema de identidad basado en capacidades y la absorción de esquemas en tiempo de compilación para integrar modelos de lenguaje grandes de forma segura y controlada.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

El artículo presenta TDAD, una metodología que trata los prompts de agentes de IA como artefactos compilados mediante especificaciones conductuales y pruebas ocultas para garantizar el cumplimiento de comportamientos, prevenir regresiones silenciosas y mitigar el juego de especificaciones en agentes que utilizan herramientas.

Tzafrir RehanWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Este artículo presenta el Protocolo de Delegación de LLM (LDP), un protocolo nativo de IA que introduce mecanismos de identidad, negociación y trazabilidad para mejorar la eficiencia, la seguridad y la gobernanza en sistemas multiagente, demostrando mediante su implementación que estas primitivas reducen significativamente la latencia y el uso de tokens en tareas específicas.

Sunil PrakashWed, 11 Ma🤖 cs.AI

GenAI Is No Silver Bullet for Qualitative Research in Software Engineering

Este artículo argumenta que la IA generativa no es una solución mágica para la investigación cualitativa en ingeniería de software, ya que su aplicación requiere una adaptación cuidadosa a cada estrategia de investigación y ofrece tanto promesas como riesgos que deben ser comprendidos por los investigadores.

Neil A. Ernst, Christoph TreudeWed, 11 Ma💻 cs

Arbiter: Detecting Interference in LLM Agent System Prompts

El artículo presenta Arbiter, un marco de evaluación que combina reglas formales y el escaneo con múltiples modelos de lenguaje para detectar patrones de interferencia en los prompts de sistema de agentes de codificación, revelando vulnerabilidades críticas y correlaciones arquitectónicas en herramientas de Anthropic, OpenAI y Google por un costo mínimo.

Tony MasonWed, 11 Ma🤖 cs.AI

Can AI Agents Generate Microservices? How Far are We?

El estudio demuestra que, aunque los agentes de IA pueden generar microservicios funcionales con código de calidad y buena adherencia a contratos de API, la inconsistencia en la corrección y la necesidad de supervisión humana indican que la generación totalmente autónoma aún no es viable.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik VaidhyanathanWed, 11 Ma💻 cs

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

El artículo presenta Pichay, un sistema de paginación bajo demanda que trata las ventanas de contexto de los LLM como una jerarquía de memoria virtual para eliminar contenido obsoleto y reducir drásticamente el consumo de recursos mediante la detección de fallos de página y la gestión de conjuntos de trabajo.

Tony MasonWed, 11 Ma🤖 cs.AI