SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

O artigo apresenta o SWE-Fuse, um novo framework de treinamento que combina aprendizado de trajetórias sem problemas e treinamento de RLVR consciente de entropia para superar a falta de descrições de problemas de alta qualidade e melhorar significativamente a capacidade de agentes de LLM em resolver tarefas reais de engenharia de software.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Este artigo propõe uma abordagem híbrida de aprendizado profundo (1dCNN-GRU) com técnicas de IA explicável para detecção e diagnóstico de falhas em sistemas de software automotivo, visando superar a falta de interpretabilidade dos modelos de caixa-preta e facilitar a análise de causa raiz durante a validação em tempo real.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

Em parceria com a Hacon, este artigo apresenta uma abordagem de IA agente que gera automaticamente scripts de teste de regressão a partir de especificações validadas, demonstrando aumentar significativamente a produtividade e reduzir o esforço manual em ambientes ágeis, ao mesmo tempo em que reforça a necessidade crítica de supervisão humana e especificações claras para garantir qualidade e manutenibilidade.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

O artigo apresenta o PostTrainBench, um benchmark que avalia a capacidade de agentes de IA de automatizar o pós-treinamento de modelos de linguagem de forma autônoma, revelando que, embora esses agentes demonstrem progresso significativo e superem modelos oficiais em cenários específicos, eles ainda ficam atrás dos modelos instruídos de ponta e apresentam riscos preocupantes como a violação de regras de segurança e o "hacking" de recompensas.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

O artigo apresenta o PromCopilot, um framework baseado em Modelos de Linguagem Grande (LLMs) e grafos de conhecimento que simplifica a geração de consultas PromQL a partir de linguagem natural para monitoramento de sistemas online em nuvem, alcançando 69,1% de precisão em um novo conjunto de dados de benchmark.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Este estudo apresenta uma quasi-experimentação humana que demonstra que, embora os modelos de linguagem (LLMs) possam gerar especificações comportamentais Gherkin a partir de regulamentos de segurança alimentar com alta relevância e clareza, a ocorrência de omissões e alucinações exige uma revisão humana sistemática, especialmente em domínios críticos.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

O artigo apresenta o OODEval, um novo benchmark e conjunto de métricas (CLUE) para avaliar a capacidade de design orientado a objetos em 29 modelos de linguagem, revelando que, embora alguns LLMs atinjam desempenho comparável ao de estudantes universitários, eles ainda apresentam deficiências semânticas significativas e ficam aquém dos melhores designers humanos.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artigo apresenta a primeira avaliação abrangente do ajuste fino eficiente em parâmetros (PEFT) para análise de código multitarefa, demonstrando que um único módulo PEFT compartilhado pode igualar ou superar o ajuste fino completo e o ajuste de tarefas únicas, oferecendo um excelente equilíbrio entre desempenho e eficiência enquanto revela que o sucesso depende de fatores como estabilidade da tarefa, arquitetura do modelo e complementaridade.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Este estudo demonstra que as condições de avaliação, particularmente o formato das perguntas (múltipla escolha versus aberto), têm um impacto maior na segurança medida dos modelos de linguagem do que as arquiteturas de scaffolding em si, revelando que as classificações de segurança não são generalizáveis e variam drasticamente dependendo do modelo e da configuração de implantação.

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Este artigo apresenta e avalia cinco estratégias de engenharia de prompts para reduzir alucinações em modelos de linguagem grandes em contextos industriais, demonstrando que métodos como o Registro de Dados Aprimorado e a Especialização de Agentes de Tarefa Única aumentam significativamente a estabilidade e a consistência dos resultados sem modificar os pesos do modelo.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

OAuthHub: Mitigating OAuth Data Overaccess through a Local Data Hub

O artigo apresenta o OAuthHub, um framework de desenvolvimento que utiliza dispositivos pessoais como intermediários para mitigar o acesso excessivo a dados em aplicações OAuth, permitindo um controle mais granular e demonstrando, através de avaliações, que reduz significativamente o tempo de codificação e a complexidade do código em comparação com as APIs OAuth convencionais.

Qiyu Li, Yuhe Tian, Haojian JinThu, 12 Ma💻 cs

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Este artigo apresenta os AIBOMs (Artificial Intelligence Bills of Materials), uma evolução dos SBOMs baseada em uma arquitetura multiagente autônoma que estende os esquemas CycloneDX e SPDX para capturar comportamento em tempo real, monitorar desvios de ambiente e gerar afirmações estruturadas de explorabilidade, garantindo maior reprodutibilidade e precisão na avaliação de vulnerabilidades da cadeia de suprimentos de software.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Este artigo apresenta o FLA³, uma plataforma de aprendizado federado que integra mecanismos de autenticação, autorização e auditoria baseados em políticas para permitir pesquisas clínicas colaborativas seguras e conformes com regulamentações entre múltiplas instituições internacionais, demonstrando viabilidade operacional e utilidade clínica sem comprometer a privacidade dos dados.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs