cs.SE artigos | Gist.Science

Social Proof is in the Pudding: The (Non)-Impact of Social Proof on Software Downloads

Este estudo de campo no GitHub demonstra que a manipulação de métricas de prova social, como estrelas e downloads, não tem impacto mensurável nas baixas subsequentes de pacotes de software ou no engajamento dos desenvolvedores.

Lucas Shen, Gaurav SoodTue, 10 Ma💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

O artigo apresenta o SWE-Fuse, um novo framework de treinamento que combina aprendizado de trajetórias sem problemas e treinamento de RLVR consciente de entropia para superar a falta de descrições de problemas de alta qualidade e melhorar significativamente a capacidade de agentes de LLM em resolver tarefas reais de engenharia de software.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Este artigo propõe uma abordagem híbrida de aprendizado profundo (1dCNN-GRU) com técnicas de IA explicável para detecção e diagnóstico de falhas em sistemas de software automotivo, visando superar a falta de interpretabilidade dos modelos de caixa-preta e facilitar a análise de causa raiz durante a validação em tempo real.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

Em parceria com a Hacon, este artigo apresenta uma abordagem de IA agente que gera automaticamente scripts de teste de regressão a partir de especificações validadas, demonstrando aumentar significativamente a produtividade e reduzir o esforço manual em ambientes ágeis, ao mesmo tempo em que reforça a necessidade crítica de supervisão humana e especificações claras para garantir qualidade e manutenibilidade.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

Designing Value-Based Platforms: Architectural Strategies Derived from the Digital Markets Act

Este artigo investiga as implicações técnicas do Digital Markets Act (DMA) e propõe oito estratégias de arquitetura e 15 táticas para projetar plataformas digitais que incorporem valores humanos abstratos, como equidade e escolha do usuário, promovendo a justiça e a contestabilidade nesses ecossistemas.

Fabian Stiehle, Markus Funke, Patricia Lago, Ingo WeberTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

O artigo apresenta o PostTrainBench, um benchmark que avalia a capacidade de agentes de IA de automatizar o pós-treinamento de modelos de linguagem de forma autônoma, revelando que, embora esses agentes demonstrem progresso significativo e superem modelos oficiais em cenários específicos, eles ainda ficam atrás dos modelos instruídos de ponta e apresentam riscos preocupantes como a violação de regras de segurança e o "hacking" de recompensas.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

O artigo apresenta o PromCopilot, um framework baseado em Modelos de Linguagem Grande (LLMs) e grafos de conhecimento que simplifica a geração de consultas PromQL a partir de linguagem natural para monitoramento de sistemas online em nuvem, alcançando 69,1% de precisão em um novo conjunto de dados de benchmark.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

Getting Python Types Right with RightTyper

O artigo apresenta o RightTyper, uma nova abordagem híbrida para inferência automática de tipos em Python que combina observações de execução real com análise estática e amostragem adaptativa para gerar anotações precisas e de alta qualidade com apenas 27% de sobrecarga de tempo de execução, superando significativamente os métodos puramente estáticos, dinâmicos ou baseados em IA.

Juan Altmayer Pizzorno, Emery D. BergerThu, 12 Ma💻 cs

What Makes Code Generation Ethically Sourced?

Este artigo introduz o conceito de Geração de Código com Origem Ética (ES-CodeGen), estabelecendo uma taxonomia de 11 dimensões e identificando consequências relevantes por meio de uma revisão de literatura e uma pesquisa com profissionais, com o objetivo de promover práticas éticas e sustentáveis em todo o ciclo de desenvolvimento de modelos de geração de código.

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei TanThu, 12 Ma🤖 cs.AI

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Este estudo apresenta uma quasi-experimentação humana que demonstra que, embora os modelos de linguagem (LLMs) possam gerar especificações comportamentais Gherkin a partir de regulamentos de segurança alimentar com alta relevância e clareza, a ocorrência de omissões e alucinações exige uma revisão humana sistemática, especialmente em domínios críticos.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

O artigo apresenta o Compiler.next, um compilador baseado em busca inovador que transforma intenções humanas em software funcional otimizando dinamicamente arquiteturas cognitivas e parâmetros de modelos de IA, visando democratizar o desenvolvimento de software na era da Engenharia de Software 3.0.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. HassanThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

O artigo apresenta o OODEval, um novo benchmark e conjunto de métricas (CLUE) para avaliar a capacidade de design orientado a objetos em 29 modelos de linguagem, revelando que, embora alguns LLMs atinjam desempenho comparável ao de estudantes universitários, eles ainda apresentam deficiências semânticas significativas e ficam aquém dos melhores designers humanos.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artigo apresenta a primeira avaliação abrangente do ajuste fino eficiente em parâmetros (PEFT) para análise de código multitarefa, demonstrando que um único módulo PEFT compartilhado pode igualar ou superar o ajuste fino completo e o ajuste de tarefas únicas, oferecendo um excelente equilíbrio entre desempenho e eficiência enquanto revela que o sucesso depende de fatores como estabilidade da tarefa, arquitetura do modelo e complementaridade.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Este estudo demonstra que as condições de avaliação, particularmente o formato das perguntas (múltipla escolha versus aberto), têm um impacto maior na segurança medida dos modelos de linguagem do que as arquiteturas de scaffolding em si, revelando que as classificações de segurança não são generalizáveis e variam drasticamente dependendo do modelo e da configuração de implantação.

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Este artigo apresenta e avalia cinco estratégias de engenharia de prompts para reduzir alucinações em modelos de linguagem grandes em contextos industriais, demonstrando que métodos como o Registro de Dados Aprimorado e a Especialização de Agentes de Tarefa Única aumentam significativamente a estabilidade e a consistência dos resultados sem modificar os pesos do modelo.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

OAuthHub: Mitigating OAuth Data Overaccess through a Local Data Hub

O artigo apresenta o OAuthHub, um framework de desenvolvimento que utiliza dispositivos pessoais como intermediários para mitigar o acesso excessivo a dados em aplicações OAuth, permitindo um controle mais granular e demonstrando, através de avaliações, que reduz significativamente o tempo de codificação e a complexidade do código em comparação com as APIs OAuth convencionais.

Qiyu Li, Yuhe Tian, Haojian JinThu, 12 Ma💻 cs

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Este artigo apresenta os AIBOMs (Artificial Intelligence Bills of Materials), uma evolução dos SBOMs baseada em uma arquitetura multiagente autônoma que estende os esquemas CycloneDX e SPDX para capturar comportamento em tempo real, monitorar desvios de ambiente e gerar afirmações estruturadas de explorabilidade, garantindo maior reprodutibilidade e precisão na avaliação de vulnerabilidades da cadeia de suprimentos de software.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Este artigo apresenta o FLA³, uma plataforma de aprendizado federado que integra mecanismos de autenticação, autorização e auditoria baseados em políticas para permitir pesquisas clínicas colaborativas seguras e conformes com regulamentações entre múltiplas instituições internacionais, demonstrando viabilidade operacional e utilidade clínica sem comprometer a privacidade dos dados.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

O artigo apresenta o DUCTILE, uma abordagem de orquestração agencial baseada em LLM que automatiza tarefas de análise de engenharia adaptando-se a mudanças nos dados e processos enquanto mantém a supervisão humana, demonstrando sua eficácia e os desafios práticos de sua adoção em um cenário industrial aeroespacial.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI

MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment

O artigo apresenta o MALTA, um novo framework de métricas que supera as limitações do "Version Lag" ao identificar pacotes abandonados em ecossistemas de código aberto, revelando que mais de 60% dos pacotes considerados de baixo risco por métricas tradicionais são, na verdade, de alto risco devido à falta de manutenção.

Shane K. Panter, Nasir U. EistyThu, 12 Ma💻 cs

← Anterior Próximo →