cs.AI artigos | Gist.Science

Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases

Este artigo propõe uma reavaliação das abordagens atuais para casos de segurança de IA de fronteira, identificando limitações nas metodologias existentes da comunidade de alinhamento e oferecendo um novo quadro teórico e prático, fundamentado em lições de indústrias de segurança crítica, para desenvolver argumentos de segurança mais robustos e defensáveis, com foco em riscos como alinhamento enganoso e capacidades CBRN.

Shaun Feakins, Ibrahim Habli, Phillip Morgan2026-03-11🤖 cs.AI

Multi-level meta-reinforcement learning with skill-based curriculum

Este artigo apresenta um quadro de meta-aprendizado por reforço multinível que utiliza uma curricula baseada em habilidades para comprimir hierarquicamente processos de decisão de Markov, desacoplando subtarefas e facilitando a transferência de competências entre diferentes níveis e problemas.

Sichen Yang (Johns Hopkins University), Mauro Maggioni (Johns Hopkins University)2026-03-11🤖 cs.AI

Large Language Model-Assisted Superconducting Qubit Experiments

Este trabalho apresenta um framework que utiliza um modelo de linguagem de grande escala (LLM) para automatizar o controle e a medição de qubits supercondutores, gerando e invocando ferramentas sob demanda para realizar experimentos complexos de forma autônoma e flexível.

Shiheng Li, Jacob M. Miller, Phoebe J. Lee, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Bayan Karimi, Amber M. King, Howard L. Malc, Harsh Mishra, Hong Qiao, Minseok Ryu, Xuntao Wu, Siyuan Xing, Haoxiong Yan, Jian Shi, Andrew N. Cleland2026-03-11⚛️ quant-ph

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

O artigo apresenta a TDAD, uma metodologia que trata prompts de agentes de IA como artefatos compilados, utilizando especificações comportamentais convertidas em testes executáveis e refinados iterativamente para garantir conformidade mensurável e prevenir regressões silenciosas em agentes que utilizam ferramentas.

Tzafrir Rehan2026-03-11🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

O artigo apresenta o Scale-Plan, um framework escalável que utiliza raciocínio de modelos de linguagem (LLM) para filtrar informações irrelevantes e gerar representações de problemas compactas, permitindo um planejamento de tarefas eficiente e confiável para equipes heterogêneas de múltiplos robôs em ambientes complexos.

Piyush Gupta, Sangjae Bae, Jiachen Li, David Isele2026-03-11🤖 cs.AI

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Este estudo demonstra que métricas de recuperação baseadas em cobertura são indicadores confiáveis do desempenho de sistemas RAG em termos de cobertura de informações, especialmente quando os objetivos de recuperação e geração estão alinhados.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van Durme2026-03-11🤖 cs.AI

Fish Audio S2 Technical Report

O artigo apresenta o Fish Audio S2, um sistema de texto-para-fala de código aberto que oferece geração multi-falante e multi-turno com controle por instruções em linguagem natural, destacando-se por uma receita de treinamento escalável e um motor de inferência otimizado para streaming com baixa latência.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

Are Expressive Encoders Necessary for Discrete Graph Generation?

O artigo introduz o GenGNN, um framework modular de passagem de mensagens que demonstra que backbones de redes neurais gráficas (GNNs) podem substituir arquiteturas mais complexas e caras, como transformers, na geração de grafos discretos, alcançando resultados competitivos em validade e velocidade de inferência.

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

O artigo apresenta o MASEval, uma biblioteca independente de frameworks que preenche a lacuna de avaliação ao tratar sistemas de agentes LLM completos como unidade de análise, demonstrando que a escolha do framework impacta o desempenho tanto quanto a escolha do modelo.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

O artigo apresenta o MuCTaL, um modelo de aprendizado profundo leve e generalizável treinado em quatro tipos de câncer para localizar tumores em imagens de patologia digital, demonstrando alta precisão nos dados de treinamento e capacidade de adaptação a tipos não vistos, como o adenocarcinoma pancreático.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Este artigo apresenta o Protocolo de Delegação de LLM (LDP), um protocolo nativo de IA que introduz mecanismos de identidade e confiança para melhorar a eficiência, a governança e a segurança em sistemas multiagentes, demonstrando através de uma implementação experimental reduções significativas na latência e no consumo de tokens, embora alerte que metadados de confiança sem verificação podem prejudicar a qualidade.

Sunil Prakash2026-03-11🤖 cs.AI

Unpacking Interpretability: Human-Centered Criteria for Optimal Combinatorial Solutions

Este estudo identifica que a interpretabilidade de soluções ótimas em problemas de empacotamento é determinada por três propriedades estruturais quantificáveis — alinhamento com heurísticas gananciosas, composição simples dentro dos recipientes e representação visual ordenada — permitindo otimizações que equilibram eficiência algorítmica com a compreensão humana.

Dominik Pegler, Frank Jäkel, David Steyrl, Frank Scharnowski, Filip Melinscak2026-03-11🤖 cs.AI

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Este estudo apresenta uma avaliação controlada do sistema BCAS para quantificar como a profundidade de busca, a estratégia de recuperação e o orçamento de conclusão afetam a precisão e o custo em sistemas RAG agênticos com restrições orçamentárias, fornecendo diretrizes práticas para sua configuração.

Kyle McCleary, James Ghawaly2026-03-11🤖 cs.AI

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Este artigo apresenta o modelo FSbuHD, uma nova abordagem de seleção de características para sistemas de informação híbridos baseada na teoria de conjuntos fuzzy-rugosos que reformula o problema como uma otimização utilizando distâncias combinadas e opera em modos normal e otimista para superar desafios de eficiência e ruído em espaços de alta dimensão.

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

NetDiffuser: Deceiving DNN-Based Network Attack Detection Systems with Diffusion-Generated Adversarial Traffic

O artigo apresenta o NetDiffuser, um novo framework que utiliza modelos de difusão e uma categorização inovadora de características para gerar exemplos adversariais naturais (NAEs) altamente eficazes e indistinguíveis, capazes de enganar sistemas de detecção de intrusão baseados em aprendizado profundo com taxas de sucesso significativamente superiores às dos métodos existentes.

Pratyay Kumar, Abu Saleh Md Tayeen, Satyajayant Misra, Huiping Cao, Jiefei Liu, Qixu Gong, Jayashree Harikumar2026-03-11🤖 cs.AI

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

Este artigo apresenta uma ablação abrangente de nove famílias de limites para previsão seletiva com controle de risco, introduzindo o método "Transfer-Informed Betting" (TIB) que utiliza perfis de risco de domínios-fonte para obter limites mais apertados em cenários com escassez de dados, demonstrando ganhos significativos de cobertura em benchmarks como MASSIVE e NyayaBench.

Abhinaba Basu2026-03-11🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

O artigo propõe o FedLECC, uma estratégia leve e guiada por clusters e perdas para a seleção de clientes em Aprendizado Federado, que melhora a precisão, reduz o número de rodadas de comunicação e diminui a sobrecarga geral em cenários de dados não-IID.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti2026-03-11🤖 cs.AI

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Este artigo propõe um método totalmente diferenciável para descobrir Sub-redes de Loteria Forte (SLT) utilizando portas de Bernoulli relaxadas continuamente, permitindo a otimização eficiente de redes superparametrizadas com até 90% de esparsidade e perda mínima de precisão sem necessidade de treinamento de pesos ou estimadores de gradiente não diferenciáveis.

Itamar Tsayag, Ofir Lindenbaum2026-03-11🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Este artigo demonstra que as métricas de visibilidade em motores de busca generativos são inerentemente estocásticas e instáveis, argumentando que elas devem ser tratadas como estimadores amostrais com intervalos de confiança em vez de valores fixos de ponto único.

Ronald Sielinski2026-03-11🤖 cs.AI

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Este artigo apresenta um novo benchmark sintético e uma abordagem inovadora que utiliza modelos de visão e linguagem (VLMs) com aprendizado em contexto para gerar automaticamente configurações JSON de simulação de plantas a partir de imagens de drones, visando superar os desafios de complexidade e escalabilidade na criação de gêmeos digitais agrícolas.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

← Anterior Próximo →