cs.AI artigos | Gist.Science

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

O artigo apresenta o DeformTrace, um modelo de espaço de estados deformável com tokens de retransmissão que supera as limitações atuais na localização temporal de falsificações ao oferecer maior precisão, sensibilidade a anomalias esparsas e eficiência computacional.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues

Este artigo apresenta o STEM-Bench, o primeiro benchmark para avaliação de memória em diálogos contínuos, e propõe o ProStream, um framework de memória hierárquica proativa que resolve o dilema entre fidelidade e eficiência ao permitir recuperação sob demanda com estado de conhecimento limitado em fluxos infinitos.

Bingbing Wang, Jing Li, Ruifeng Xu2026-03-06🤖 cs.AI

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

O artigo propõe o FedAFD, um quadro unificado de aprendizado federado multimodal que utiliza alinhamento adversarial, fusão adaptativa e destilação guiada por similaridade para superar desafios de heterogeneidade de dados e modelos, melhorando o desempenho tanto no cliente quanto no servidor.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Os autores propõem uma intervenção de baixo custo e sem necessidade de re-treinamento para modelos de linguagem difusivos, que modifica sequencialmente amostras intermediárias para repelir redundâncias no espaço de características, resultando em maior diversidade e melhor desempenho Pass@ $k$ em tarefas complexas como geração de código e resolução de problemas matemáticos.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Differentially Private Multimodal In-Context Learning

O artigo apresenta o DP-MTV, um novo framework que habilita o aprendizado multimodal de contexto com inúmeros exemplos e privacidade diferencial formal, agregando centenas de demonstrações em vetores de tarefa compactos para reduzir custos de privacidade e permitir consultas ilimitadas com alto desempenho em tarefas sensíveis.

Ivoline C. Ngong, Zarreen Reza, Joseph P. Near2026-03-06🤖 cs.AI

Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs

O artigo propõe o framework AoD-IP, uma solução inovadora para proteção de propriedade intelectual em Modelos Visão-Linguagem (VLMs) que permite autorização dinâmica sob demanda e avaliação de legalidade, superando as limitações de métodos estáticos ao oferecer controle flexível ao usuário e detecção confiável de acessos não autorizados em ambientes dinâmicos.

Lianyu Wang, Meng Wang, Huazhu Fu + 1 more2026-03-06🤖 cs.AI

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

O artigo apresenta o EvoTool, um framework autoevolutivo que otimiza a política de uso de ferramentas em agentes LLM através de um paradigma evolutivo sem gradiente, utilizando atribuição de culpa baseada em trajetórias, mutação direcionada por feedback e seleção consciente da diversidade para superar limitações de otimização monolítica e de aspectos únicos.

Shuo Yang, Soyeon Caren Han, Xueqi Ma + 3 more2026-03-06🤖 cs.AI

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

O artigo apresenta o AgentSCOPE, um benchmark e framework baseado em Integridade Contextual que avalia fluxos de dados intermediários em sistemas agênticos, revelando que a maioria das violações de privacidade ocorre durante as respostas das ferramentas e é frequentemente ignorada pelas avaliações focadas apenas na saída final.

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy2026-03-06🔒 cs.CR

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Este artigo demonstra que as intervenções de alinhamento em modelos de linguagem, embora eficazes em inglês, podem gerar um "efeito colateral de alinhamento" que inverte a segurança e amplifica patologias coletivas em outros idiomas, revelando que a eficácia da segurança é estruturalmente determinada pelo espaço linguístico e cultural e não se transfere universalmente.

Hiroki Fukui2026-03-06🤖 cs.AI

Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Este artigo descreve um fluxo de trabalho determinístico e baseado em regras, implementado no script `cad_processor.py`, que processa extratos administrativos para calcular e relatar custos por aluno, agregando dados por escola e ano e aplicando uma camada de bandagem fuzzy interpretável para classificar os custos como baixos, médios ou altos com total rastreabilidade e reprodutibilidade.

Shane Lee, Stella Ng2026-03-06🤖 cs.AI

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

O artigo apresenta o VPWEM, uma política visuomotora não markoviana que integra memórias de trabalho e episódicas por meio de um compressor contextual baseado em Transformer, permitindo que robôs aprendam tarefas de manipulação complexas com memória de longo prazo de forma eficiente e superando significativamente os métodos atuais.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

EVMbench: Evaluating AI Agents on Smart Contract Security

O artigo apresenta o EVMbench, um benchmark que avalia a capacidade de agentes de IA de detectar, corrigir e explorar vulnerabilidades em contratos inteligentes, demonstrando que os modelos atuais conseguem realizar esses ataques de ponta a ponta em ambientes de blockchain reais.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins2026-03-06🔒 cs.CR

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

O artigo apresenta o BandPO, um novo método de otimização para aprendizado por reforço em LLMs que substitui o recorte fixo do PPO por limites dinâmicos baseados em divergências f para mitigar o colapso de entropia e melhorar a estabilidade do treinamento.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

Knowledge-informed Bidding with Dual-process Control for Online Advertising

O artigo propõe o KBD, um método inovador de otimização de lances para publicidade online que supera as limitações dos modelos de caixa-preta ao integrar expertise humana como viés indutivo, utilizar o Decision Transformer para otimização global de sequências e empregar um controle de duplo processo que combina regras PID rápidas com tomada de decisão estratégica.

Huixiang Luo, Longyu Gao, Yaqi Liu + 3 more2026-03-06🤖 cs.AI

TimeWarp: Evaluating Web Agents by Revisiting the Past

O artigo apresenta o TimeWarp, um benchmark que avalia a robustez de agentes web diante de mudanças no design e layout da internet, e propõe o algoritmo TimeTraj, que utiliza destilação de planos em múltiplas versões de interface para superar as limitações da clonagem de comportamento tradicional e melhorar significativamente o desempenho de modelos como Qwen-3 e Llama-3.1.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Os autores propõem um framework de pré-treinamento com tarefas sensíveis à localização para aprimorar a capacidade de encoders visuais em detectar variações sutis entre imagens médicas, alcançando desempenho superior em respostas a perguntas visuais sobre diferenças em radiografias de tórax.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

Retrieval-Augmented Generation with Covariate Time Series

O artigo apresenta o RAG4CTS, um framework de geração aumentada por recuperação sem treinamento e consciente de regimes para séries temporais com covariáveis, que supera as limitações existentes em cenários de escassez de dados e dinâmica acoplada, demonstrando alta precisão e zero falsos alarmes na manutenção preditiva de válvulas PRSOV da China Southern Airlines.

Kenny Ye Liang, Zhongyi Pei, Huan Zhang + 3 more2026-03-06🤖 cs.AI

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

O artigo propõe a Otimização de Preferência Ponderada por Confiança (CW-PO), um framework que utiliza um modelo de linguagem fraco para reponderar amostras de treinamento, permitindo que um modelo alinhado com apenas 20% de anotações humanas supere métodos tradicionais treinados com 100% de dados humanos.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

O artigo apresenta o MPCEval, uma nova suite de benchmark e avaliação livre de referência para geração de conversas multiparte, que decompõe a qualidade em dimensões específicas e revela como objetivos de avaliação distintos impactam a análise de modelos de IA generativa.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

O artigo apresenta o Mixture of Universal Experts (MOUE), uma generalização de MoE que introduz a "largura virtual" ao reutilizar um pool universal de especialistas entre camadas, superando desafios de roteamento e balanceamento de carga para alcançar ganhos de desempenho superiores aos modelos MoE tradicionais.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

← Anterior Próximo →

cs.AI