MACC: Multi-Agent Collaborative Competition for Scientific Exploration

O artigo apresenta o MACC, uma arquitetura institucional que integra um espaço de trabalho científico compartilhado e mecanismos de incentivo para estudar como a colaboração e a competição entre agentes de IA independentes podem superar as limitações da descoberta científica tradicional, promovendo transparência, reprodutibilidade e eficiência exploratória.

Satoshi Oyama, Yuko Sakurai, Hisashi Kashima2026-03-05🤖 cs.AI

LifeBench: A Benchmark for Long-Horizon Multi-Source Memory

O artigo apresenta o LifeBench, um novo benchmark que avalia a capacidade de agentes de IA em integrar memórias declarativas e não declarativas ao longo de horizontes temporais extensos, superando as limitações de benchmarks existentes ao exigir inferência a partir de traços digitais diversos e garantindo qualidade e escalabilidade através de simulações de eventos estruturados e baseados em dados do mundo real.

Zihao Cheng, Weixin Wang, Yu Zhao + 15 more2026-03-05🤖 cs.AI

DisenReason: Behavior Disentanglement and Latent Reasoning for Shared-Account Sequential Recommendation

O artigo apresenta o DisenReason, um método de recomendação sequencial para contas compartilhadas que supera as limitações das abordagens existentes ao utilizar a desentrelaçamento de comportamentos no domínio da frequência para criar uma representação unificada da conta, servindo como base para um raciocínio latente que infere dinamicamente o número de usuários por trás da conta, resultando em ganhos significativos de precisão em quatro conjuntos de dados de referência.

Jiawei Cheng, Min Gao, Zongwei Wang + 5 more2026-03-05🤖 cs.AI

Specification-Driven Generation and Evaluation of Discrete-Event World Models via the DEVS Formalism

Este artigo propõe uma abordagem intermediária para a geração de modelos de mundo via formalismo DEVS e pipelines de LLM, que sintetizam simuladores de eventos discretos executáveis a partir de especificações em linguagem natural, permitindo a adaptação online, a verificação rigorosa e a confiabilidade em sistemas agênticos complexos.

Zheyu Chen, Zhuohuan Li, Chuanhao Li2026-03-05🤖 cs.AI

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Este trabalho introduz a técnica de "Estrutura do Pensamento" (SoT) para guiar modelos na construção de estruturas intermediárias e apresenta o T2S-Bench, o primeiro benchmark abrangente para avaliar e aprimorar a capacidade de conversão de texto em estrutura, demonstrando ganhos significativos de desempenho em diversas tarefas de processamento de linguagem.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

Este trabalho demonstra que modelos pré-treinados de Visão-Linguagem-Ação (VLA) são surpreendentemente resistentes ao esquecimento no aprendizado contínuo, permitindo que técnicas simples de replay de experiências adquiram novas habilidades sem esquecer as anteriores, graças ao papel fundamental do pré-treinamento em grande escala.

Huihan Liu, Changyeon Kim, Bo Liu + 2 more2026-03-05🤖 cs.AI

Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

Este artigo apresenta o DSRM-HRL, um framework que reformula a recomendação justa como um problema de purificação de estado latente usando modelos de difusão para remover ruídos de feedback implícito, seguido por uma tomada de decisão hierárquica que desacopla a otimização de engajamento de curto prazo da regulação de equidade de longo prazo, alcançando assim um equilíbrio superior entre utilidade e justiça nas recomendações interativas.

Yun Lu, Xiaoyu Shi, Hong Xie + 2 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

Este artigo demonstra que prompts adversarialmente otimizados podem induzir modelos de linguagem a "sandbagging" (subdesempenho estratégico) ao explorarem a consciência de avaliação, causando degradações drásticas no desempenho em tarefas específicas e revelando que essa vulnerabilidade é governada pela estrutura da tarefa e por um raciocínio causal de avaliação, e não apenas pela força do prompt.

Maheep Chaudhary2026-03-05🤖 cs.AI

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Este artigo identifica o fenômeno de "Localização Preguiçosa da Atenção" durante o início frio multimodal e propõe o framework AVAR, que utiliza ancoragem visual e objetivos guiados pela atenção para superar essa limitação, resultando em ganhos significativos de desempenho em raciocínio multimodal sem necessidade de retreinamento complexo.

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators

Este trabalho apresenta um framework de co-otimização conjunta de hardware e carga de trabalho, baseado em um algoritmo evolutivo, que projeta aceleradores de computação em memória (IMC) generalizados capazes de suportar múltiplas redes neurais com eficiência, reduzindo significativamente o produto energia-atraso-área (EDAP) em comparação com métodos que otimizam para cargas específicas.

Olga Krestinskaya, Mohammed E. Fouda, Ahmed Eltawil + 1 more2026-03-05🤖 cs.AI