GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics

O artigo apresenta o conjunto de dados GPT4o-Receipt e um estudo que revelam um paradoxo onde humanos, embora melhores em identificar artefatos visuais, são menos eficazes do que modelos de linguagem multimodais na detecção de recibos gerados por IA, pois estes últimos conseguem identificar sistematicamente erros aritméticos imperceptíveis ao olho humano.

Yan Zhang, Simiao Ren, Ankit Raj, En Wei, Dennis Ng, Alex Shen, Jiayue Xu, Yuxin Zhang, Evelyn Marotta2026-03-13🤖 cs.AI

Verified Multi-Agent Orchestration: A Plan-Execute-Verify-Replan Framework for Complex Query Resolution

O artigo apresenta o VMAO, um framework de orquestração multiagente que utiliza um ciclo iterativo de planejamento, execução, verificação e replanejamento baseado em DAGs para melhorar significativamente a completude e a qualidade das respostas a consultas complexas de pesquisa de mercado em comparação com abordagens de agente único.

Xing Zhang, Yanwei Cui, Guanghui Wang, Qucy Wei Qiu, Ziyuan Li, Fangwei Han, Yajing Huang, Hengzhi Qiu, Bin Zhu, Peiyang He2026-03-13🤖 cs.AI

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

O artigo propõe o "Grammar of the Wave", um framework de agentes neuro-simbólicos que utiliza a representação "Event Logic Tree" para detectar eventos em séries temporais multivariadas com base em descrições em linguagem natural, oferecendo detecções precisas e explicações interpretáveis mesmo com dados de treinamento limitados.

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

O artigo apresenta o INFACT, um novo benchmark diagnóstico com 9.800 instâncias de perguntas e respostas que avalia a confiabilidade e as alucinações de facticidade e fidelidade em Modelos de Linguagem Grandes para Vídeo (Video-LLMs) sob condições degradadas e intervenções temporais, revelando que a alta precisão em cenários limpos não garante robustez nessas situações adversas.

Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen2026-03-13🤖 cs.AI

SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation

O artigo apresenta o SPEGC, um método de Adaptação Contínua em Tempo de Teste para segmentação de imagens médicas que supera a degradação de desempenho causada por lacunas de domínio ao combinar um mecanismo de aprimoramento de características com prompts semânticos e um solucionador de agrupamento em grafos baseado em transporte ótimo para gerar representações estruturais robustas.

Xiaogang Du, Jiawei Zhang, Tongfei Liu, Tao Lei, Yingbo Wang2026-03-13🤖 cs.AI

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

O artigo apresenta o KEPo, um novo método de ataque de envenenamento projetado especificamente para sistemas GraphRAG, que explora a evolução de conhecimento e a estrutura de grafos para manipular com sucesso as respostas de modelos de linguagem, superando as limitações das técnicas de ataque tradicionais.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Multi-Agent Collaboration for Automated Design Exploration on High Performance Computing Systems

O artigo apresenta o MADA, um framework baseado em modelos de linguagem que coordena agentes especializados para automatizar a exploração e refinamento iterativo de designs em sistemas de computação de alto desempenho, demonstrando sua eficácia na supressão da instabilidade de Richtmyer-Meshkov para fusão por confinamento inercial.

Harshitha Menon, Charles F. Jekel, Kevin Korner, Brian Gunnarson, Nathan K. Brown, Michael Stees, M. Giselle Fernandez-Godino, Walter Nissen, Meir H. Shachar, Dane M. Sterbentz, William J. Schill, Yue Hao, Robert Rieben, William Quadros, Steve Owen, Scott Mitchell, Ismael D. Boureima, Jonathan L. Belof2026-03-13🤖 cs.AI

FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

O artigo apresenta o FBCIR, um método de interpretação que identifica desequilíbrios na atenção entre modalidades em modelos de recuperação de imagem composta e propõe uma estratégia de aumento de dados com exemplos negativos difíceis para melhorar a robustez e o desempenho nesses cenários desafiadores.

Chenchen Zhao, Jianhuan Zhuo, Muxi Chen, Zhaohua Zhang, Wenyu Jiang, Tianwen Jiang, Qiuyong Xiao, Jihong Zhang, Qiang Xu2026-03-13🤖 cs.AI

EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection

O artigo apresenta o EReCu, um quadro unificado para Detecção de Objetos Camuflados Não Supervisionada que supera as limitações de rótulos pseudo-ruidosos e perda de detalhes através da integração de percepção multissensorial nativa, evolução inteligente de rótulos pseudo e refinamento local, alcançando desempenho superior em datasets complexos.

Shuo Jiang, Gaojia Zhang, Min Tan, Yufei Yin, Gang Pan2026-03-13🤖 cs.AI

Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

O artigo propõe o roteamento por Limiar de Especialista (ET), um mecanismo causal que atribui tokens a especialistas com base em limiares móveis independentes, permitindo alocação dinâmica de computação e equilíbrio de carga sem perdas auxiliares, o que resulta em melhor desempenho e eficiência no pré-treinamento de modelos de linguagem autoregressivos em comparação com o roteamento por escolha de token.

Hanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun2026-03-13🤖 cs.AI

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

O artigo apresenta o MANSION, o primeiro framework baseado em linguagem para gerar ambientes 3D realistas e navegáveis em escala de edifício com múltiplos andares, acompanhado do dataset MansionWorld e de um agente de edição semântica, visando superar as limitações dos benchmarks atuais e impulsionar o desenvolvimento de tarefas robóticas de longo horizonte que exigem raciocínio espacial complexo.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su2026-03-13🤖 cs.AI

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

O RoboClaw é um framework robótico agêntico que unifica coleta de dados, aprendizado e execução sob um único controlador VLM, utilizando Pares de Ação Entrelaçados para criar loops de auto-recuperação que permitem a coleta contínua de dados e a execução robusta de tarefas de longo alcance, reduzindo significativamente o esforço humano e aumentando a taxa de sucesso em comparação com pipelines convencionais.

Ruiying Li, Yunlang Zhou, YuYao Zhu, Kylin Chen, Jingyuan Wang, Sukai Wang, Kongtao Hu, Minhui Yu, Bowen Jiang, Zhan Su, Jiayao Ma, Xin He, Yongjian Shen, Yangyang, Guanghui Ren, Maoqing Yao, Wenhao Wang, Yao Mu2026-03-13🤖 cs.AI

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

O artigo descreve a "dinâmica helicoidal", um regime de falha observado em sete modelos de linguagem de ponta onde, sob alta pressão e incerteza, os sistemas reconhecem competentemente seus próprios erros e loops, mas continuam a reproduzi-los em níveis mais sofisticados, priorizando o conforto sobre a confiabilidade quando a verificação é impossível.

Alejandro R Jadad2026-03-13🤖 cs.AI