v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

O artigo apresenta o v-HUB, um novo benchmark para compreensão de humor em vídeos que utiliza vídeos não verbais e anotações ricas para avaliar modelos de linguagem multimodal, demonstrando que a integração de pistas auditivas melhora significativamente a capacidade desses modelos de entender o humor.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

O artigo apresenta o AlphaApollo, um sistema de raciocínio agênico que supera limitações em modelos fundamentais ao combinar interações de múltiplas voltas, aprendizado por reforço e evolução iterativa para melhorar significativamente o desempenho em tarefas de raciocínio complexo e de longo prazo.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

O artigo apresenta o RL-100, um framework de aprendizado por reforço no mundo real baseado em políticas visuomotoras de difusão que unifica imitação e reforço, alcançando 100% de sucesso em diversas tarefas robóticas complexas e demonstrando alta robustez e eficiência em cenários de implantação prática.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

O artigo apresenta o FALCON, um novo paradigma que integra priores espaciais 3D ricos em modelos de fundação diretamente no cabeçalho de ação de modelos Visão-Linguagem-Ação, permitindo raciocínio espacial robusto e desempenho de ponta em tarefas do mundo real sem comprometer o alinhamento linguístico ou exigir reestruturação arquitetural.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

O artigo apresenta o SynHLMA, um novo framework que gera sequências de manipulação de mãos para objetos articulados a partir de instruções em linguagem natural, utilizando uma representação discreta de interação mão-objeto e uma perda consciente das juntas para garantir a coerência dinâmica e funcionalidade em tarefas como geração, previsão e interpolação de gestos.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

O artigo apresenta o GraphKeeper, um método inovador de aprendizado incremental em grafos que aborda o esquecimento catastrófico em cenários de múltiplos domínios através da disentrelaçamento e preservação de conhecimento, alcançando desempenho superior e compatibilidade com diversos modelos fundamentais de grafos.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Este artigo propõe a "capacidade de informação", uma nova métrica que avalia a eficiência de modelos de linguagem grandes através do desempenho de compressão de texto em relação à complexidade computacional e à eficiência do tokenizer, demonstrando sua utilidade para prever o desempenho, identificar vieses linguísticos e orientar o desenvolvimento futuro de modelos mais eficientes.

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

O artigo apresenta o MediRound, um modelo e um novo conjunto de dados (MR-MedSeg) que habilitam a segmentação de imagens médicas por meio de diálogos de múltiplas rodadas com raciocínio em nível de entidade, superando as limitações de métodos anteriores ao incorporar um mecanismo de julgamento e correção para mitigar erros de propagação.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Este artigo apresenta um método de aprendizado em contexto utilizando modelos fundamentais de séries temporais para classificar o estado de saúde de mancais em dados de vibração sem necessidade de ajuste fino, permitindo a previsão de probabilidades de classe através da transformação de sinais de referência em padrões pseudo temporais.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng Feng2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Este artigo propõe o módulo Adaptive Diversity Cache (ADC), uma solução de treinamento livre e plug-and-play que mitiga o viés de cauda longa na detecção de Interação Humano-Objeto (HOI) ao acumular representações de características diversas e de alta confiança durante a inferência, melhorando significativamente a detecção de categorias raras sem necessidade de ajuste adicional.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

O artigo apresenta o UPA-RFAS, um quadro unificado que gera um ataque de patch adversarial universal e transferível para modelos Visão-Linguagem-Ação (VLA), capaz de comprometer robôs em cenários de caixa preta, diferentes arquiteturas e transições simulação-realidade ao manipular representações de recursos, atenção e semântica.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Multi-Agent Reinforcement Learning with Communication-Constrained Priors

Este artigo propõe um novo quadro de aprendizado por reforço multiagente que utiliza um prior generalizado de comunicação com restrições e um estimador de informação mútua dual para distinguir e quantificar o impacto de mensagens com e sem perdas na tomada de decisão distribuída, demonstrando eficácia em benchmarks com limitações de comunicação.

Guang Yang, Tianpei Yang, Jingwen Qiao, Yanqing Wu, Jing Huo, Xingguo Chen, Yang Gao2026-03-11🤖 cs.AI