Δ\DeltaVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

O artigo apresenta o Δ\DeltaVLA, um modelo de Visão-Linguagem-Ação que supera as abordagens preditivas tradicionais ao gerar ações baseadas na variação do conhecimento do mundo em relação a um prior explícito, utilizando um extrator de prior, quantização latente e atenção condicional para alcançar desempenho superior e maior eficiência em tarefas robóticas.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

Este trabalho apresenta o UniDiffDA, um quadro analítico unificado que decompõe métodos de aumento de dados baseados em difusão em três componentes principais, permitindo uma avaliação sistemática e justa de suas estratégias em tarefas de classificação com poucos dados, além de oferecer insights práticos e garantir reprodutibilidade através da reimplantação de todos os métodos em uma base de código comum.

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

O artigo propõe o framework Adaptive Manifold Prototypes (AMP), que utiliza otimização riemanniana na variedade de Stiefel para representar protótipos de classe como bases ortonormais, mitigando o colapso de protótipos e melhorando simultaneamente a precisão de classificação e a fidelidade causal em tarefas de reconhecimento fino.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

The biased interaction game: Its dynamics and application in modelling social systems

Este artigo apresenta o "jogo de interação enviesada" como uma ferramenta para modelar sistemas sociais sob escassez e racionalidade limitada, demonstrando como o viés gera hierarquia, cooperação e comportamentos não lineares, além de aplicar o modelo para comparar filosofias de redistribuição de riqueza como o estado de bem-estar social e a renda básica universal.

Phil Mercy, Martin Neil2026-03-10💻 cs

Structure from Rank: Rank-Order Coding as a Bridge from Sequence to Structure

Este artigo propõe um modelo de rede neural baseado em codificação por ordem de rank, inspirado no pathway STG-LIFG-PMC, que demonstra como essa codificação permite a compressão eficiente de sequências, a detecção de novidades globais e a generalização proto-sintática, servindo como uma ponte entre a entrada acústica e a representação hierárquica de estruturas gramaticais.

Xiaodan Chen, Alexandre Pitti, Mathias Quoy, Nancy Chen2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

O MoMaStage é um framework de visão e linguagem estruturado que utiliza um grafo de estado-habilidade e execução em malha fechada para permitir que robôs móveis manipuladores executem tarefas de longo alcance em ambientes internos com maior consistência lógica, adaptabilidade e sucesso, eliminando a necessidade de mapeamento explícito do ambiente.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Este estudo apresenta um modelo de fluxo retificado que gera previsões realistas de ressonância magnética cerebral pós-tratamento para pacientes com glioma, utilizando dados pré-terapêuticos e mapas de dose de radioterapia para permitir simulações contrafactuais e otimização do planejamento terapêutico com alta fidelidade e velocidade de inferência.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

O artigo apresenta o AULLM++, um framework baseado em Modelos de Linguagem Grande (LLMs) que supera as limitações de métodos anteriores na detecção de Unidades de Ação (AU) de microexpressões ao integrar evidências visuais multigranulares e modelagem estrutural de relações entre AUs para alcançar desempenho superior e melhor generalização.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation

O artigo propõe o Framework Gráfico Hierárquico de Correção de Erros (HECG), uma arquitetura inovadora para agentes autônomos com geração de ações baseada em LLMs que integra Transferência de Estratégia Multidimensional (MDTS), Classificação Matricial de Erros (EMC) e Recuperação de Gráfico Causal-Contextual (CCGR) para otimizar a seleção de estratégias, diagnosticar falhas com precisão e melhorar a execução em tarefas complexas e dinâmicas.

Cong Cao, Jingyao Zhang, Kun Tong2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

O artigo apresenta o StructBiHOI, um framework inovador que utiliza modelagem de articulação estruturada com um denoiser baseado em Mamba para gerar interações bimanuais mão-objeto de longo horizonte, superando desafios de estabilidade temporal e coordenação complexa ao separar o planejamento de juntas de longo prazo do refinamento de poses em nível de quadro.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

O artigo apresenta o SPIRAL, um framework de malha fechada que utiliza agentes de planejamento e reflexão iterativa para aprimorar a geração de vídeos de longo prazo condicionados a ações semânticas, superando as limitações de consistência temporal e alinhamento semântico dos modelos existentes.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Este trabalho apresenta e avalia um sistema de streaming de nuvens de pontos dinâmicas que utiliza transcodificação sob demanda, demonstrando empiricamente que o uso de cache e transcodificação especulativa reduz significativamente a carga de processamento e melhora a experiência do usuário, permitindo a escalabilidade para um maior número de clientes simultâneos.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr Rizk2026-03-10💻 cs

Human-Aware Robot Behaviour in Self-Driving Labs

Este artigo apresenta um método de percepção baseado em IA com previsão hierárquica de intenções humanas que permite aos robôs em laboratórios autônomos antecipar e interagir proativamente com pesquisadores humanos, superando as limitações dos sistemas atuais de detecção de obstruções e otimizando a coordenação em ambientes compartilhados.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

Este artigo propõe o framework AFOP-ML, uma rede prototípica com otimização automática de recursos que utiliza aprendizado meta para realizar o reconhecimento tátil de formas e materiais com alta precisão em cenários de poucos exemplos, superando métodos existentes e demonstrando robustez frente a perturbações e classes não vistas.

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs