LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

O artigo apresenta o LinVideo, uma framework de pós-treinamento livre de dados que substitui seletivamente módulos de atenção quadrática por atenção linear em modelos de difusão de vídeo, utilizando correspondência de distribuição para alcançar acelerações de 1,25 a 2,00 vezes (e até 15,92 vezes em modelos destilados) sem comprometer a qualidade de geração.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Este artigo apresenta o Modelo Específico de Estado (SSM), um novo quadro unificado que melhora a detecção e antecipação de ações em vídeos não editados ao comprimir redundâncias, modelar dinâmicas de ação complexas e integrar interações cruzadas temporais para capturar a intenção do agente, alcançando desempenho superior em múltiplos conjuntos de dados de referência.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Este artigo apresenta o NEO, uma nova família de Modelos Visuais-Linguísticos (VLMs) nativos construída a partir de princípios fundamentais para superar as limitações dos modelos modulares, alinhando representações de pixels e palavras em um espaço semântico compartilhado e oferecendo uma arquitetura monolítica eficiente e acessível para pesquisa escalável.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Este artigo investiga o impacto da complexidade dos prompts na qualidade, diversidade e consistência de dados sintéticos gerados por modelos de texto-para-imagem, demonstrando que, embora prompts mais complexos reduzam a divergência da distribuição real, eles diminuem a diversidade e a consistência, sendo que a expansão de prompts via modelos de linguagem pré-treinados se destaca como a intervenção mais eficaz para superar até mesmo os dados reais em diversidade e estética.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

O artigo apresenta o SYNAPSE-Net, uma estrutura unificada e adaptativa baseada em codificadores convolucionais multi-stream e fusão por atenção cruzada, que demonstra robustez e alta precisão na segmentação automática de lesões cerebrais heterogêneas em ressonância magnética multimodal, validada em três conjuntos de dados públicos de desafios internacionais.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

O artigo apresenta o BEAT, um novo framework que injeta backdoors visuais em agentes corporificados baseados em Modelos Visuais-Linguísticos (VLMs) utilizando objetos do ambiente como gatilhos, empregando uma técnica inovadora de Aprendizado de Gatilho Contrastivo (CTL) para garantir ativações precisas e generalizáveis sem comprometer o desempenho em tarefas benignas.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

O MoDES é um framework sem treinamento que acelera a inferência de modelos multimodais de linguagem grande baseados em Mixture-of-Experts (MoE) ao introduzir um mecanismo de gate globalmente modulado e um método de limiarização de dupla modalidade para ignorar dinamicamente especialistas redundantes, resultando em ganhos significativos de velocidade e precisão sem degradação de desempenho.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

O artigo apresenta o LocateAnything3D, um modelo nativo de visão e linguagem que reformula a detecção 3D como um problema de previsão de tokens usando uma sequência de "Cadeia de Visão" (Chain-of-Sight) para inferir primeiro a localização 2D e depois as propriedades 3D, alcançando resultados state-of-the-art no benchmark Omni3D e generalização zero-shot sem cabeças especializadas.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Este trabalho apresenta o CheXmask-U, um método e um grande conjunto de dados que quantificam a incerteza na segmentação baseada em marcos anatômicos de radiografias torácicas, permitindo a identificação de previsões não confiáveis e a detecção de dados fora de distribuição para promover o uso seguro e robusto dessas técnicas.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

O artigo apresenta o MRD, uma abordagem que utiliza renderização diferenciável baseada em física para sondar a compreensão implícita de cenas 3D em modelos de visão, encontrando parâmetros de cena fisicamente distintos que produzem as mesmas ativações do modelo (metâmeros) para analisar sua sensibilidade a atributos como forma e material.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs