Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

O artigo apresenta o UMPIRE, uma nova estrutura de quantificação de incerteza sem treinamento para Modelos de Linguagem Multimodal (MLLMs) que calcula o volume semântico ajustado à incoerência das respostas, superando as métricas existentes na detecção de erros e calibração de incerteza em diversas modalidades e cenários desafiadores.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

Histopathology Image Normalization via Latent Manifold Compaction

Este trabalho apresenta a Compacção de Variedade Latente (LMC), uma estrutura de aprendizado de representação não supervisionada que normaliza imagens de histopatologia ao comprimir compactamente variedades latentes induzidas por corantes, permitindo a generalização eficaz para dados de domínio alvo não vistos e superando métodos de normalização existentes em tarefas de classificação e detecção.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

O artigo propõe o modelo HAL (Hierarchical Action Learning), que utiliza um processo de geração de dados causal hierárquico e um transformador piramidal para explorar as diferentes escalas temporais entre variáveis visuais e de ação, permitindo a segmentação fraca supervisionada de ações com variáveis latentes estritamente identificáveis e desempenho superior em benchmarks.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

O artigo propõe um novo paradigma de treinamento que combina busca de modo e busca de média por meio de um Decoupled Diffusion Transformer, permitindo a geração rápida e coerente de vídeos longos com alta fidelidade local ao alinhar janelas deslizantes a um modelo professor de vídeos curtos enquanto aprende estruturas narrativas de longo prazo a partir de dados limitados.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

O artigo apresenta o SGIFormer, um novo método para segmentação de instâncias em nuvens de pontos 3D que utiliza uma inicialização de consultas guiada por semântica e um decodificador transformador intercalado aprimorado geometricamente para alcançar desempenho de última geração em grandes cenas com equilíbrio entre precisão e eficiência.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Distractor-free Generalizable 3D Gaussian Splatting

O artigo apresenta o DGGS, um novo quadro de trabalho que resolve o desafio de esmaltação gaussiana 3D generalizável livre de distrações, mitigando inconsistências e instabilidades de treinamento através de um módulo de previsão de máscaras agnóstico à cena e de um framework de inferência em duas etapas com seleção e poda de distrações para reconstrução robusta em cenas não vistas.

Yanqi Bao, Jing Liao, Jing Huo + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Este artigo propõe um framework que permite que modelos de visão e linguagem operem em cenários de mundo aberto, identificando e aprendendo incrementalmente objetos desconhecidos por meio das técnicas OWEL e MSCAL, superando as limitações da detecção de vocabulário aberto tradicional e alcançando desempenho superior em benchmarks de direção autônoma.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

Este artigo propõe um método inovador para animar esboços desenhados à mão a partir de prompts de texto, utilizando um modelo de difusão texto-para-vídeo pré-treinado combinado com regularização de comprimento-área para consistência temporal e uma perda ARAP para preservar a rigidez e a topologia do desenho, superando assim o estado da arte atual.

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs