Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Este artigo apresenta um novo framework de detecção de anomalias em vídeo semi-supervisionado que utiliza Modelos de Linguagem Multimodais (MLLMs) para gerar descrições textuais de interações entre objetos, superando as limitações de métodos existentes ao detectar anomalias complexas com alto nível de explicabilidade e desempenho de ponta.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Este artigo apresenta a Agregação Atenta de Recursos (AFA), um mecanismo de pooling leve que permite a políticas visuomotoras treinadas com representações visuais pré-treinadas ignorar distrações irrelevantes e focar em pistas visuais essenciais, resultando em maior robustez a perturbações visuais sem necessidade de aumento de dados ou ajuste fino.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Este estudo demonstra que, na classificação de tumores cerebrais em ressonância magnética com dados limitados, arquiteturas de CNN de propósito geral pré-treinadas (como ConvNeXt-Tiny) superam modelos pré-treinados especificamente em dados médicos (como RadImageNet DenseNet121), indicando que o pré-treinamento em domínios diversificados pode ser mais eficaz para tarefas diagnósticas especializadas.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

O artigo propõe o TARDis, um novo framework consciente da física que utiliza a disjunção de representações atenuadas pelo tempo para superar a falta de fases de contraste em tomografias computadorizadas, permitindo a segmentação e classificação precisa de tumores ao modelar a dinâmica hemodinâmica contínua mesmo com dados incompletos.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

O artigo apresenta o ColaVLA, um framework unificado de visão-linguagem-ação que supera as limitações de latência e desalinhamento dos planejadores baseados em modelos de linguagem visual ao transferir o raciocínio cognitivo para um espaço latente unificado e gerar trajetórias hierárquicas e paralelas em uma única passagem, alcançando desempenho de ponta no benchmark nuScenes.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Este trabalho apresenta o WMReward, uma abordagem de alinhamento em tempo de inferência que utiliza um modelo de mundo latente (VJEPA-2) como recompensa para orientar múltiplas trajetórias de geração, resultando em uma melhoria substancial na plausibilidade física de vídeos gerados e na conquista do primeiro lugar no desafio PhysicsIQ do ICCV 2025.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

O artigo apresenta o CPiRi, um modelo inovador para previsão de séries temporais multivariadas que combina uma arquitetura de desacoplamento espaço-temporal com uma estratégia de regularização de permutação para aprender dependências entre canais de forma invariante à ordem, superando as limitações de modelos dependentes ou independentes de canais e demonstrando forte generalização indutiva e eficiência prática.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs