TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

O artigo apresenta o TriFusion-SR, um novo framework baseado em difusão condicional guiada por wavelets que realiza a fusão conjunta e a super-resolução de imagens médicas tri-modais, superando os métodos existentes ao decompor características em bandas de frequência e calibrar coeficientes latentes para obter ganhos significativos em qualidade perceptual e métricas de precisão.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

O artigo apresenta o FrameDiT, uma arquitetura de Transformer de Difusão que introduz o mecanismo de Atenção Matricial em nível de quadro para superar o compromisso entre eficiência e modelagem de dinâmicas espaço-temporais complexas, alcançando resultados de ponta na geração de vídeo com alta coerência temporal e qualidade.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

O artigo apresenta o EXPLORE-Bench, um novo benchmark derivado de vídeos em primeira pessoa para avaliar a capacidade de modelos de linguagem multimodal em prever cenas finais após sequências longas de ações, revelando uma lacuna significativa em relação ao desempenho humano e demonstrando que a decomposição passo a passo das ações pode melhorar o raciocínio a longo prazo, embora com custos computacionais adicionais.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

O artigo apresenta o FetalAgents, o primeiro sistema multi-agente que orquestra especialistas de visão computacional para analisar ultrassons fetais em vídeo e gerar relatórios clínicos estruturados, superando modelos existentes em precisão e adaptabilidade ao fluxo de trabalho clínico.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

M2M^2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

O artigo apresenta o M2M^2-Occ, um framework inovador para previsão de oclusão semântica 3D em direção autônoma que utiliza reconstrução mascarada multiview e memória de características para manter a precisão geométrica e semântica mesmo na ausência de múltiplas câmeras, superando significativamente os métodos existentes em cenários de falha de visão.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artigo apresenta o SACA, um novo quadro de alinhamento contrastivo sensível a etapas que extrai supervisão densa de trajetórias imperfeitas para superar as limitações de generalização e estabilidade no treinamento de agentes de Navegação Visão-Linguagem em Ambientes Contínuos, alcançando desempenho state-of-the-art.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

O artigo apresenta o ENIGMA-360, um novo conjunto de dados sincronizado de vídeos egocêntricos e exocêntricos em cenários industriais reais, equipado com anotações temporais e espaciais para impulsionar a compreensão do comportamento humano e estabelecer linhas de base para tarefas como segmentação de ações e detecção de interações.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

O artigo apresenta o LAP, um modelo inovador que utiliza a expressividade da linguagem para superar a ambiguidade visual no planejamento de procedimentos em vídeos instrucionais, alcançando desempenho superior ao estado da arte em múltiplos benchmarks ao empregar um modelo de linguagem visual para gerar representações textuais distintas que alimentam um modelo de difusão para prever sequências de ações.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

O artigo apresenta o PanoAffordanceNet, um novo framework e conjunto de dados (360-AGD) que estabelecem a tarefa de "Grounding de Apropriação Holística" em ambientes internos de 360°, superando desafios como distorções geométricas e dispersão semântica para permitir uma percepção global em agentes corporificados.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

O artigo "Ego" propõe um método eficiente de personalização para modelos de linguagem visual que, ao extrair tokens visuais representativos de conceitos específicos por meio dos mecanismos de atenção internos, permite que o modelo reconheça e descreva esses conceitos em novas imagens sem a necessidade de treinamento adicional ou pipelines complexos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Este artigo demonstra que a simples remoção de gatilhos conhecidos é insuficiente para neutralizar backdoors, pois existem "gatilhos alternativos" distintos que ativam a mesma vulnerabilidade, motivando assim defesas que visem diretamente as direções do backdoor no espaço de representações em vez de apenas os gatilhos no espaço de entrada.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Este artigo demonstra que conceitos ausentes, cuja falta ativa neurônios, são comuns em redes neurais e frequentemente ignorados pelos métodos padrão de IA explicável, propondo extensões simples para técnicas de atribuição e visualização de recursos a fim de revelar e explorar essas "ausências codificadas" para melhorar a interpretabilidade e a mitigação de viés.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Este artigo propõe o DCPGN, um método inovador de adaptação no momento do teste que utiliza crescimento de protótipos multi-rótulo e consistência de dupla pista (visual e textual) para superar o desafio de antecipar ações entre as perspectivas egocêntrica e exocêntrica sem depender de dados de treinamento no alvo.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

O artigo apresenta o ConfCtrl, um framework de interpolação de vídeo que utiliza um mecanismo de interpolação consciente da confiança e correções residuais aprendidas para permitir que modelos de difusão gerem novas visões geometricamente consistentes e visualmente plausíveis a partir de apenas duas imagens, mesmo sob grandes mudanças de perspectiva.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

O artigo apresenta o BrainSTR, um framework de aprendizado contrastivo espaciotemporal que melhora a modelagem interpretável de redes cerebrais dinâmicas para diagnóstico neuropsiquiátrico, identificando fases críticas e sub-redes relevantes através de uma partição de fase adaptativa e aprendizado supervisionado contrastivo.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs