PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

O artigo apresenta o PanoAffordanceNet, um novo framework e conjunto de dados (360-AGD) que estabelecem a tarefa de "Grounding de Apropriação Holística" em ambientes internos de 360°, superando desafios como distorções geométricas e dispersão semântica para permitir uma percepção global em agentes corporificados.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

O artigo "Ego" propõe um método eficiente de personalização para modelos de linguagem visual que, ao extrair tokens visuais representativos de conceitos específicos por meio dos mecanismos de atenção internos, permite que o modelo reconheça e descreva esses conceitos em novas imagens sem a necessidade de treinamento adicional ou pipelines complexos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Este artigo demonstra que a simples remoção de gatilhos conhecidos é insuficiente para neutralizar backdoors, pois existem "gatilhos alternativos" distintos que ativam a mesma vulnerabilidade, motivando assim defesas que visem diretamente as direções do backdoor no espaço de representações em vez de apenas os gatilhos no espaço de entrada.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Este artigo demonstra que conceitos ausentes, cuja falta ativa neurônios, são comuns em redes neurais e frequentemente ignorados pelos métodos padrão de IA explicável, propondo extensões simples para técnicas de atribuição e visualização de recursos a fim de revelar e explorar essas "ausências codificadas" para melhorar a interpretabilidade e a mitigação de viés.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Este artigo propõe o DCPGN, um método inovador de adaptação no momento do teste que utiliza crescimento de protótipos multi-rótulo e consistência de dupla pista (visual e textual) para superar o desafio de antecipar ações entre as perspectivas egocêntrica e exocêntrica sem depender de dados de treinamento no alvo.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

O artigo apresenta o ConfCtrl, um framework de interpolação de vídeo que utiliza um mecanismo de interpolação consciente da confiança e correções residuais aprendidas para permitir que modelos de difusão gerem novas visões geometricamente consistentes e visualmente plausíveis a partir de apenas duas imagens, mesmo sob grandes mudanças de perspectiva.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

O artigo apresenta o BrainSTR, um framework de aprendizado contrastivo espaciotemporal que melhora a modelagem interpretável de redes cerebrais dinâmicas para diagnóstico neuropsiquiátrico, identificando fases críticas e sub-redes relevantes através de uma partição de fase adaptativa e aprendizado supervisionado contrastivo.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

O artigo apresenta o VLM-Loc, um framework que utiliza modelos de visão e linguagem para aprimorar a localização em mapas de nuvem de pontos a partir de descrições textuais, combinando representações estruturadas como imagens de visão aérea e grafos de cena com um mecanismo de atribuição de nós, e introduz o benchmark CityLoc para avaliação sistemática.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

O artigo apresenta o CycleULM, um quadro de aprendizado profundo unificado e sem rótulos que supera as limitações de dados e simulação na microscopia de localização por ultrassom, melhorando significativamente a resolução, a precisão de localização de microbolhas e a velocidade de processamento para viabilizar aplicações clínicas em tempo real.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

O artigo apresenta o InternVL-U, um modelo unificado multimodal leve de 4 bilhões de parâmetros que democratiza capacidades de compreensão, raciocínio, geração e edição, superando modelos maiores como o BAGEL (14B) em tarefas de geração e edição graças a uma arquitetura modular e um pipeline de dados focado em raciocínio.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

O artigo apresenta o DISPLAY, um framework inovador para geração de vídeos de interação humano-objeto que utiliza coordenadas esparsas de pulsos e caixas delimitadoras de objetos para garantir controle intuitivo e consistência física, aprimorado por mecanismos de atenção focados no objeto e uma estratégia de treinamento auxiliar multi-tarefa.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

O artigo apresenta o CourtSI, o primeiro grande conjunto de dados e benchmark para avaliar a inteligência espacial de modelos de linguagem e visão em cenários esportivos, demonstrando que o ajuste fino com esses dados supera significativamente as lacunas de desempenho atuais e melhora a capacidade de raciocínio espacial e geração de comentários em esportes de rede.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

O artigo apresenta o WikiCLIP, um framework contrastivo eficiente que supera métodos generativos em reconhecimento visual de entidades de domínio aberto ao utilizar embeddings de modelos de linguagem com um adaptador guiado por visão e um mecanismo de síntese de negativos difíceis, alcançando ganhos significativos de desempenho e reduzindo a latência de inferência em até 100 vezes.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este artigo propõe um método de recuperação de movimento baseado em ângulos articulares que transforma características locais em pseudo-imagens e utiliza interação tardia token-patch para superar as limitações de métodos globais, alcançando resultados superiores e maior interpretabilidade nas tarefas de recuperação texto-movimento.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

O artigo apresenta o ACADiff, um framework baseado em difusão latente que utiliza dados clínicos e metadados para sintetizar modalidades de imagem cerebral ausentes e realizar a imputação de dados multimodais, demonstrando desempenho superior na geração de imagens e na manutenção da precisão diagnóstica para a doença de Alzheimer mesmo em cenários com até 80% de dados faltantes.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI