InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

O artigo apresenta o InternVL-U, um modelo unificado multimodal leve de 4 bilhões de parâmetros que democratiza capacidades de compreensão, raciocínio, geração e edição, superando modelos maiores como o BAGEL (14B) em tarefas de geração e edição graças a uma arquitetura modular e um pipeline de dados focado em raciocínio.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

O artigo apresenta o DISPLAY, um framework inovador para geração de vídeos de interação humano-objeto que utiliza coordenadas esparsas de pulsos e caixas delimitadoras de objetos para garantir controle intuitivo e consistência física, aprimorado por mecanismos de atenção focados no objeto e uma estratégia de treinamento auxiliar multi-tarefa.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

O artigo apresenta o CourtSI, o primeiro grande conjunto de dados e benchmark para avaliar a inteligência espacial de modelos de linguagem e visão em cenários esportivos, demonstrando que o ajuste fino com esses dados supera significativamente as lacunas de desempenho atuais e melhora a capacidade de raciocínio espacial e geração de comentários em esportes de rede.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

O artigo apresenta o WikiCLIP, um framework contrastivo eficiente que supera métodos generativos em reconhecimento visual de entidades de domínio aberto ao utilizar embeddings de modelos de linguagem com um adaptador guiado por visão e um mecanismo de síntese de negativos difíceis, alcançando ganhos significativos de desempenho e reduzindo a latência de inferência em até 100 vezes.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este artigo propõe um método de recuperação de movimento baseado em ângulos articulares que transforma características locais em pseudo-imagens e utiliza interação tardia token-patch para superar as limitações de métodos globais, alcançando resultados superiores e maior interpretabilidade nas tarefas de recuperação texto-movimento.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

O artigo apresenta o ACADiff, um framework baseado em difusão latente que utiliza dados clínicos e metadados para sintetizar modalidades de imagem cerebral ausentes e realizar a imputação de dados multimodais, demonstrando desempenho superior na geração de imagens e na manutenção da precisão diagnóstica para a doença de Alzheimer mesmo em cenários com até 80% de dados faltantes.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Este artigo propõe um novo framework de adaptação de domínio não supervisionada baseado na Discrepância de Desigualdade de Margem (MDD) para melhorar a segmentação do fígado em imagens de CBCT intervencionista, utilizando dados anotados de TC e dados não anotados de CBCT para superar a escassez de anotações específicas desse modo de imagem.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

O artigo apresenta o k-MTR, um framework de aprendizado de representação no espaço k que elimina a necessidade de reconstrução de imagens ao alinhar dados subamostrados diretamente com rótulos fisiológicos, permitindo uma análise cardíaca multi-tarefa precisa e eficiente sem passar pelo passo intermediário de formação de imagem.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen Pan2026-03-11🤖 cs.AI

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

O artigo apresenta o C2FMAE, um autoencoder mascarado de coarse-to-fine que resolve a tensão entre aprendizado de semântica global e detalhes locais ao aprender representações visuais hierárquicas através de um decodificador em cascata e um currículo de mascaramento progressivo, resultando em ganhos significativos em tarefas de visão computacional.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

O artigo apresenta o BEACON, um método que supera as limitações de navegação baseada em linguagem em cenários com oclusão ao prever um mapa de calor de affordance em visão de pássaro (BEV) a partir de observações multiview, alcançando uma melhoria significativa de 22,74 pontos percentuais em relação às abordagens de estado da arte baseadas em espaço de imagem.

Xinyu Gao, Gang Chen, Javier Alonso-Mora2026-03-11🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

O artigo apresenta o ReCoSplat, um modelo feed-forward autoregressivo para síntese de novas visões online que utiliza um módulo Render-and-Compare para compensar erros de pose e uma estratégia híbrida de compressão de cache para permitir a reconstrução eficiente de sequências longas, alcançando desempenho state-of-the-art em diversos cenários.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Este artigo demonstra que, em cenários de dados realistas com características correlacionadas, a superposição em redes neurais pode organizar-se de forma a transformar interferências em efeitos construtivos, gerando agrupamentos semânticos e estruturas cíclicas que não são explicadas pelo modelo tradicional de superposição baseado em características não correlacionadas.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

O artigo apresenta o μ\partial\mu, uma abordagem de projeto de ponta a ponta baseada em dados para o design de sistemas ópticos, demonstrando sua eficácia na criação de um microscópio de recuperação de fase totalmente óptico que supera métodos existentes e foi validado experimentalmente.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Este artigo apresenta o PD-REAL, um novo conjunto de dados em larga escala para detecção de anomalias 3D baseado em modelos de Play-Doh, e propõe um método de destilação hierárquica multiescala que integra informações RGB e de profundidade para superar as limitações das abordagens unimodais e melhorar a precisão na detecção de anomalias.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs