InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

O artigo apresenta o InternVL-U, um modelo unificado multimodal leve de 4 bilhões de parâmetros que democratiza capacidades de compreensão, raciocínio, geração e edição, superando modelos maiores como o BAGEL (14B) em tarefas de geração e edição graças a uma arquitetura modular e um pipeline de dados focado em raciocínio.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

O artigo apresenta o DISPLAY, um framework inovador para geração de vídeos de interação humano-objeto que utiliza coordenadas esparsas de pulsos e caixas delimitadoras de objetos para garantir controle intuitivo e consistência física, aprimorado por mecanismos de atenção focados no objeto e uma estratégia de treinamento auxiliar multi-tarefa.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Este artigo apresenta um estudo comparativo de cinco abordagens de localização cooperativa em ambientes sem características, revelando que, embora métodos como StCL e Standard-CL ofereçam alta precisão, eles sofrem de inconsistência, enquanto a Interseção de Covariância (CI) se destaca como a solução mais equilibrada, combinando consistência robusta com precisão competitiva.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

O segundo track de Geração Aumentada por Recuperação (RAG) do TREC 2025 avança a pesquisa em sistemas que integram recuperação e geração para atender a necessidades informacionais complexas, introduzindo consultas narrativas longas e um quadro de avaliação multifacetado para fomentar a criação de sistemas confiáveis e contextualmente conscientes.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

O artigo apresenta o CourtSI, o primeiro grande conjunto de dados e benchmark para avaliar a inteligência espacial de modelos de linguagem e visão em cenários esportivos, demonstrando que o ajuste fino com esses dados supera significativamente as lacunas de desempenho atuais e melhora a capacidade de raciocínio espacial e geração de comentários em esportes de rede.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

O artigo apresenta o WikiCLIP, um framework contrastivo eficiente que supera métodos generativos em reconhecimento visual de entidades de domínio aberto ao utilizar embeddings de modelos de linguagem com um adaptador guiado por visão e um mecanismo de síntese de negativos difíceis, alcançando ganhos significativos de desempenho e reduzindo a latência de inferência em até 100 vezes.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este artigo propõe um método de recuperação de movimento baseado em ângulos articulares que transforma características locais em pseudo-imagens e utiliza interação tardia token-patch para superar as limitações de métodos globais, alcançando resultados superiores e maior interpretabilidade nas tarefas de recuperação texto-movimento.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Este artigo propõe um novo framework de adaptação de domínio não supervisionada baseado na Discrepância de Desigualdade de Margem (MDD) para melhorar a segmentação do fígado em imagens de CBCT intervencionista, utilizando dados anotados de TC e dados não anotados de CBCT para superar a escassez de anotações específicas desse modo de imagem.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Este artigo propõe uma abordagem fundamentada na geometria do espaço de hipersféricas para o descarte de tokens em modelos de recuperação de interação tardia, formulando o problema como uma estimativa de células de Voronoi para reduzir o armazenamento do índice sem comprometer a qualidade da recuperação.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

O artigo apresenta o KDMR, uma nova estrutura de retransmissão de movimento cinodinâmico que formula a locomoção humanoides como um problema de otimização de trajetória corporal completa com múltiplos contatos, superando as limitações de métodos puramente cinemáticos ao garantir consistência física e melhorar o treinamento de políticas de controle.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

Tetris is Hard with Just One Piece Type

Este artigo demonstra que o problema de determinar a viabilidade de limpar ou sobreviver no Tetris com uma única peça tetromino (exceto a peça O) é NP-difícil sob o sistema de rotação padrão, refutando uma conjectura antiga, enquanto estabelece que o problema se torna polinomial para peças do tipo dominó e para peças $1 \times k$ em condições específicas de tabuleiro.

MIT Hardness Group, Josh Brunner, Erik D. Demaine, Della Hendrickson, Jeffery Li2026-03-11💻 cs

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

O artigo apresenta o ReCoSplat, um modelo feed-forward autoregressivo para síntese de novas visões online que utiliza um módulo Render-and-Compare para compensar erros de pose e uma estratégia híbrida de compressão de cache para permitir a reconstrução eficiente de sequências longas, alcançando desempenho state-of-the-art em diversos cenários.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

O artigo apresenta o TiPToP, um sistema modular de planejamento de manipulação robótica que combina modelos de visão pré-treinados com um planejador de tarefas e movimentos para executar tarefas complexas a partir de imagens e instruções em linguagem natural sem necessidade de dados de treinamento específicos do robô, demonstrando desempenho superior ou equivalente a modelos de ação visão-linguagem treinados com milhares de horas de demonstrações.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs