PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

O PhysDrape é um solucionador híbrido neural-físico que integra uma Rede Neural Orientada a Física com um solver de projeção diferenciável para garantir a drapagem realista de vestuário, resolvendo efetivamente o conflito entre validade geométrica e plausibilidade física ao impor restrições de colisão explícitas e minimizar a energia de deformação.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

O artigo propõe o FlowAdapt, um framework de adaptação de domínio eficiente em parâmetros baseado na teoria do transporte ótimo que supera os desafios da percepção colaborativa em V2X ao filtrar redundâncias e preservar semânticas finas, alcançando desempenho superior com apenas 1% dos parâmetros treináveis.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

O artigo apresenta o 3DMedAgent, um agente unificado que capacita modelos de linguagem multimodal (MLLMs) bidimensionais a realizar análises completas de tomografias computadorizadas 3D sem necessidade de ajuste fino específico para 3D, coordenando ferramentas heterogêneas e memória estruturada para decompor tarefas complexas em raciocínio passo a passo baseado em evidências.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Este artigo demonstra que arquiteturas que aprendem operadores equivariantes em um espaço latente podem superar as limitações de redes tradicionais e equivariantes na classificação de objetos sob transformações simétricas não vistas durante o treinamento, embora ainda existam desafios significativos para escalar essa abordagem a conjuntos de dados mais complexos.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

O artigo apresenta o OVerSeeC, um framework modular de zero-shot que gera mapas de custo globais para planejamento de navegação autônoma a partir de imagens de satélite e instruções em linguagem natural, combinando modelos de linguagem e segmentação aberta para adaptar-se dinamicamente a entidades desconhecidas e regras de missão composicionais.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Este trabalho apresenta o novo cenário de Generalização de Domínio de Vocabulário Aberto em Segmentação Semântica (OVDG-SS), introduzindo um benchmark pioneiro para direção autônoma e propondo o mecanismo S2-Corr para refinar as correlações texto-imagem em Modelos Visão-Linguagem, superando assim as limitações de robustez em domínios e categorias não vistos.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

O artigo apresenta o UniMatch, um framework de correspondência semântica densa que utiliza orientação linguística e aprendizado contrastivo para estabelecer correspondências entre formas 3D não isométricas de categorias diversas, superando as limitações de métodos anteriores que dependiam de suposições isométricas ou de tipos de sujeitos homogêneos.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

O artigo apresenta o "See It, Say It, Sorted", um framework leve e sem treinamento que aprimora o raciocínio multimodal em modelos LVLMs ao supervisionar iterativamente cada passo do pensamento com evidências visuais dinâmicas, reduzindo alucinações e melhorando a precisão sem necessidade de re-treinamento.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

O WISER é um framework de recuperação de imagens composta zero-shot sem treinamento que supera os métodos existentes ao unificar as abordagens Texto-para-Imagem e Imagem-para-Imagem em um pipeline de "busca mais ampla, pensamento mais profundo e fusão adaptativa", utilizando verificação de confiança e auto-reflexão estruturada para refinar dinamicamente os resultados.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

O artigo apresenta o PackUV, um novo método de representação volumétrica 4D que mapeia atributos gaussianos em mapas UV estruturados para compatibilidade com codecs de vídeo padrão, introduzindo também o método de ajuste PackUV-GS e o conjunto de dados PackUV-2B para superar limitações de consistência temporal e escalabilidade em sequências longas.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

O artigo apresenta o Infinito Self-Attention (InfSA), uma reformulação espectral que modela a atenção como um processo de difusão em grafos de tokens para superar o custo quadrático do softmax, introduzindo a variante Linear-InfSA que alcança complexidade linear, permite processamento de imagens de ultra-alta resolução (até 9216x9216) e supera os Transformers convencionais em precisão e eficiência energética no ImageNet.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Este artigo de posicionamento defende que a avaliação de sistemas modernos de processamento visual deve abandonar a primazia de métricas objetivas de qualidade de imagem em favor de uma abordagem centrada no ser humano, contextual e detalhada, para evitar que a divergência entre resultados métricos e percepção humana restrinja a inovação e desvie o progresso da pesquisa.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs