Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Este trabalho propõe um método de otimização de textura adversarial 3D consistente com a viewpoint, utilizando renderização diferenciável e estratégias de aprendizado como EOT e um currículo de refinamento, para explorar e explorar vulnerabilidades em políticas visuomotoras de robôs sob condições de viewpoint dinâmico, superando as limitações dos ataques de patches 2D tradicionais.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

O artigo apresenta o VisionPangu, um assistente multimodal compacto de 1,7 bilhão de parâmetros que, ao combinar um codificador de visão derivado do InternVL com o modelo de linguagem OpenPangu e utilizar descrições humanas densas do conjunto de dados DOCCI, alcança desempenho competitivo na geração de legendas detalhadas e semanticamente coerentes sem depender de escalas de modelo agressivas.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

O artigo apresenta o BiEvLight, um framework de aprendizado em dois níveis que otimiza colaborativamente a remoção de ruído em eventos e o aprimoramento de imagens em baixa luminosidade, tratando a denoising como um problema de otimização guiado pela tarefa de aprimoramento para superar o acoplamento de ruído e superar os métodos mais avançados.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

O artigo apresenta o 3D-RFT, um novo paradigma que aplica o Ajuste Fino por Reforço com Recompensas Verificáveis (RLVR) para otimizar diretamente modelos multimodais de grande escala em tarefas de compreensão de cenas 3D baseadas em vídeo, superando o desempenho de métodos anteriores e de modelos maiores ao alinhar os objetivos de treinamento com métricas de avaliação específicas.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

O artigo apresenta o MultiGO++, um novo framework de reconstrução 3D de humanos vestidos a partir de uma única imagem que supera as limitações existentes através de uma colaboração eficaz entre geometria e textura, utilizando síntese de textura multi-fonte, extração de forma consciente de regiões e uma rede U-Net de dupla reconstrução para gerar malhas texturizadas de alta fidelidade.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Este trabalho apresenta um estudo em larga escala sobre a Restauração de Imagens Generativa, utilizando uma nova pipeline de avaliação multidimensional para revelar que o campo evoluiu do desafio da escassez de detalhes para a necessidade de controlar a qualidade e a semântica dos detalhes gerados, ao mesmo tempo que propõe um novo modelo de avaliação de qualidade de imagem alinhado ao julgamento humano.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

O artigo apresenta o Tell2Adapt, um novo framework unificado para Adaptação de Domínio Não Supervisionada sem Fonte (SFUDA) em segmentação de imagens médicas que aproveita modelos de fundação visuais com regularização de prompts e refinamento de plausibilidade visual para superar limitações de generalização e alcançar desempenho superior em diversos cenários clínicos.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Este trabalho propõe o IRTTA, um método de adaptação em tempo de teste que melhora a segmentação de imagens de Tomografia de Coerência Óptica ao aproveitar as representações intermediárias do processo de reconstrução para ajustar dinamicamente as camadas de normalização de uma rede congelada, sem modificar o processo de reconstrução ou o modelo original.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

O artigo apresenta o CoIn3D, um framework generalizável para detecção 3D de objetos com múltiplas câmeras que supera as limitações de transferência entre diferentes configurações de sensores ao incorporar explicitamente discrepâncias de priores espaciais (como intrínsecos, extrínsecos e layouts) através de modulação de características espaciais e aumento de dados orientado à câmera.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs