3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

O artigo apresenta o 3D-RFT, um novo paradigma que aplica o Ajuste Fino por Reforço com Recompensas Verificáveis (RLVR) para otimizar diretamente modelos multimodais de grande escala em tarefas de compreensão de cenas 3D baseadas em vídeo, superando o desempenho de métodos anteriores e de modelos maiores ao alinhar os objetivos de treinamento com métricas de avaliação específicas.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

O artigo apresenta o MultiGO++, um novo framework de reconstrução 3D de humanos vestidos a partir de uma única imagem que supera as limitações existentes através de uma colaboração eficaz entre geometria e textura, utilizando síntese de textura multi-fonte, extração de forma consciente de regiões e uma rede U-Net de dupla reconstrução para gerar malhas texturizadas de alta fidelidade.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Este trabalho apresenta um estudo em larga escala sobre a Restauração de Imagens Generativa, utilizando uma nova pipeline de avaliação multidimensional para revelar que o campo evoluiu do desafio da escassez de detalhes para a necessidade de controlar a qualidade e a semântica dos detalhes gerados, ao mesmo tempo que propõe um novo modelo de avaliação de qualidade de imagem alinhado ao julgamento humano.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

O artigo apresenta o Tell2Adapt, um novo framework unificado para Adaptação de Domínio Não Supervisionada sem Fonte (SFUDA) em segmentação de imagens médicas que aproveita modelos de fundação visuais com regularização de prompts e refinamento de plausibilidade visual para superar limitações de generalização e alcançar desempenho superior em diversos cenários clínicos.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Este trabalho propõe o IRTTA, um método de adaptação em tempo de teste que melhora a segmentação de imagens de Tomografia de Coerência Óptica ao aproveitar as representações intermediárias do processo de reconstrução para ajustar dinamicamente as camadas de normalização de uma rede congelada, sem modificar o processo de reconstrução ou o modelo original.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

O artigo apresenta o CoIn3D, um framework generalizável para detecção 3D de objetos com múltiplas câmeras que supera as limitações de transferência entre diferentes configurações de sensores ao incorporar explicitamente discrepâncias de priores espaciais (como intrínsecos, extrínsecos e layouts) através de modulação de características espaciais e aumento de dados orientado à câmera.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Este estudo apresenta um sistema de detecção de luzes de emergência azuis em 360 graus, baseado em quatro câmeras de olho de peixe e aprimorado com um bloco de atenção de cor no modelo RT-DETR, que alcança alta precisão e alcance de 70 metros para integrar-se a sistemas ADAS multimodais visando aumentar a segurança rodoviária.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

O artigo apresenta o MI-DETR, um detector bio-inspirado que integra explicitamente mapas de movimento e aparência através de um mecanismo celular e de interconexão parvocelular-magnocelular, alcançando desempenho superior na detecção de pequenos alvos infravermelhos em benchmarks padrão sem a necessidade de rótulos ou módulos de alinhamento adicionais.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Este artigo propõe uma teoria formal de atribuições Aumann-Shapley em variedades baseada em fluxos generativos ótimos, que resolve artefatos fora da variedade ao definir um caminho de atribuição canônico como a geodésica de Wasserstein-2 que minimiza a energia cinética, garantindo invariância de reparametrização e superior alinhamento semântico em comparação com métodos existentes.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

O artigo apresenta o GEM-TFL, um framework de localização de falsificações temporais que supera as limitações da supervisão fraca ao integrar otimização EM para atributos latentes, refinamento temporal sem treinamento e um módulo baseado em grafos, alcançando desempenho próximo ao de métodos totalmente supervisionados.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI