Bridging Human Evaluation to Infrared and Visible Image Fusion

Este artigo propõe um novo quadro de reforço por feedback humano para fusão de imagens infravermelhas e visíveis, apresentando o primeiro conjunto de dados em larga escala com avaliações subjetivas e anotando artefatos para treinar um modelo de recompensa que, através da Otimização de Política Relativa em Grupo, alinha os resultados da fusão com as preferências estéticas humanas.

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

O artigo apresenta o UniSync, um quadro unificado que alcança sincronização labial de alta fidelidade e generalizável em cenários desafiadores, combinando uma estratégia de treinamento sem máscaras para evitar artefatos de cor com uma inferência baseada em máscaras para precisão estrutural, além de introduzir o novo benchmark RealWorld-LipSync para avaliação em condições do mundo real.

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Este artigo propõe uma Arquitetura de Rastreamento Assíncrono Modular (MATA) que combina um rastreador baseado em transformadores com um Filtro de Kalman Estendido para superar desafios de rastreamento visual em UAVs, introduzindo simultaneamente um protocolo de avaliação e uma nova métrica (NT2F) validados em hardware embarcado para garantir desempenho em tempo real.

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Este artigo propõe uma injeção externa de n-gramas (NGI) em decodificadores de Transformers para permitir a adaptação dinâmica de modelos de linguagem durante a inferência em reconhecimento de texto manuscrito, mitigando a queda de desempenho causada por mudanças na distribuição linguística sem a necessidade de treinamento adicional.

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Este artigo apresenta o CMDR-IAD, um framework não supervisionado leve e flexível que combina mapeamento cruzado bidirecional e reconstrução de dupla ramificação para detectar anomalias industriais em cenários multimodais (2D+3D) e unimodais, alcançando desempenho state-of-the-art no benchmark MVTec 3D-AD e robustez em condições industriais reais sem depender de bancos de memória.

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Este estudo retrospectivo demonstrou que uma rede neural convolucional baseada em DenseNet121 é eficaz na detecção e classificação de artefatos hiper e hipointensos em imagens de ressonância magnética de mama com alto valor b (1500 s/mm²), alcançando altas taxas de precisão e oferecendo uma ferramenta promissora para a avaliação de qualidade de fatias individuais.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Structural Action Transformer for 3D Dexterous Manipulation

Este artigo apresenta o Structural Action Transformer (SAT), uma nova política de manipulação dextral 3D que supera as limitações de transferência de habilidades entre diferentes corpos robóticos ao reformular as ações como sequências estruturais de trajetórias articulares, permitindo o aprendizado eficiente a partir de conjuntos de dados heterogêneos e observações em nuvem de pontos.

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

O artigo apresenta o ProFound, um modelo de visão fundacional especializado em ressonância magnética multiparamétrica da próstata, pré-treinado de forma auto-supervisionada em um grande conjunto de dados multicêntrico e que demonstrou desempenho superior ou competitivo em 11 tarefas clínicas distintas, superando a necessidade de grandes conjuntos de dados rotulados para cada tarefa específica.

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

O artigo apresenta o UniRain, um framework unificado de remoção de chuva que combina um pipeline de destilação de dados baseado em Geração Aumentada por Recuperação (RAG) para seleção de amostras de treinamento e uma estratégia de otimização reponderada multiobjetivo em uma arquitetura de mistura de especialistas assimétrica, alcançando desempenho superior na remoção de diversos tipos de chuva em cenários diurnos e noturnos.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs