Renaissance: Investigating the Pretraining of Vision-Language Encoders

Este artigo apresenta o framework de avaliação "Renaissance" para investigar práticas de pré-treinamento de codificadores visão-linguagem, demonstrando através de meta-análise que é possível economizar recursos computacionais significativos ao congelar partes do modelo sem prejudicar o desempenho e analisando o impacto de basear transformadores em modelos de visão ou de texto.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Este estudo propõe e valida um quadro de rastreamento de objetos guiado por visão para veículos de superfície não tripulados (USVs) em ambientes marítimos complexos, demonstrando através de simulações e experimentos reais que o rastreador SeqTrack baseado em Transformers e o controlador LQR oferecem o melhor desempenho e robustez em condições adversas.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

O artigo apresenta o OC-STORM, um framework de aprendizado por reforço baseado em modelos que utiliza representações centradas em objetos e poucas anotações para melhorar a eficiência de amostragem e a previsão de dinâmicas em ambientes visuais complexos, superando métodos existentes em benchmarks como Atari 100k e Hollow Knight.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

O artigo apresenta o VOILA, um novo benchmark em larga escala que avalia a capacidade de raciocínio analógico e compreensão perceptiva de Modelos de Linguagem Multimodal (MLLMs), revelando que, apesar de avanços recentes, esses modelos ainda apresentam desempenho significativamente inferior ao humano em tarefas que exigem mapeamento de relações abstratas entre imagens.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

Unified Reward Model for Multimodal Understanding and Generation

O artigo apresenta o UnifiedReward, o primeiro modelo de recompensa unificado para avaliação de compreensão e geração multimodal, que, ao aprender conjuntamente diversas tarefas visuais e utilizar uma estratégia de filtragem em duas etapas para alinhamento via DPO, gera benefícios sinérgicos e melhora consistentemente tanto a compreensão quanto a geração de imagens e vídeos.

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through pp-Laplace Analysis: Estimators, Bounds and Applications

Este trabalho propõe e valida uma abordagem baseada em operadores p-Laplacianos derivados de modelos de difusão para identificar dados de treinamento memorizados, estabelecendo limites teóricos de erro e demonstrando a eficácia do método em modelos de imagem condicionados a texto, especialmente na ausência do texto de condicionamento.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

Este estudo demonstra que uma rede híbrida baseada em transformers (SMIT), utilizando aprendizado de currículo balanceado e pré-treinamento, alcança uma segmentação precisa e robusta de subestruturas cardíacas em tomografias computadorizadas com contraste e sem contraste para planejamento de radioterapia, reduzindo significativamente a necessidade de dados anotados em comparação com modelos convencionais como o nnU-Net.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

O artigo propõe o PRISM, um novo framework de jailbreak para modelos de linguagem e visão grandes (LVLMs) que, inspirado em técnicas de programação orientada a retorno (ROP), desmonta instruções maliciosas em uma sequência de "gadgets" visuais benignos que, quando combinados pelo raciocínio do modelo, geram conteúdo prejudicial indetectável, alcançando taxas de sucesso de ataque superiores a 90% em benchmarks estabelecidos.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs