Goldilocks Test Sets for Face Verification

Este artigo propõe três novos conjuntos de teste desafiadores e de alta qualidade (Hadrian, Eclipse e ND-Twins) para avaliar a robustez de algoritmos de reconhecimento facial em variações de atributos e semelhanças entre indivíduos, superando a necessidade de reduzir artificialmente a qualidade das imagens para obter dificuldades comparáveis às existentes.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artigo investiga a fase de corrupção observada no ajuste fino de poucos exemplos de Modelos de Difusão, identifica sua causa na distribuição de aprendizado restrita e propõe o uso de Redes Neurais Bayesianas para mitigar esse problema, melhorando a fidelidade, qualidade e diversidade das imagens geradas sem custos adicionais de inferência.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Este artigo propõe um sistema neurosimbólico que aprende a reconstruir imagens médicas a partir de primitivas visuais, resultando em um modelo mais transparente e preciso para o diagnóstico de anomalias em imagens histológicas do que as arquiteturas convencionais de aprendizado profundo.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

O artigo apresenta o Prithvi-EO-2.0, um modelo fundamental de observação da Terra de código aberto e multi-temporal que, treinado em 4,2 milhões de amostras globais, supera seu antecessor e outros modelos concorrentes em diversas tarefas geoespaciais, desde monitoramento de desastres até mapeamento de culturas, graças à sua versatilidade e ao envolvimento contínuo de especialistas.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

O artigo apresenta o iLLaVA, uma abordagem que acelera modelos multimodais de grande escala otimizando conjuntamente o codificador de imagem e o LLM através de uma estratégia inovadora de fusão de tokens que recicla informações descartadas, resultando em ganhos significativos de eficiência e desempenho tanto em tarefas de imagem quanto de vídeo.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

O artigo apresenta o HarmonicEval, uma métrica de avaliação automática sem referência que agrega pontuações por critério de forma bottom-up, e o benchmark MMHE, composto por 18.000 julgamentos humanos em quatro tarefas multimodais, demonstrando que essa abordagem supera as métricas convencionais ao alinhar-se melhor com os julgamentos humanos em cenários de múltiplas tarefas e critérios.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

O artigo apresenta o LangSurf, um método inovador que utiliza um campo de linguagem embutido em superfícies e um módulo de consciência contextual hierárquica para alinhar com precisão campos de linguagem 3D às superfícies de objetos, superando as abordagens anteriores e permitindo segmentação, reconhecimento e edição de instâncias em 3D com base em consultas de texto.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este artigo propõe um método que utiliza modelos de visão e linguagem pré-treinados para aprender modelos de mundo simbólicos abstratos a partir de demonstrações curtas, permitindo que robôs generalizem para zero-shot e resolvam problemas de tomada de decisão de longo horizonte em cenários complexos e variados através de planejamento.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG