MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Este artigo apresenta o MOO, um grande conjunto de dados sintético de reidentificação de gado com 128.000 imagens anotadas de 128 pontos de vista, que permite analisar o impacto da elevação na generalização de modelos e demonstrar ganhos de desempenho ao transferir conhecimentos geométricos sintéticos para aplicações reais.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

O artigo apresenta o SPRINT, o primeiro framework de Aprendizado Incremental de Poucos Exemplos (FSCIL) projetado especificamente para dados tabulares, que supera os métodos existentes ao aproveitar a abundância de dados não rotulados e o baixo custo de armazenamento para alcançar robustez e alta precisão em diversas aplicações do mundo real.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

O artigo apresenta uma estrutura escalável para avaliar o realismo de aumentações sintéticas em imagens, demonstrando que métodos de IA generativa superam significativamente as abordagens baseadas em regras na simulação de condições ambientais adversas, como neblina, chuva, neve e noite, alcançando desempenho comparável ou superior ao de imagens reais.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

O artigo apresenta o Pointer-CAD, um novo framework baseado em LLMs para geração de modelos CAD que unifica representações B-rep e sequências de comandos por meio de ponteiros para seleção de entidades geométricas, superando as limitações de edição complexa e erros topológicos de métodos anteriores e alcançando alta precisão graças a um conjunto de dados de 575 mil modelos anotados.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

O ArtHOI é um framework zero-shot pioneiro que sintetiza interações humano-objeto articuladas e fisicamente plausíveis ao reformular o problema como uma reconstrução 4D a partir de vídeos gerados por modelos de difusão, superando as limitações de métodos anteriores ao garantir consistência geométrica e contato realista sem supervisão 3D.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Este artigo propõe um método eficiente em termos de dados que utiliza um único exemplo por classe e um modelo de linguagem para gerar descrições contrafactuais, permitindo prever com alta precisão a acurácia zero-shot de modelos fundacionais visão-linguagem em domínios sub-representados, como os do Sul Global, sem a necessidade de conjuntos de teste rotulados extensivos.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

O artigo apresenta o RANGER, um novo framework para geração de relatórios de patologia que utiliza uma arquitetura de Mistura de Especialistas (MoE) com gate esparsamente ativado e um módulo de reclassificação adaptativa de recuperação, demonstrando desempenho superior ao estado da arte no conjunto de dados PathText-BRCA ao lidar com a complexidade das imagens de lâminas inteiras.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

O artigo apresenta o VQA-MHUG, um novo conjunto de dados de olhar humano multimodal para VQA, e demonstra pela primeira vez que a correlação entre a atenção neural e a humana no texto é um preditor significativo do desempenho do modelo, sugerindo a necessidade de aprimorar os mecanismos de atenção textual nas arquiteturas de visão e linguagem.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Este trabalho demonstra que modelos de visão fundamentais, especialmente o BiomedCLIP, podem ser utilizados como extratores de recursos versáteis e sem necessidade de treinamento adicional para sistemas de recuperação de imagens médicas baseadas em conteúdo, alcançando desempenho comparável a sistemas especializados em um vasto conjunto de dados radiológicos.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs