A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling

O artigo apresenta o CheXficient, um modelo de fundação para radiografias de tórax que, ao priorizar ativamente amostras informativas durante o pré-treinamento, alcança desempenho superior ou comparável ao de modelos treinados em grandes volumes de dados, utilizando apenas 22,7% dos dados e 27,3% do orçamento computacional, enquanto melhora a generalização em condições raras.

Chong Wang, Yabin Zhang, Yunhe Gao + 9 more2026-02-27💻 cs

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

O artigo apresenta o GraspLDP, uma abordagem que aprimora a precisão e a generalização de políticas de apreensão em robótica ao integrar conhecimento prévio sobre a pose de apreensão e um objetivo de reconstrução auto-supervisionado dentro de um framework de difusão latente, superando assim as limitações dos métodos existentes tanto em simulação quanto em robôs reais.

Enda Xiang, Haoxiang Ma, Xinzhu Ma + 2 more2026-02-27💻 cs

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation

O artigo apresenta o pMoE, um método inovador de ajuste fino eficiente em parâmetros que combina tokens de prompt especializados e um mecanismo de despacho dinâmico para integrar conhecimentos de múltiplos domínios, resultando em desempenho superior e maior versatilidade em 47 tarefas de adaptação visual, incluindo classificação e segmentação em contextos gerais e médicos.

Shentong Mo, Xufang Luo, Dongsheng Li2026-02-27🤖 cs.AI

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

Este artigo apresenta um framework automatizado que utiliza detecção de objetos, calibração de homografia e rastreamento óptico em vídeos com panorâmica e zoom para reconstruir com alta precisão a velocidade e a taxa de remada de canoas de sprint, oferecendo uma alternativa viável ao GPS para análise de desempenho.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

O artigo apresenta o MM-NeuroOnco, um grande conjunto de dados multimodal e instrucional para ressonância magnética de tumores cerebrais, juntamente com o benchmark MM-NeuroOnco-Bench e o modelo NeuroOnco-GPT, que juntos demonstram melhorias significativas no raciocínio diagnóstico clínico ao superar as limitações de anotação e desempenho dos modelos existentes.

Feng Guo, Jiaxiang Liu, Yang Li + 2 more2026-02-27🤖 cs.AI

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Este estudo piloto avalia o desempenho de agentes multimodais em cenários de "zero-shot" para distinguir doenças visualmente semelhantes, como melanoma versus nevo atípico e edema pulmonar versus pneumonia, demonstrando que um novo framework de arbitragem contrastiva melhora a precisão diagnóstica e reduz alegações infundadas, embora o desempenho ainda seja insuficiente para aplicação clínica direta devido à falta de contexto e incertezas nas anotações.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos + 2 more2026-02-27💻 cs

UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

O artigo apresenta o UCM, um novo framework que unifica o controle preciso de câmera e a consistência de longo prazo em modelos de mundo baseados em geração de vídeo, utilizando um mecanismo de deformação de codificação posicional sensível ao tempo e um transformador de difusão eficiente treinado em mais de 500 mil vídeos.

Tianxing Xu, Zixuan Wang, Guangyuan Wang + 5 more2026-02-27💻 cs

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

Este trabalho apresenta um algoritmo automático não paramétrico e não linear baseado em contagem por kernel para quantificar células da microglia em imagens de alta resolução, permitindo treinamento eficiente em pequenos conjuntos de dados heterogêneos, estimativa de incerteza e integração de múltiplas opiniões de especialistas.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

Este artigo propõe um modelo aprimorado para detecção de objetos pequenos em imagens aéreas, que integra um módulo de Atenção Espacial em Pirâmide Laplaciana (SLPA), um Módulo de Aprimoramento de Características Multiescala (MSFEM) e convoluções deformáveis para alinhamento de características, demonstrando desempenho superior em conjuntos de dados como VisDrone e DOTA.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs