Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

O artigo apresenta o Squint, um método de aprendizado por reforço visual baseado em Soft Actor Critic que, ao empregar técnicas como simulação paralela e "resolução squinting", alcança um tempo de treinamento mais rápido que métodos anteriores e permite a transferência bem-sucedida de políticas treinadas em simulação para um robô real em apenas 15 minutos.

Abdulaziz Almuzairee, Henrik I. Christensen2026-02-25🤖 cs.LG

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Este artigo combina experimentos psicofísicos humanos e modelagem computacional para demonstrar que tanto humanos quanto o modelo biologicamente inspirado SeCo podem aprender rapidamente a inferir objetos ocultos a partir de contextos visuais sem supervisão, destacando o papel fundamental das associações contextuais na compreensão de cenas.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function

Este estudo demonstra que o sistema de estimativa de pose sem marcadores DeepLabCut, quando submetido a treinamento personalizado e função de refinamento, supera tanto o OpenPose quanto modelos pré-treinados, oferecendo uma solução precisa e de baixo custo para a análise da marcha em ambientes naturais.

Giulia Panconi, Stefano Grasso, Sara Guarducci + 3 more2026-02-24💻 cs

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Este artigo apresenta o MathScape, um novo benchmark focado em avaliar a capacidade de raciocínio matemático de modelos de linguagem multimodais em contextos reais capturados por humanos, revelando que, apesar dos avanços, os modelos de última geração ainda têm desempenho inferior ao humano e que a excelência em dados sintéticos não garante eficácia em cenários do mundo real.

Hao Liang, Linzhuang Sun, Minxuan Zhou + 7 more2026-02-24💬 cs.CL

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

O artigo apresenta o CT-AGRG, um novo modelo que gera automaticamente relatórios médicos a partir de volumes de TC torácica 3D ao primeiro prever anomalias e, em seguida, criar descrições direcionadas para cada uma, superando as limitações dos métodos existentes e demonstrando melhorias significativas na qualidade e relevância clínica dos relatórios.

Theo Di Piazza, Carole Lazarus, Olivier Nempont + 1 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Este artigo apresenta o Interpretable Visual Prompt Tuning (IVPT), um novo framework que introduz protótipos de conceitos entre camadas para vincular prompts visuais a conceitos semânticos compreensíveis por humanos, permitindo a geração de prompts interpretáveis em múltiplas profundidades da rede e demonstrando superioridade em desempenho e interpretabilidade em benchmarks de classificação de granularidade fina.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Este artigo apresenta o Hier-COS, um novo framework que utiliza a composição de subespaços ortogonais para criar representações de características hierarquicamente conscientes e consistentes, superando as limitações das métricas de avaliação existentes através da proposta do HOPS e alcançando desempenho superior em tarefas de classificação hierárquica.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG