Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Este artigo apresenta o "Planejamento Reflexivo em Tempo de Teste", um novo paradigma para LLMs corporificados que integra reflexão durante a ação, reflexão pós-ação e reflexão retrospectiva para permitir que robôs aprendam com erros e melhorem seu desempenho em tarefas de longo prazo, superando significativamente os modelos de base em benchmarks de tarefas domésticas e de manipulação.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

O artigo apresenta o Squint, um método de aprendizado por reforço visual baseado em Soft Actor Critic que, ao empregar técnicas como simulação paralela e "resolução squinting", alcança um tempo de treinamento mais rápido que métodos anteriores e permite a transferência bem-sucedida de políticas treinadas em simulação para um robô real em apenas 15 minutos.

Abdulaziz Almuzairee, Henrik I. Christensen2026-02-25🤖 cs.LG

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Este artigo combina experimentos psicofísicos humanos e modelagem computacional para demonstrar que tanto humanos quanto o modelo biologicamente inspirado SeCo podem aprender rapidamente a inferir objetos ocultos a partir de contextos visuais sem supervisão, destacando o papel fundamental das associações contextuais na compreensão de cenas.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function

Este estudo demonstra que o sistema de estimativa de pose sem marcadores DeepLabCut, quando submetido a treinamento personalizado e função de refinamento, supera tanto o OpenPose quanto modelos pré-treinados, oferecendo uma solução precisa e de baixo custo para a análise da marcha em ambientes naturais.

Giulia Panconi, Stefano Grasso, Sara Guarducci + 3 more2026-02-24💻 cs

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Este artigo apresenta o MathScape, um novo benchmark focado em avaliar a capacidade de raciocínio matemático de modelos de linguagem multimodais em contextos reais capturados por humanos, revelando que, apesar dos avanços, os modelos de última geração ainda têm desempenho inferior ao humano e que a excelência em dados sintéticos não garante eficácia em cenários do mundo real.

Hao Liang, Linzhuang Sun, Minxuan Zhou + 7 more2026-02-24💬 cs.CL

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

O artigo apresenta o CT-AGRG, um novo modelo que gera automaticamente relatórios médicos a partir de volumes de TC torácica 3D ao primeiro prever anomalias e, em seguida, criar descrições direcionadas para cada uma, superando as limitações dos métodos existentes e demonstrando melhorias significativas na qualidade e relevância clínica dos relatórios.

Theo Di Piazza, Carole Lazarus, Olivier Nempont + 1 more2026-02-24⚡ eess