In-Training Defenses against Emergent Misalignment in Language Models

Este artigo apresenta o primeiro estudo sistemático de defesas durante o treinamento para mitigar o desalinhamento emergente em modelos de linguagem, demonstrando que intercalar dados de treinamento selecionados com base na lacuna de perplexidade entre modelos alinhados e desalinhados é a abordagem mais eficaz para prevenir comportamentos prejudiciais amplos sem comprometer o desempenho em tarefas benignas.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

O artigo apresenta o LHM-Humanoid, um framework e conjunto de dados que utiliza aprendizado por reforço e destilação para treinar uma política unificada capaz de controlar humanoides em tarefas complexas de locomoção e manipulação em ambientes desordenados e diversos, superando métodos anteriores em robustez e generalização.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Este artigo apresenta um método de navegação para quadricópteros baseado em aprendizado por reforço que utiliza mapas de tempo de chegada como informação privilegiada e uma função de perda de alinhamento de guinada para superar obstáculos grandes, alcançando uma taxa de sucesso de 86% em simulações e validação bem-sucedida em 20 voos reais em ambientes externos complexos.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

O artigo apresenta o "Diffusion-Based Impedance Learning", um framework que combina modelos generativos baseados em difusão com controle de impedância para permitir que robôs aprendam comportamentos de interação física ricos em contato, alcançando alta precisão e sucesso em tarefas complexas como inserção de pinos em furos através da adaptação online de rigidez e amortecimento.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Este estudo revela que os modelos de linguagem fundamentais em sistemas de fala (SpeechLLMs) apresentam falhas de robustez estrutural ao processar conversas espontâneas, demonstrando que modelos de raciocínio tendem a suprimir indevidamente conteúdo fluente em favor da abstração semântica e que o ajuste fino, embora melhore resultados imediatos, prejudica a generalização.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

O artigo apresenta o PrefDisco, uma metodologia de avaliação que transforma benchmarks estáticos em tarefas interativas para medir a capacidade de modelos de linguagem de realizar "raciocínio personalizado" proativo, demonstrando que a adaptação às preferências individuais não surge naturalmente e requer desenvolvimento dedicado para aplicações críticas como educação e saúde.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

O artigo apresenta o EgoTraj-Bench, o primeiro benchmark do mundo real que alinha observações históricas ruidosas de visão em primeira pessoa com trajetórias futuras limpas, e propõe o modelo BiFlow, que utiliza um mecanismo de ancoragem ego-cêntrica para alcançar desempenho superior e maior robustez na previsão de trajetórias sob condições perceptivas imperfeitas.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

O artigo apresenta o SpineMed, um ecossistema co-desenvolvido com cirurgiões que inclui o conjunto de dados SpineMed-450k e o benchmark SpineBench, os quais superam as limitações atuais de modelos de visão e linguagem em tarefas de raciocínio espinhal específico por nível vertebral, demonstrando melhorias significativas na precisão diagnóstica e utilidade clínica.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

O artigo apresenta o MachaGrasp, um framework de ponta a ponta baseado em eigengrasps que gera articulações de mãos dexterosas para apreensão de objetos, demonstrando alta taxa de sucesso e generalização entre diferentes embodiments através de uma representação de morfologia e uma perda de articulação consciente da cinemática.

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

O artigo propõe o Graph-as-Memory Tuning (GMT), uma nova abordagem que supera as limitações da concatenação de prefixos ao representar a estrutura local de grafos de conhecimento como memórias explícitas e integrá-las dinamicamente em Grandes Modelos de Linguagem via atenção cruzada token a token, resultando em desempenho superior para a conclusão de grafos de conhecimento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

O artigo apresenta o OmniVideoBench, um novo benchmark de grande escala com 1000 pares de perguntas e respostas anotados com raciocínio passo a passo, projetado para avaliar rigorosamente a compreensão sinérgica de áudio e vídeo em Modelos de Linguagem Multimodal (MLLMs), revelando uma lacuna significativa entre o desempenho dos modelos atuais e o raciocínio humano.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs