EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

O artigo apresenta o EgoTraj-Bench, o primeiro benchmark do mundo real que alinha observações históricas ruidosas de visão em primeira pessoa com trajetórias futuras limpas, e propõe o modelo BiFlow, que utiliza um mecanismo de ancoragem ego-cêntrica para alcançar desempenho superior e maior robustez na previsão de trajetórias sob condições perceptivas imperfeitas.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

O artigo apresenta o SpineMed, um ecossistema co-desenvolvido com cirurgiões que inclui o conjunto de dados SpineMed-450k e o benchmark SpineBench, os quais superam as limitações atuais de modelos de visão e linguagem em tarefas de raciocínio espinhal específico por nível vertebral, demonstrando melhorias significativas na precisão diagnóstica e utilidade clínica.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

O artigo apresenta o MachaGrasp, um framework de ponta a ponta baseado em eigengrasps que gera articulações de mãos dexterosas para apreensão de objetos, demonstrando alta taxa de sucesso e generalização entre diferentes embodiments através de uma representação de morfologia e uma perda de articulação consciente da cinemática.

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

O artigo propõe o Graph-as-Memory Tuning (GMT), uma nova abordagem que supera as limitações da concatenação de prefixos ao representar a estrutura local de grafos de conhecimento como memórias explícitas e integrá-las dinamicamente em Grandes Modelos de Linguagem via atenção cruzada token a token, resultando em desempenho superior para a conclusão de grafos de conhecimento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

O artigo apresenta o OmniVideoBench, um novo benchmark de grande escala com 1000 pares de perguntas e respostas anotados com raciocínio passo a passo, projetado para avaliar rigorosamente a compreensão sinérgica de áudio e vídeo em Modelos de Linguagem Multimodal (MLLMs), revelando uma lacuna significativa entre o desempenho dos modelos atuais e o raciocínio humano.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

O artigo demonstra que o ajuste fino em domínios restritos deixa traços legíveis e fortes nos ativações de modelos de linguagem, que podem ser explorados para inferir o domínio de treinamento e que, embora a mistura de dados de pré-treinamento possa mitigar esses vieses, eles levantam preocupações sobre a segurança, a interpretabilidade e a validade do uso desses modelos como proxies para estudos de alinhamento mais amplos.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

O artigo apresenta o CBF-RL, um framework que integra Funções de Barreira de Controle (CBFs) durante o treinamento de Aprendizado por Reforço para internalizar restrições de segurança na política aprendida, permitindo a implantação segura em robôs reais, como o Unitree G1, sem a necessidade de filtros de segurança em tempo real.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

O artigo apresenta o Grasp Any Region (GAR), um modelo de linguagem multimodal que supera as limitações anteriores ao integrar contexto global e interações entre múltiplas regiões para permitir um entendimento visual preciso e raciocínio composicional avançado, validado pelo novo benchmark GAR-Bench e demonstrando capacidades superiores tanto em imagens quanto em vídeos.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

O artigo apresenta o GhostEI-Bench, o primeiro benchmark projetado para avaliar a resiliência de agentes móveis baseados em Modelos de Linguagem e Visão contra ataques de injeção ambiental em dispositivos, revelando que os modelos atuais são altamente vulneráveis a elementos de interface adversários que corrompem sua percepção visual e levam a falhas críticas.

Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang2026-03-06🔒 cs.CR

FMint-SDE: A Multimodal Foundation Model for Accelerating Numerical Simulation of SDEs via Error Correction

O artigo apresenta o FMint-SDE, um modelo de fundação multimodal baseado em transformadores que utiliza aprendizado em contexto e correção de erros para acelerar e aprimorar a precisão da simulação de equações diferenciais estocásticas em diversos domínios científicos, superando as limitações de eficiência e generalização dos métodos tradicionais.

Jiaxin Yuan, Haizhao Yang, Maria Cameron2026-03-06🔢 math

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

O artigo apresenta o FLoC, um método de compressão de tokens visuais livre de treinamento e agnóstico a modelos, baseado na função de localização de instalações e no algoritmo ganancioso preguiçoso, que seleciona eficientemente um subconjunto representativo de tokens para melhorar a compreensão de vídeos longos em Modelos Multimodais de Grande Escala.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs