cs.AI artigos | Gist.Science

In-Training Defenses against Emergent Misalignment in Language Models

Este artigo apresenta o primeiro estudo sistemático de defesas durante o treinamento para mitigar o desalinhamento emergente em modelos de linguagem, demonstrando que intercalar dados de treinamento selecionados com base na lacuna de perplexidade entre modelos alinhados e desalinhados é a abordagem mais eficaz para prevenir comportamentos prejudiciais amplos sem comprometer o desempenho em tarefas benignas.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

O artigo apresenta o Vevo2, um framework unificado e controlável para geração de voz falada e cantada que supera desafios como a escassez de dados anotados e permite controle flexível de prosódia, estilo e timbre por meio de dois tokenizadores de áudio inovadores e estratégias de aprendizado conjuntas.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

O artigo apresenta o LHM-Humanoid, um framework e conjunto de dados que utiliza aprendizado por reforço e destilação para treinar uma política unificada capaz de controlar humanoides em tarefas complexas de locomoção e manipulação em ambientes desordenados e diversos, superando métodos anteriores em robustez e generalização.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Este artigo demonstra que a dificuldade de aprendizado de solucionadores de SAT baseados em Redes Neurais em Grafos (GNNs) é geometricamente explicada pela curvatura de Ricci negativa das grafos de fórmulas k-SAT, que gera o fenômeno de "oversquashing" e limita a capacidade do modelo de capturar dependências de longo alcance em instâncias complexas.

Geri Skenderi2026-03-06🔬 physics

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artigo propõe a arquitetura TSPC, um modelo de reconhecimento de fala de código alternado vietnamita-inglês baseado em fonemas que, através de uma abordagem de duas etapas, supera os métodos existentes com menor taxa de erro de palavras e menor consumo de recursos computacionais.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Este artigo apresenta um método de navegação para quadricópteros baseado em aprendizado por reforço que utiliza mapas de tempo de chegada como informação privilegiada e uma função de perda de alinhamento de guinada para superar obstáculos grandes, alcançando uma taxa de sucesso de 86% em simulações e validação bem-sucedida em 20 voos reais em ambientes externos complexos.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

O artigo apresenta o "Diffusion-Based Impedance Learning", um framework que combina modelos generativos baseados em difusão com controle de impedância para permitir que robôs aprendam comportamentos de interação física ricos em contato, alcançando alta precisão e sucesso em tarefas complexas como inserção de pinos em furos através da adaptação online de rigidez e amortecimento.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Este estudo revela que os modelos de linguagem fundamentais em sistemas de fala (SpeechLLMs) apresentam falhas de robustez estrutural ao processar conversas espontâneas, demonstrando que modelos de raciocínio tendem a suprimir indevidamente conteúdo fluente em favor da abstração semântica e que o ajuste fino, embora melhore resultados imediatos, prejudica a generalização.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

O artigo propõe o CR-PPO, um método de otimização de política que substitui a regularização por entropia tradicional por um termo de complexidade autorregulável (produto de entropia e desequilíbrio), resultando em um algoritmo mais robusto a hiperparâmetros que equilibra estocasticidade e otimização de recompensa sem a necessidade de ajuste fino.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

O artigo apresenta o BridgeDrive, uma nova política de planejamento de trajetória baseada em difusão que utiliza um "ponte de difusão" para transformar trajetórias de referência em planos refinados e seguros, alcançando desempenho superior em benchmarks de condução autônoma em malha fechada.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Este artigo investiga o fenômeno de aprendizado subliminar em modelos de linguagem, demonstrando que a transferência de vieses ocultos durante a destilação ocorre principalmente através de um pequeno conjunto de "tokens de divergência" em camadas iniciais, sendo um processo frágil que pode ser suprimido por pequenas alterações nos prompts.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

O artigo apresenta o BeyondBench, um novo framework de avaliação que utiliza geração algorítmica dinâmica para criar problemas matemáticos inéditos e não contaminados, permitindo uma medição precisa das capacidades de raciocínio de 101 modelos de linguagem e revelando deficiências significativas em tarefas complexas.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Este artigo apresenta uma abordagem inovadora para o pré-treinamento estável e preciso de modelos de linguagem grandes no formato NVFP4, que combina transformadas de Hadamard aleatórias, esquemas de quantização bidimensionais e arredondamento estocástico para alcançar desempenho comparável ao FP8 em um modelo de 12 bilhões de parâmetros treinado com 10 trilhões de tokens.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

O artigo apresenta o PrefDisco, uma metodologia de avaliação que transforma benchmarks estáticos em tarefas interativas para medir a capacidade de modelos de linguagem de realizar "raciocínio personalizado" proativo, demonstrando que a adaptação às preferências individuais não surge naturalmente e requer desenvolvimento dedicado para aplicações críticas como educação e saúde.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

O artigo apresenta o EgoTraj-Bench, o primeiro benchmark do mundo real que alinha observações históricas ruidosas de visão em primeira pessoa com trajetórias futuras limpas, e propõe o modelo BiFlow, que utiliza um mecanismo de ancoragem ego-cêntrica para alcançar desempenho superior e maior robustez na previsão de trajetórias sob condições perceptivas imperfeitas.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

O artigo apresenta o Graph2Eval, um framework baseado em grafos de conhecimento que gera automaticamente tarefas multimodais escaláveis e semanticamente consistentes para avaliar agentes de IA, superando as limitações de alucinação e inconsistência dos métodos tradicionais de geração via LLM.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

O artigo apresenta o SpineMed, um ecossistema co-desenvolvido com cirurgiões que inclui o conjunto de dados SpineMed-450k e o benchmark SpineBench, os quais superam as limitações atuais de modelos de visão e linguagem em tarefas de raciocínio espinhal específico por nível vertebral, demonstrando melhorias significativas na precisão diagnóstica e utilidade clínica.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

O artigo apresenta o MachaGrasp, um framework de ponta a ponta baseado em eigengrasps que gera articulações de mãos dexterosas para apreensão de objetos, demonstrando alta taxa de sucesso e generalização entre diferentes embodiments através de uma representação de morfologia e uma perda de articulação consciente da cinemática.

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

O artigo propõe o Graph-as-Memory Tuning (GMT), uma nova abordagem que supera as limitações da concatenação de prefixos ao representar a estrutura local de grafos de conhecimento como memórias explícitas e integrá-las dinamicamente em Grandes Modelos de Linguagem via atenção cruzada token a token, resultando em desempenho superior para a conclusão de grafos de conhecimento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

O artigo apresenta o OmniVideoBench, um novo benchmark de grande escala com 1000 pares de perguntas e respostas anotados com raciocínio passo a passo, projetado para avaliar rigorosamente a compreensão sinérgica de áudio e vídeo em Modelos de Linguagem Multimodal (MLLMs), revelando uma lacuna significativa entre o desempenho dos modelos atuais e o raciocínio humano.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

← Anterior Próximo →