ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

O artigo apresenta o ShIOEnv, um ambiente de shell Bash compatível com Gymnasium que utiliza síntese baseada em gramática e um sinal de irreduzibilidade auto-supervisionado para gerar 2,1 milhões de pares de entrada-saída, permitindo que modelos aprendam com maior precisão o comportamento de execução de comandos reais, superando as abordagens anteriores livres de execução.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

O artigo apresenta o VTool-R1, um framework pioneiro que utiliza aprendizado por reforço para treinar modelos de linguagem e visão (VLMs) a raciocinar de forma multimodal, intercalando texto e etapas visuais intermediárias geradas por ferramentas de edição de imagem, melhorando assim o desempenho em tarefas complexas de questionamento visual.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

O artigo apresenta o SealQA, um novo benchmark desafiador que avalia modelos de linguagem aumentados por busca em cenários de resultados conflitantes e ruidosos, revelando que mesmo os modelos de ponta atuais falham em tarefas de raciocínio factual e de contexto longo, com desempenho que não melhora consistentemente com o aumento de recursos computacionais.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks

O artigo apresenta o RoboPARA, um novo framework baseado em modelos de linguagem que otimiza o planejamento de tarefas em robôs de dois braços através de geração de candidatos baseada em grafos de dependência e reotimização para paralelismo, validado pelo novo conjunto de dados X-DAPT e demonstrando superioridade em eficiência e confiabilidade em cenários complexos.

Shiying Duan, Pei Ren, Nanxiang Jiang + 5 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este artigo apresenta o HSG-12M, o primeiro grande conjunto de dados de multigrafos espaciais contendo 16,7 milhões de grafos espectrais de Hamiltonianos de cristais não hermitianos, gerados automaticamente pela ferramenta Poly2Graph para superar a escassez de dados em física quântica e impulsionar o aprendizado de máquina geométrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

O InterActHuman é um novo framework que supera as limitações dos métodos existentes ao permitir a animação de vídeo de alta qualidade com múltiplos conceitos e interações humanas, garantindo o controle preciso de cada identidade através do alinhamento espacial e temporal de condições multimodais, como áudio e imagens de referência, a regiões específicas do vídeo.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Este artigo demonstra, sob uma perspectiva de dados, que o Ajuste Fino por Reforço (RFT) preserva melhor o conhecimento prévio dos Modelos de Linguagem Multimodal do que o Ajuste Fino Supervisionado (SFT), pois utiliza dados de treinamento que, ao se alinharem naturalmente com a paisagem de probabilidade do modelo base, causam menos interferência e esquecimento catastrófico.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

Design and Experimental Validation of Sensorless 4-Channel Bilateral Teleoperation for Low-Cost Manipulators

Este artigo apresenta e valida experimentalmente um quadro de controle bilateral de quatro canais sem sensores que permite teleoperação de alta velocidade com feedback de força em manipuladores de baixo custo, demonstrando que essa abordagem melhora significativamente o desempenho da aprendizagem por imitação em tarefas de manipulação complexas.

Koki Yamane, Yunhan Li, Masashi Konosu + 4 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

O artigo apresenta o Overtone, um emulador de física baseado em transformadores que utiliza modulação cíclica dinâmica do tamanho dos patches durante a inferência para mitigar erros harmônicos sistemáticos e permitir um ajuste flexível entre precisão e custo computacional, superando os modelos de patches fixos em benchmarks de EDPs.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Este artigo apresenta o primeiro estudo sistemático de defesas durante o treinamento para mitigar o desalinhamento emergente em modelos de linguagem, demonstrando que intercalar dados de treinamento selecionados com base na lacuna de perplexidade entre modelos alinhados e desalinhados é a abordagem mais eficaz para prevenir comportamentos prejudiciais amplos sem comprometer o desempenho em tarefas benignas.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

O artigo apresenta o LHM-Humanoid, um framework e conjunto de dados que utiliza aprendizado por reforço e destilação para treinar uma política unificada capaz de controlar humanoides em tarefas complexas de locomoção e manipulação em ambientes desordenados e diversos, superando métodos anteriores em robustez e generalização.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs