Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy

Este trabalho apresenta o novo problema de Manipulação Exploratória e Focada (EFM), estabelecendo o benchmark EFM-10 e uma estratégia de Percepção Ativa Bimanual (BAP) que utiliza um braço para visão ativa e outro para sensoriamento de força, validando sua eficácia através de um conjunto de dados e aprendizado por imitação para superar oclusões visuais em tarefas de manipulação desafiadoras.

Yuxin He, Ruihao Zhang, Tianao Shen + 2 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

O artigo apresenta o LatentChem, uma interface de raciocínio latente que desacopla o cálculo químico da geração textual, permitindo que modelos realizem inferências complexas diretamente no espaço contínuo, o que resulta em uma precisão superior e um aumento de 10,84 vezes na velocidade de inferência em comparação com métodos tradicionais de Cadeia de Pensamento explícita.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Este artigo propõe o TAPINN, uma arquitetura de Redes Neurais Informadas pela Física que utiliza Regularização Métrica Supervisionada e Otimização Alternada para mitigar o viés espectral e o colapso de modos em sistemas dinâmicos com transições de regime abruptas, alcançando uma convergência estável e maior precisão física com menos parâmetros do que os métodos existentes.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Este estudo empírico demonstra que, embora as Redes Kolmogorov-Arnold (KANs) sejam competitivas em resíduos polinomiais univariados, elas apresentam fragilidade hiperparamétrica e instabilidade em configurações profundas, falhando consistentemente na recuperação de termos multiplicativos em sistemas oscilatórios e sendo superadas por MLPs padrão.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Este artigo propõe um quadro de aprendizado ativo guiado por explicabilidade para análise de imagens médicas que, ao combinar incerteza de classificação e desalinhamento de atenção com regiões de interesse definidas por especialistas, seleciona amostras estrategicamente para melhorar tanto o desempenho preditivo quanto a interpretabilidade clínica com eficiência de dados.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

O artigo apresenta o Pailitao-VL, um sistema de busca multimodal industrial em tempo real que supera limitações de granularidade e ruído ao adotar uma nova abordagem de reconhecimento de ID absoluto para embeddings e uma política de reclassificação comparativa e calibrada, resultando em desempenho superior e impacto comercial significativo na plataforma de comércio eletrônico do Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections

Este artigo apresenta o ataque "Zombie Agents", uma vulnerabilidade de segurança em agentes LLM autoevolutivos onde conteúdo malicioso é infiltrado na memória de longo prazo através de exposição indireta, permitindo que um invasor mantenha controle persistente sobre o agente em múltiplas sessões, demonstrando que as defesas atuais focadas apenas no filtragem de prompts por sessão são insuficientes.

Xianglin Yang, Yufei He, Shuo Ji, Bryan Hooi, Jin Song Dong2026-03-06🔒 cs.CR

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Este artigo apresenta um framework de aprendizado curricular em três etapas que utiliza mascaramento estrutural e otimização de política relativa em grupo (GRPO) para distilar raciocínio de cadeia de pensamento de modelos grandes em modelos menores, resultando em ganhos significativos de precisão e redução no comprimento das respostas.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Este artigo estabelece a convergência fundamental entre os Sistemas de Diálogo Guiados por Esquema (SGD) e o Protocolo de Contexto de Modelo (MCP) como manifestações de um paradigma unificado para interações auditáveis com LLMs, extraindo cinco princípios fundamentais de design de esquemas que preenchem lacunas críticas em modos de falha e relações entre ferramentas para viabilizar a governança escalável de sistemas de IA.

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Este artigo apresenta um novo quadro de avaliação baseado em simulação para realizar testes de "red teaming" em modelos de linguagem aplicados à saúde mental, identificando riscos críticos como a validação de delírios e falhas na desescalada de risco suicida, e validando uma ferramenta de visualização para auditoria por parte de diversas partes interessadas.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

O artigo apresenta o Zatom-1, o primeiro modelo fundamental de código aberto e ponta a ponta que unifica a aprendizagem generativa e preditiva de moléculas e materiais 3D, utilizando um objetivo de correspondência de fluxo multimodal para superar as limitações de abordagens anteriores, acelerar a inferência e permitir transferência positiva de conhecimento entre domínios químicos.

Alex Morehead, Miruna Cretu, Antonia Panescu + 14 more2026-03-06🔬 cond-mat.mtrl-sci

Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion

Este artigo propõe um sistema de reconhecimento de gestos multimodal e interpretável, que funde dados de sensores inerciais e capacitivos por meio de uma estratégia de razão de verossimilhança logarítmica para teleoperação robusta e eficiente de drones e robôs móveis, superando as limitações de métodos baseados apenas em visão.

Seungyeol Baek, Jaspreet Singh, Lala Shakti Swarup Ray + 3 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

O artigo apresenta o DiffusionHarmonizer, um framework de aprimoramento generativo online que utiliza um aprimorador condicionado temporalmente derivado de modelos de difusão para transformar renderizações de reconstruções neurais imperfeitas em saídas fotorealistas e temporalmente consistentes, corrigindo artefatos e harmonizando a iluminação para simulações robóticas escaláveis.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

O artigo apresenta o Dr. Seg, um framework simples e plug-and-play baseado em GRPO que supera as limitações da transferência direta de paradigmas de raciocínio para percepção visual em Modelos de Linguagem Visuais, introduzindo mecanismos de confirmação e recompensas ranqueadas por distribuição para melhorar o desempenho em tarefas complexas como a segmentação.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs