Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Este artigo apresenta um sistema de verificação de locutor de última geração que utiliza o modelo w2v-BERT 2.0 com LoRA e adaptadores de camada, alcançando resultados excepcionais no Vox1-O e Vox1-H, além de empregar poda estruturada guiada por destilação de conhecimento para reduzir o tamanho do modelo em 80% com uma degradação mínima de desempenho.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

O artigo apresenta o PAD-TRO, uma nova abordagem de otimização de trajetória baseada em difusão que gera diretamente sequências de estados e utiliza um mecanismo de projeção sem gradiente para garantir a viabilidade dinâmica, resultando em zero erro de viabilidade e uma taxa de sucesso quatro vezes maior em cenários de navegação de quadricópteros com obstáculos densos.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

Este trabalho apresenta e valida um sistema robótico pioneiro para polinização em ambientes controlados, que integra reconstrução 3D baseada em visão para o planejamento de apreensão precisa e modelagem física de vibração para induzir a liberação de pólen sem danificar as flores.

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

O artigo propõe um plugin leve e sem treinamento, chamado "Functional Head Identification and Class-Conditioned Rescaling", que reequilibra a atenção entre camadas de percepção e raciocínio em modelos multimodais para reduzir alucinações e melhorar a consistência do raciocínio sem modificar a arquitetura original.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Este trabalho apresenta um quadro de aprendizado por reforço multiobjetivo condicionado a preferências que permite a um único policy de locomoção em humanoides equilibrar dinamicamente o rastreamento de comandos e a conformidade a forças externas, validado com sucesso em simulações e experimentos reais.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

O artigo apresenta o DropVLA, um ataque de backdoor de nível de ação que compromete modelos Visão-Linguagem-Ação (VLA) forçando a execução de primitivas de ação específicas em pontos de decisão escolhidos pelo atacante com alta taxa de sucesso e mínima degradação do desempenho nominal, mesmo sob condições de treinamento com dados envenenados limitados e em ambientes de mundo real.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Este artigo apresenta um modelo de mundo baseado em visão egocêntrica que combina aprendizado offline com controle preditivo baseado em amostragem para permitir que humanoides planejem interações físicas complexas e robustas em tempo real, superando as limitações de eficiência de amostragem e generalização de métodos tradicionais.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

Este estudo conclui que, embora o efeito de protótipo promova a aprendizagem, ensinar soluções para o estresse digital a outros não foi suficiente para reduzir significativamente o próprio estresse ou os comportamentos problemáticos associados, destacando a dificuldade de transformar o engajamento cognitivo em mudança comportamental real.

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisão de escopo sistemática analisa o estado da arte de modelos generativos profundos não supervisionados para detecção de anomalias em neuroimagem, destacando seu potencial para localizar patologias sem necessidade de anotações detalhadas, ao mesmo tempo em que identifica desafios como a heterogeneidade metodológica e a necessidade de validação externa mais robusta.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este artigo apresenta o framework CMR (Repetição Multimodal Baseada em Colisão) para o novo desafio de Segmentação Audiovisual Contínua (CAVS), abordando eficazmente a deriva semântica e a confusão por co-ocorrência em cenários de aprendizado contínuo de classes finas através de estratégias inovadoras de seleção e repetição de amostras.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

O artigo apresenta o PolyJailbreak, um novo framework de jailbreak em caixa preta para modelos de linguagem multimodal que explora a assimetria de segurança entre modalidades e utiliza otimização por aprendizado de reforço multiagente para superar os mecanismos de defesa, alcançando taxas de sucesso superiores a 95% em modelos comerciais como GPT-4o e Gemini.

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Este artigo propõe um framework de HCI para integrar o Minecraft Education Edition no sistema educacional de Bangladesh, adaptando-se às severas restrições de infraestrutura através de três níveis de implantação (online, LAN e offline), conteúdos localizados em bengali e interfaces acessíveis, visando melhorar o aprendizado em ambientes com poucos recursos.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs