cs artigos | Gist.Science

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Este artigo apresenta um sistema de verificação de locutor de última geração que utiliza o modelo w2v-BERT 2.0 com LoRA e adaptadores de camada, alcançando resultados excepcionais no Vox1-O e Vox1-H, além de empregar poda estruturada guiada por destilação de conhecimento para reduzir o tamanho do modelo em 80% com uma degradação mínima de desempenho.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

O artigo apresenta o PAD-TRO, uma nova abordagem de otimização de trajetória baseada em difusão que gera diretamente sequências de estados e utiliza um mecanismo de projeção sem gradiente para garantir a viabilidade dinâmica, resultando em zero erro de viabilidade e uma taxa de sucesso quatro vezes maior em cenários de navegação de quadricópteros com obstáculos densos.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Membership Inference Attacks on Tokenizers of Large Language Models

Este artigo apresenta o primeiro estudo sobre ataques de inferência de membros em tokenizadores de modelos de linguagem grandes, demonstrando que eles são vetores de ataque vulneráveis e propondo uma defesa adaptativa para mitigar esses riscos de privacidade.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

Este trabalho apresenta e valida um sistema robótico pioneiro para polinização em ambientes controlados, que integra reconstrução 3D baseada em visão para o planejamento de apreensão precisa e modelagem física de vibração para induzir a liberação de pólen sem danificar as flores.

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

Differentiable Variable Fonts

Este trabalho introduz as "fontes variáveis diferenciáveis", um novo framework matemático que torna os parâmetros de fontes variáveis passíveis de otimização baseada em gradiente, permitindo assim a automação intuitiva de tarefas complexas de design e animação tipográfica.

Kinjal Parikh, Danny M. Kaufman, David I. W. Levin, Alec Jacobson2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

O artigo propõe o modelo EB-MBD, que integra funções de barreira emergentes ao processo de difusão baseado em modelos para otimizar trajetórias seguras em ambientes altamente restritos, superando as limitações de eficiência e estabilidade do método padrão e evitando operações de projeção computacionalmente custosas.

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

O artigo apresenta o AR-Drag, o primeiro modelo de difusão autoregressivo aprimorado por aprendizado por reforço para geração de vídeo em tempo real a partir de imagens, que supera os desafios de latência e qualidade ao permitir controle preciso de movimentos diversos com apenas 1,3 bilhão de parâmetros.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

O artigo apresenta a Exploração Orientada a Conceitos (CDE), uma abordagem que utiliza um modelo visão-linguagem pré-treinado para gerar conceitos visuais como sinais de recompensa intrínseca, permitindo uma exploração eficiente e robusta em tarefas de controle visual e transferência bem-sucedida para o mundo real.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Este estudo examina como diferentes protocolos de debate (síncrono e em rodada) influenciam a dinâmica deliberativa e o alinhamento de valores em modelos de linguagem de grande porte ao analisarem dilemas morais, revelando disparidades significativas na flexibilidade de revisão de vereditos e nas prioridades éticas entre os modelos avaliados.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

O artigo propõe um plugin leve e sem treinamento, chamado "Functional Head Identification and Class-Conditioned Rescaling", que reequilibra a atenção entre camadas de percepção e raciocínio em modelos multimodais para reduzir alucinações e melhorar a consistência do raciocínio sem modificar a arquitetura original.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Este trabalho apresenta um quadro de aprendizado por reforço multiobjetivo condicionado a preferências que permite a um único policy de locomoção em humanoides equilibrar dinamicamente o rastreamento de comandos e a conformidade a forças externas, validado com sucesso em simulações e experimentos reais.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

O artigo apresenta o DropVLA, um ataque de backdoor de nível de ação que compromete modelos Visão-Linguagem-Ação (VLA) forçando a execução de primitivas de ação específicas em pontos de decisão escolhidos pelo atacante com alta taxa de sucesso e mínima degradação do desempenho nominal, mesmo sob condições de treinamento com dados envenenados limitados e em ambientes de mundo real.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Este artigo apresenta um modelo de mundo baseado em visão egocêntrica que combina aprendizado offline com controle preditivo baseado em amostragem para permitir que humanoides planejem interações físicas complexas e robustas em tempo real, superando as limitações de eficiência de amostragem e generalização de métodos tradicionais.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

Este estudo conclui que, embora o efeito de protótipo promova a aprendizagem, ensinar soluções para o estresse digital a outros não foi suficiente para reduzir significativamente o próprio estresse ou os comportamentos problemáticos associados, destacando a dificuldade de transformar o engajamento cognitivo em mudança comportamental real.

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisão de escopo sistemática analisa o estado da arte de modelos generativos profundos não supervisionados para detecção de anomalias em neuroimagem, destacando seu potencial para localizar patologias sem necessidade de anotações detalhadas, ao mesmo tempo em que identifica desafios como a heterogeneidade metodológica e a necessidade de validação externa mais robusta.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

A Robust Placeability Metric for Model-Free Unified Pick-and-Place Reasoning

Este trabalho apresenta uma métrica probabilística robusta para avaliar a colocação de objetos a partir de observações parciais, permitindo um raciocínio unificado de pegar e colocar sem necessidade de modelos prévios ao integrar estabilidade, viabilidade de preensão e livre-espaço diretamente em nuvens de pontos.

Benno Wingender, Nils Dengler, Rohit Menon, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este artigo apresenta o framework CMR (Repetição Multimodal Baseada em Colisão) para o novo desafio de Segmentação Audiovisual Contínua (CAVS), abordando eficazmente a deriva semântica e a confusão por co-ocorrência em cenários de aprendizado contínuo de classes finas através de estratégias inovadoras de seleção e repetição de amostras.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

O artigo apresenta o PolyJailbreak, um novo framework de jailbreak em caixa preta para modelos de linguagem multimodal que explora a assimetria de segurança entre modalidades e utiliza otimização por aprendizado de reforço multiagente para superar os mecanismos de defesa, alcançando taxas de sucesso superiores a 95% em modelos comerciais como GPT-4o e Gemini.

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

HumanHalo - Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

O artigo apresenta o HumanMPC, um framework de Controle Preditivo Modelado (MPC) que garante navegação segura e eficiente de veículos aéreos não tripulados (MAVs) em ambientes com humanos, combinando previsões de movimento baseadas em dados com uma formulação de segurança inovadora que evita conservadorismo excessivo.

Simon Schaefer, Helen Oleynikova, Sandra Hirche, Stefan Leutenegger2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Este artigo propõe um framework de HCI para integrar o Minecraft Education Edition no sistema educacional de Bangladesh, adaptando-se às severas restrições de infraestrutura através de três níveis de implantação (online, LAN e offline), conteúdos localizados em bengali e interfaces acessíveis, visando melhorar o aprendizado em ambientes com poucos recursos.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

← Anterior Próximo →