DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

O artigo apresenta o DropVLA, um ataque de backdoor de nível de ação que compromete modelos Visão-Linguagem-Ação (VLA) forçando a execução de primitivas de ação específicas em pontos de decisão escolhidos pelo atacante com alta taxa de sucesso e mínima degradação do desempenho nominal, mesmo sob condições de treinamento com dados envenenados limitados e em ambientes de mundo real.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Este artigo apresenta um modelo de mundo baseado em visão egocêntrica que combina aprendizado offline com controle preditivo baseado em amostragem para permitir que humanoides planejem interações físicas complexas e robustas em tempo real, superando as limitações de eficiência de amostragem e generalização de métodos tradicionais.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

Este estudo conclui que, embora o efeito de protótipo promova a aprendizagem, ensinar soluções para o estresse digital a outros não foi suficiente para reduzir significativamente o próprio estresse ou os comportamentos problemáticos associados, destacando a dificuldade de transformar o engajamento cognitivo em mudança comportamental real.

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisão de escopo sistemática analisa o estado da arte de modelos generativos profundos não supervisionados para detecção de anomalias em neuroimagem, destacando seu potencial para localizar patologias sem necessidade de anotações detalhadas, ao mesmo tempo em que identifica desafios como a heterogeneidade metodológica e a necessidade de validação externa mais robusta.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este artigo apresenta o framework CMR (Repetição Multimodal Baseada em Colisão) para o novo desafio de Segmentação Audiovisual Contínua (CAVS), abordando eficazmente a deriva semântica e a confusão por co-ocorrência em cenários de aprendizado contínuo de classes finas através de estratégias inovadoras de seleção e repetição de amostras.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

O artigo apresenta o PolyJailbreak, um novo framework de jailbreak em caixa preta para modelos de linguagem multimodal que explora a assimetria de segurança entre modalidades e utiliza otimização por aprendizado de reforço multiagente para superar os mecanismos de defesa, alcançando taxas de sucesso superiores a 95% em modelos comerciais como GPT-4o e Gemini.

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Este artigo propõe um framework de HCI para integrar o Minecraft Education Edition no sistema educacional de Bangladesh, adaptando-se às severas restrições de infraestrutura através de três níveis de implantação (online, LAN e offline), conteúdos localizados em bengali e interfaces acessíveis, visando melhorar o aprendizado em ambientes com poucos recursos.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

O artigo apresenta o Dream4Drive, um novo framework de geração de dados sintéticos que utiliza modelos de mundo de direção e um conjunto de dados 3D (DriveObj3D) para criar vídeos realistas e multi-visão, demonstrando melhorias significativas no desempenho de modelos de percepção autônoma, especialmente em casos extremos, superando as limitações de métodos anteriores que dependiam de estratégias de treinamento ineficientes.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

O artigo apresenta o MoE-GS, um novo quadro unificado para a reconstrução de cenas dinâmicas via Gaussian Splatting que integra múltiplos especialistas especializados por meio de um roteador de pixels consciente de volume para superar as limitações de métodos existentes, oferecendo também estratégias de otimização para mitigar o custo computacional.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

Next Generation Cloud-native In-Memory Stores: From Redis to Valkey and Beyond

Este estudo preenche uma lacuna na literatura ao realizar uma avaliação experimental comparativa de alternativas ao Redis (Valkey, KeyDB e Garnet) em ambientes Kubernetes, analisando métricas de desempenho, eficiência e viabilidade de longo prazo para identificar os trade-offs entre performance, compatibilidade e sustentabilidade dessas soluções de armazenamento em memória.

Carl-Johan Fauvelle Munck af Rosensch"old, Feras M. Awaysheh, Ahmad Awad2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

Este artigo apresenta o HCLA, um sistema multiagente centrado no ser humano que utiliza agentes de linguagem para transformar intenções analíticas em regras explícitas, quantificar riscos em transações de ativos digitais e reconstruir justificativas rastreáveis no estilo de especialistas, visando aprimorar a transparência e a responsabilidade na forense financeira regulatória.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

O artigo apresenta o AnyPcc, um framework universal de compressão de nuvens de pontos que supera as limitações de generalização existentes ao combinar um Modelo de Contexto Universal robusto a diversas densidades com uma estratégia de Ajuste Fino Adaptativo à Instância (IAFT), alcançando resultados state-of-the-art em diversos conjuntos de dados reais com baixa complexidade.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Este artigo propõe um método automatizado de contagem de pragas em armadilhas aquáticas que utiliza um sistema robótico de agitação ativa e um controle em malha fechada baseado na confiança da contagem para mitigar oclusões, reduzir erros de contagem e otimizar o tempo de execução em comparação com métodos estáticos e de velocidade constante.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

O artigo apresenta o CountFormer, um framework que substitui o codificador de imagem por um modelo de visão auto-supervisionado (DINOv2) para melhorar a consistência estrutural no contagem de objetos sem exemplares, demonstrando que representações de base podem reduzir erros de supercontagem em objetos complexos, embora os resultados quantitativos no benchmark FSC-147 permaneçam competitivos com abordagens anteriores.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

O artigo apresenta o LagMemo, um sistema de navegação visual que utiliza uma memória de Gaussiana 3D com linguagem para permitir a navegação em múltiplos objetivos com consultas de vocabulário aberto, superando os métodos mais avançados e introduzindo o conjunto de dados GOAT-Core para avaliação rigorosa.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

Este estudo apresenta o MobiDock, um manipulador móvel bimanual modular e auto-reconfigurável que utiliza uma estratégia de acoplamento autônomo baseada em visão computacional e um mecanismo de trava rosqueada para transformar dois robôs independentes em uma plataforma unificada, resultando em maior estabilidade dinâmica, precisão angular e eficiência operacional em comparação com a cooperação não acoplada.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs