cs artigos | Gist.Science

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

O artigo apresenta o DualFlow, um framework unificado e eficiente baseado em Rectified Flow e RAG para geração de movimentos 3D interativos e reativos entre duas pessoas, condicionado a texto, música e sequências anteriores, que supera os métodos existentes em qualidade, sincronização e fidelidade semântica.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

O artigo apresenta o ELHPlan, um novo framework para planejamento de tarefas de longo horizonte em colaboração multiagente que utiliza cadeias de ações vinculadas a intenções para equilibrar adaptabilidade e eficiência, alcançando taxas de sucesso comparáveis às melhores metodologias atuais enquanto consome apenas 30-40% dos tokens necessários.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Este trabalho apresenta o PHASE-Net, um modelo leve e teoricamente fundamentado em equações físicas para medição de fotopletismografia remota (rPPG) que supera os desafios de movimento e iluminação através de componentes inovadores como o Trocador Axial de FLOPs Zero, Filtro Espacial Adaptativo e TCN com Portão, alcançando desempenho de ponta e eficiência para implantação prática.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Este trabalho apresenta o LMOD+, um novo benchmark multimodal em oftalmologia expandido com 32.633 instâncias e avaliações abrangentes de modelos de linguagem grandes multimodais, visando impulsionar o desenvolvimento de IA para diagnóstico e triagem de doenças oculares que ameaçam a visão.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Este artigo propõe uma abordagem categórica unificada para monadas de codensidade, baseada na dualidade entre categorias, que simplifica drasticamente as provas de apresentações existentes e permite a derivação de novas apresentações para diversas monadas importantes na lógica e semântica denotacional.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Este trabalho apresenta um sistema de localização relativa entre robôs aéreos e terrestres que combina dados de UWB e radar com sensores inerciais e de odometria em um framework de otimização de grafos, demonstrando superioridade sobre métodos existentes e oferecendo código e dados abertos para reprodução e benchmarking.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

O artigo apresenta o XPPG-PCA, um método automático, não supervisionado e sem referência para avaliação objetiva da gravidade de patologias da fala, que supera as limitações das abordagens atuais e demonstra robustez e eficácia comparável a métodos baseados em referência em três conjuntos de dados de câncer oral.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Este artigo propõe a Função de Barreira de Controle Parabólica Dinâmica (DPCBF), um método inovador que supera as limitações de conservadorismo e inviabilidade dos métodos baseados em cones de colisão, garantindo a navegação segura e eficaz de robôs não holonômicos em ambientes densos e dinâmicos com até 100 obstáculos.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

O artigo apresenta o REVEL, uma nova tarefa de manipulação interativa de vídeos em streaming, e propõe o DragStream, uma abordagem sem treinamento que corrige a deriva de distribuição latente e mitiga interferências contextuais para permitir a edição precisa de qualquer elemento em qualquer momento dentro de modelos de difusão autoregressivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Este artigo apresenta um sistema de verificação de locutor de última geração que utiliza o modelo w2v-BERT 2.0 com LoRA e adaptadores de camada, alcançando resultados excepcionais no Vox1-O e Vox1-H, além de empregar poda estruturada guiada por destilação de conhecimento para reduzir o tamanho do modelo em 80% com uma degradação mínima de desempenho.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

O artigo apresenta o PAD-TRO, uma nova abordagem de otimização de trajetória baseada em difusão que gera diretamente sequências de estados e utiliza um mecanismo de projeção sem gradiente para garantir a viabilidade dinâmica, resultando em zero erro de viabilidade e uma taxa de sucesso quatro vezes maior em cenários de navegação de quadricópteros com obstáculos densos.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Membership Inference Attacks on Tokenizers of Large Language Models

Este artigo apresenta o primeiro estudo sobre ataques de inferência de membros em tokenizadores de modelos de linguagem grandes, demonstrando que eles são vetores de ataque vulneráveis e propondo uma defesa adaptativa para mitigar esses riscos de privacidade.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

Este trabalho apresenta e valida um sistema robótico pioneiro para polinização em ambientes controlados, que integra reconstrução 3D baseada em visão para o planejamento de apreensão precisa e modelagem física de vibração para induzir a liberação de pólen sem danificar as flores.

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

Differentiable Variable Fonts

Este trabalho introduz as "fontes variáveis diferenciáveis", um novo framework matemático que torna os parâmetros de fontes variáveis passíveis de otimização baseada em gradiente, permitindo assim a automação intuitiva de tarefas complexas de design e animação tipográfica.

Kinjal Parikh, Danny M. Kaufman, David I. W. Levin, Alec Jacobson2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

O artigo propõe o modelo EB-MBD, que integra funções de barreira emergentes ao processo de difusão baseado em modelos para otimizar trajetórias seguras em ambientes altamente restritos, superando as limitações de eficiência e estabilidade do método padrão e evitando operações de projeção computacionalmente custosas.

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

O artigo apresenta o AR-Drag, o primeiro modelo de difusão autoregressivo aprimorado por aprendizado por reforço para geração de vídeo em tempo real a partir de imagens, que supera os desafios de latência e qualidade ao permitir controle preciso de movimentos diversos com apenas 1,3 bilhão de parâmetros.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

O artigo apresenta a Exploração Orientada a Conceitos (CDE), uma abordagem que utiliza um modelo visão-linguagem pré-treinado para gerar conceitos visuais como sinais de recompensa intrínseca, permitindo uma exploração eficiente e robusta em tarefas de controle visual e transferência bem-sucedida para o mundo real.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Este estudo examina como diferentes protocolos de debate (síncrono e em rodada) influenciam a dinâmica deliberativa e o alinhamento de valores em modelos de linguagem de grande porte ao analisarem dilemas morais, revelando disparidades significativas na flexibilidade de revisão de vereditos e nas prioridades éticas entre os modelos avaliados.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

O artigo propõe um plugin leve e sem treinamento, chamado "Functional Head Identification and Class-Conditioned Rescaling", que reequilibra a atenção entre camadas de percepção e raciocínio em modelos multimodais para reduzir alucinações e melhorar a consistência do raciocínio sem modificar a arquitetura original.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Este trabalho apresenta um quadro de aprendizado por reforço multiobjetivo condicionado a preferências que permite a um único policy de locomoção em humanoides equilibrar dinamicamente o rastreamento de comandos e a conformidade a forças externas, validado com sucesso em simulações e experimentos reais.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

← Anterior Próximo →