cs artigos | Gist.Science

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

O artigo apresenta o VSDiffusion, um framework de duas etapas baseado em difusão que utiliza priores de visibilidade e dicas de iluminação e profundidade para gerar sombras realistas e geometricamente consistentes em composições de imagem, estabelecendo novos resultados de ponta no conjunto de dados DESOBAv2.

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

O artigo apresenta o AffordGrasp, um framework baseado em difusão que gera poses de preensão humana física e semanticamente estáveis ao integrar representações latentes de affordance e um processo de dupla condicionamento para alinhar geometria do objeto, intenções espaciais e instruções textuais.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este artigo apresenta um framework em cascata de dois estágios que gera vídeos complexos de movimentos humanos a partir de descrições textuais, combinando um modelo autoregressivo texto-para-esqueleto para criar sequências de poses e um modelo de difusão vídeo-para-poses com codificador de referência adaptativo, apoiado por um novo conjunto de dados sintético para superar as limitações atuais no controle temporal e na preservação de aparência.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

O artigo apresenta o QualiTeacher, um novo quadro de trabalho que transforma o problema das pseudo-rótulos imperfeitos na restauração de imagens do mundo real ao condicionar explicitamente o modelo de estudante à qualidade estimada desses rótulos, permitindo assim aprender um manifold de restauração graduado que evita artefatos e extrapola para gerar resultados de qualidade superior.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

The Unit Gap: How Sharing Works in Boolean Circuits

O artigo demonstra que a diferença entre o tamanho mínimo de um circuito booleano e o de uma fórmula sobre a base AIG é sempre 0 ou 1, estabelecendo teoremas que definem quando o compartilhamento de portas é necessário e como essa lacuna unitária surge exclusivamente de um único gate com fan-out 2.

Kirill Krinkin2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este artigo apresenta uma solução robusta para o 10º Desafio de Reconhecimento de Expressão da ABAW, utilizando um framework multimodal com atenção cruzada segura e dropout de modalidade para lidar eficazmente com oclusões, dados ausentes e desequilíbrio de classes, alcançando 60,79% de precisão no conjunto de validação Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Samyama: A Unified Graph-Vector Database with In-Database Optimization, Agentic Enrichment, and Hardware Acceleration

O artigo apresenta o Samyama, um banco de dados unificado de grafos e vetores escrito em Rust que integra otimização, enriquecimento agêntico e aceleração de hardware em um único motor, demonstrando alto desempenho e segurança de memória em hardware comercial.

Madhulatha Mandarapu, Sandeep Kunkunuru2026-03-10💻 cs

CEMR: An Effective Subgraph Matching Algorithm with Redundant Extension Elimination

O artigo apresenta o CEMR, um novo algoritmo de correspondência de subgrafos que supera as limitações de computação redundante dos métodos existentes ao utilizar técnicas de fusão e reutilização de extensões comuns, além de estratégias de poda, demonstrando desempenho superior em conjuntos de dados reais.

Linglin Yang, Xunbin Su, Lei Zou, Xiangyang Gou, Yinnian Lin2026-03-10💻 cs

Distributed Coordination Algorithms with Efficient Communication for Open Multi-Agent Systems with Dynamic Communication Links and Processing Delays

Este artigo propõe e analisa três algoritmos de consenso de média quantizada eficientes em comunicação para sistemas multiagente abertos com ligações dinâmicas e atrasos de processamento, estabelecendo condições topológicas para convergência em tempo finito e demonstrando robustez através de simulações numéricas.

Jiaqi Hu, Karl H. Johansson, Apostolos I. Rikos2026-03-10💻 cs

Step Automata

Este artigo propõe os conceitos de autômato de passo e máquina de Turing de passo (STM) como extensões naturais dos modelos tradicionais que permitem a execução de um passo de ações atômicas, preenchendo a lacuna existente na literatura entre a Máquina de Turing e autômatos concorrentes.

Yong Wang2026-03-10💻 cs

Trajectory Tracking Control Design for Autonomous Helicopters with Guaranteed Error Bounds

Este artigo apresenta uma estrutura sistemática para calcular limites de erro de rastreamento de trajetória com garantias formais para helicópteros autônomos, utilizando conjuntos invariantes positivos robustos (RPI) para definir zonas de segurança certificadas e comparar três arquiteturas de controle quanto à sua conservadorismo e desempenho.

Philipp Schitz, Johann C. Dauer, Paolo Mercorelli2026-03-10💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

O artigo apresenta o WhispEar, um framework bidirecional que utiliza a geração de sussurros pseudo-paralelos a partir de fala normal para escalar o treinamento de conversão de sussurro para fala normal, alcançando desempenho superior e disponibilizando o maior corpus paralelo bilíngue (chinês-inglês) existente.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng Wu2026-03-10💻 cs

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

O artigo propõe o framework S2S-FDD, que integra sinais de séries temporais industriais e linguagem natural por meio de um operador de conversão e um método de diagnóstico em árvore, permitindo diagnósticos de falhas zero-shot explicáveis e interativos para sistemas industriais.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Rendering Forces With a Modular Cable System, Motors, and Brakes

Este artigo apresenta o projeto, a abordagem de renderização de forças e a avaliação de uma nova interface háptica reconfigurável que utiliza um sistema modular de cabos com atuadores híbridos de motor e freio para gerar tanto forças ativas suaves quanto forças de colisão passivas elevadas em múltiplos graus de liberdade.

Jan Ulrich Bartels, Alexander Achberger, Katherine J. Kuchenbecker, Michael Sedlmair2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

O Speed3R é um modelo de reconstrução 3D feed-forward eficiente que supera os gargalos computacionais de atenção densa ao empregar um mecanismo de atenção de dois ramos focado em tokens informativos, alcançando um aumento de velocidade de 12,4x em sequências de 1000 vistas com uma perda mínima de precisão geométrica.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Este artigo apresenta o "See & Switch", um quadro interativo de ensino e execução para robôs que utiliza percepção visual baseada em câmeras olho-na-mão para selecionar automaticamente ramificações em tarefas condicionais e detectar contextos anômalos, permitindo uma programação por demonstração escalável e independente do modo de entrada, conforme validado em tarefas de manipulação e estudos com usuários.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

O artigo apresenta o ImageEdit-R1, um framework multiagente que utiliza aprendizado por reforço para coordenar agentes especializados em visão e linguagem, superando as limitações de modelos existentes ao tratar a edição de imagem como um problema de tomada de decisão sequencial para executar instruções complexas e contextuais com maior precisão.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

CinemaWorld: Generative Augmented Reality with LLMs and 3D Scene Generation for Movie Augmentation

O artigo apresenta o CinemaWorld, um sistema de realidade aumentada generativa que utiliza modelos de linguagem grandes e inteligência artificial para transformar cenas de filmes 2D em conteúdo 3D dinâmico e sincronizado no ambiente físico do usuário, demonstrando através de estudos que essa tecnologia aumenta a imersão e o prazer na experiência cinematográfica.

Keiichi Ihara, DaeHo Lee, Manato Abe, Hye-Young Jo, Ryo Suzuki2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Este artigo apresenta uma nova arquitetura de classificação plug-and-play que utiliza um Modelo de Visão e Linguagem de Grande Escala (LVLM) para realizar modelagem relacional conjunta entre imagens de drones e satélites, aprimorando significativamente a precisão da geolocalização por meio de uma função de perda relacional inovadora que fornece supervisão granular.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

← Anterior Próximo →