cs artigos | Gist.Science

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

O artigo apresenta o GLASS, um framework não supervisionado que combina análise espectral geométrica com priores semânticos de modelos visão-linguagem para estabelecer correspondências densas e semanticamente consistentes entre formas 3D, superando significativamente os métodos existentes em cenários de deformações não isométricas e interclasses.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Este artigo propõe o framework de Inferência Auto-Crítica (SCI), que utiliza raciocínio contrafactual multimodal escalável para mitigar viés e sensibilidade linguística em Modelos Visuais-Linguísticos, além de introduzir o DRBench, uma avaliação dinâmica específica para cada modelo que supera as limitações dos benchmarks fixos.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

O artigo apresenta o Holi-Spatial, o primeiro conjunto de dados multimodal espacialmente consciente em grande escala, construído totalmente de forma automatizada a partir de vídeos brutos sem intervenção humana, que oferece anotações semânticas e geométricas de alta qualidade para superar as limitações de escalabilidade e viés de domínio dos métodos existentes e aprimorar significativamente o raciocínio espacial de modelos de visão e linguagem.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

DAISS: Phase-Aware Imitation Learning for Dual-Arm Robotic Ultrasound-Guided Interventions

O artigo apresenta o DAISS, um sistema cirúrgico teleoperado de dois braços que utiliza aprendizado por imitação sensível a fases e feedback de ultrassom em tempo real para automatizar com precisão procedimentos de intervenção guiada por imagem, como a inserção de agulhas, reduzindo a carga cognitiva e replicando estratégias de especialistas a partir de demonstrações limitadas.

Feng Li, Pei Liu, Shiting Wang, Ning Wang, Zhongliang Jiang, Nassir Navab, Yuan Bi2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

O artigo apresenta o Ref-DGS, um novo framework de "Dual Gaussian Splatting" que resolve o desafio da reconstrução de superfícies com reflexos especulares próximos e distantes, decoplando a geometria das reflexões em uma representação dual e utilizando um shader adaptativo para alcançar resultados de ponta com treinamento significativamente mais rápido do que métodos baseados em rastreamento de raios.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

O artigo apresenta o FusionRegister, um método geral e eficiente que utiliza priores visuais para realizar o registro cruzado entre imagens infravermelhas e visíveis diretamente no resultado da fusão, garantindo robustez, alinhamento detalhado e compatibilidade com diversas técnicas de fusão existentes.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

The Effect of Code Obfuscation on Human Program Comprehension

Este estudo investiga como a ofuscação de código afeta a compreensão humana em Python e JavaScript, revelando que, embora a ofuscação geralmente aumente o tempo de análise e reduza a precisão, a relação não é estritamente monotônica e varia conforme a linguagem, com a experiência do programador influenciando principalmente a familiaridade com a sintaxe específica e não a capacidade geral de programação.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. Nguyen2026-03-10💻 cs

Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers

Este artigo de revisão oferece uma visão estruturada sobre os mecanismos, avaliações e fronteiras emergentes da memória em agentes autônomos baseados em LLMs, propondo uma taxonomia tridimensional, analisando cinco famílias de mecanismos e destacando desafios críticos para a adaptação contínua desses sistemas.

Pengfei Du2026-03-10💻 cs

Low-Cost Teleoperation Extension for Mobile Manipulators

Este artigo apresenta um framework de teleoperação de baixo custo e código aberto para manipuladores móveis bimanuais, que utiliza hardware comum como smartphones e pedais para permitir um controle intuitivo de todo o corpo, eliminando a necessidade de equipamentos especializados caros e demonstrando melhor desempenho e menor carga cognitiva em comparação com controles baseados em teclado.

Danil Belov, Artem Erkhov, Yaroslav Savotin, Tatiana Podladchikova, Pavel Osinenko2026-03-10💻 cs

A Primer on Evolutionary Frameworks for Near-Field Multi-Source Localization

Este artigo apresenta dois novos frameworks evolutivos baseados em modelos, denominados NEMO-DE e NEEF-DE, que realizam a localização de múltiplas fontes no campo próximo utilizando diretamente o modelo de onda esférica contínua, eliminando a necessidade de grades discretizadas, dados rotulados ou restrições de arquitetura de rede.

Seyed Jalaleddin Mousavirad, Parisa Ramezani, Mattias O'Nils, Emil Björnson2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

O artigo apresenta o UniUncer, um framework unificado e leve que melhora a confiabilidade da direção de ponta a ponta ao estimar e integrar incertezas tanto de elementos estáticos quanto dinâmicos, resultando em ganhos significativos de precisão e desempenho em cenários desafiadores.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

O artigo apresenta o FrameVGGT, um framework de memória explícita orientado a quadros que supera as limitações de crescimento ilimitado de cache em transformadores de geometria visual de streaming, substituindo a retenção de tokens individuais por blocos de evidência coesos para manter uma precisão geométrica estável sob orçamentos de memória fixos.

Zhisong Xu, Takeshi Oishi2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

O artigo apresenta o RoboPCA, um framework de aprendizado de affordance centrado na pose que prevê conjuntamente regiões de contato e poses adequadas para manipulação robótica, utilizando o pipeline Human2Afford para gerar automaticamente anotações a partir de demonstrações humanas e demonstrando superioridade em relação a métodos existentes em diversos cenários.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

Este artigo apresenta o CDA-VSR, uma rede de super-resolução de vídeo online que utiliza informações do domínio comprimido, como vetores de movimento e mapas de resíduos, para alcançar uma melhoria significativa na velocidade de inferência e na qualidade de reconstrução em comparação com métodos existentes.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

O artigo apresenta o MMDM, um modelo de difusão baseado em autoencoder que utiliza o mecanismo de Agregação de Atenção Cinemática para aprender priores de movimento adaptativos ao contexto, permitindo a reconstrução robusta e eficiente de dados de movimento incompletos ou ruidosos em tarefas como refinamento, preenchimento e interpolação.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

C $^2$ -Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration

O artigo apresenta o C $^2$ -Explorer, um framework descentralizado para exploração multi-UAV que supera limitações de comunicação e alocação não contígua ao utilizar representações de tarefas baseadas em conectividade e uma formulação de alocação orientada à contiguidade, resultando em reduções significativas no tempo de exploração e na distância percorrida.

Xinlu Yan, Mingjie Zhang, Yuhao Fang, Yanke Sun, Jun Ma, Youmin Gong, Boyu Zhou, Jie Mei2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

O artigo apresenta o TDM-R1, uma nova abordagem de aprendizado por reforço que permite otimizar modelos generativos de poucos passos com recompensas não diferenciáveis, superando os métodos existentes e alcançando desempenho de ponta em diversas tarefas de geração de imagens.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

O artigo apresenta o PARSE, um framework que modela relações espaciais em nível de partes de objetos através de um grafo de montagem centrado em partes (PAG), permitindo a geração de cenas 3D fisicamente consistentes e melhorando o raciocínio espacial de modelos de visão-linguagem por meio do dataset PARSE-10K.

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

O artigo apresenta o VoiceSHIELD-Small, um modelo leve e em tempo real baseado no Whisper-small que integra a transcrição de fala e a detecção de comandos maliciosos em uma única etapa, alcançando alta precisão e baixa latência para mitigar riscos de segurança em interfaces de voz.

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N Ail2026-03-10💻 cs

YAQIN: Culturally Sensitive, Agentic AI for Mental Healthcare Support Among Muslim Women in the UK

O artigo apresenta o YAQIN, uma aplicação de IA co-desenhada que oferece suporte de saúde mental culturalmente sensível e alinhado à fé para mulheres muçulmanas no Reino Unido, preenchendo lacunas de confiança e acessibilidade através de um chatbot e diário guiado baseados na psicologia islâmica.

Yasmin Zaraket, Céline Mougenot2026-03-10💻 cs

← Anterior Próximo →

cs