cs artigos | Gist.Science

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artigo apresenta um framework de estimativa de pose humana 3D baseado em difusão que utiliza uma estratégia de Poda Temporal Hierárquica (HTP) para reduzir drasticamente o custo computacional e acelerar a inferência, mantendo desempenho de ponta ao eliminar dinamicamente tokens de pose redundantes em níveis de quadro e semântico.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

O artigo apresenta o PointSlice, um novo método de representação baseado em fatias que converte nuvens de pontos 3D em dados 2D e utiliza uma Rede de Interação de Fatias (SIN) para alcançar um equilíbrio superior entre precisão e eficiência na detecção de objetos 3D, superando as abordagens tradicionais baseadas em voxels e pilares em velocidade e número de parâmetros com perda mínima de acurácia.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

O artigo apresenta o AmphiKey, um protocolo híbrido pós-quântico e clássico para redes inteligentes que oferece dois modos operacionais distintos — um autenticado com não-repúdio e outro com autenticação negável —, garantindo segurança robusta e desempenho eficiente em dispositivos heterogêneos, desde servidores potentes até clientes com recursos limitados.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Este artigo propõe o MDM-MixMFL, um novo paradigma de aprendizado federado que utiliza estratégias de desacoplamento e memorização de modalidades para realizar segmentação de imagens de ressonância magnética em cenários médicos descentralizados com heterogeneidade de dados e modalidades.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

O artigo apresenta o UltraUPConvNet, uma rede neural multi-tarefa eficiente e baseada em UPerNet e ConvNeXt que realiza simultaneamente a segmentação de tecidos e a previsão de doenças em imagens de ultrassom, alcançando desempenho de ponta com menor custo computacional.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

O artigo apresenta o Traffic-MLLM, um framework de raciocínio multimodal para cenários de trânsito que substitui a recuperação explícita de casos por uma modelagem neural estruturada e regularizada por curiosidade, demonstrando superioridade em benchmarks como SUTD-TrafficQA e DriveQA ao aprender um espaço de casos generalizável diretamente durante o treinamento.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

O artigo apresenta o ActivePose, um pipeline de estimativa ativa de pose 6D que integra Modelos de Linguagem e Visão (VLM) com "imaginação robótica" e um módulo de rastreamento baseado em difusão para detectar e resolver ambiguidades em tempo real, garantindo visibilidade e precisão na manipulação robótica.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Bio-inspired tail oscillation enables robot fast crawling on deformable granular terrains

Inspirados pelo peixe-pulmonado, os pesquisadores desenvolveram um robô que utiliza a oscilação ativa da cauda para fluidificar o substrato granular, aumentando a velocidade de locomoção em 67% e reduzindo o arrasto corporal em 46%, estabelecendo princípios de design para robôs operarem em terrenos deformáveis.

Shipeng Liu, Meghana Sagare, Shubham Patil, Feifei Qian2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

O artigo apresenta o SAGA, um mecanismo de atenção linear que utiliza portas adaptativas seletivas e uma decomposição eficiente para superar as limitações de baixa expressividade e redundância de métodos existentes, alcançando simultaneamente maior eficiência computacional e ganhos significativos de precisão em tarefas de visão computacional.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artigo apresenta a Cumulative Consensus Score (CCS), uma métrica de avaliação sem rótulos e agnóstica a modelos que utiliza consistência espacial em dados aumentados para monitorar a confiabilidade de detectores de objetos em cenários de implantação real, demonstrando alta concordância com métricas tradicionais baseadas em ground-truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Este artigo apresenta o WHU-STree, um novo conjunto de dados de referência multimodal e rico em anotações, coletado em duas cidades distintas com nuvens de pontos e imagens de alta resolução, projetado para superar as limitações dos métodos tradicionais e facilitar a automatização de inventários urbanos de árvores através da fusão de dados e aprendizado de modelos para diversas tarefas de gestão de ativos.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Este artigo apresenta um quadro de aprendizagem por reforço assíncrono com um Módulo de Codificação Temporal que desacopla a percepção do controlo, permitindo que veículos aéreos autónomos naveguem de forma ágil e robusta em ambientes complexos a 100 Hz, superando as limitações de latência e transferindo-se com sucesso da simulação para a realidade.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

O artigo apresenta o GeoAware-VLA, uma abordagem que integra prios geométricos fortes através de um modelo de visão pré-treinado e congelado para melhorar a invariância a pontos de vista em modelos de Visão-Linguagem-Ação, resultando em ganhos significativos de generalização zero-shot em benchmarks de simulação e no mundo real sem a necessidade de dados 3D explícitos.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

Este estudo apresenta o OIPP, um preditor de ponto de impacto adaptativo a objetos que, utilizando um novo conjunto de dados diversificado com 8.000 trajetórias, supera os métodos existentes na previsão precisa de pontos de aterrissagem para objetos em voo com aerodinâmica complexa, permitindo a captura bem-sucedida por um robô quadrúpede tanto em simulação quanto em experimentos reais.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Este artigo apresenta o LibriTTS-VI, o primeiro corpus público para controle de impressão vocal, e propõe métodos inovadores de treinamento desentrelaçado e sem referência que superam o vazamento de impressão e permitem um controle numérico preciso e eficiente na síntese de fala.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

Este artigo apresenta o "Compose by Focus", um framework que utiliza representações de grafos de cena para aprender habilidades atômicas robustas e combiná-las com um planejador baseado em modelos de linguagem e visão, permitindo que robôs generalistas executem tarefas complexas de longo horizonte com maior sucesso e generalização composicional.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

O artigo apresenta o DroFiT, uma rede leve de aprimoramento de fala projetada para drones que utiliza atenção de frequência fundida e uma arquitetura híbrida para eliminar ruído severo em tempo real em plataformas com recursos limitados.

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Este artigo apresenta um sistema inovador de navegação visual "teach-and-repeat" baseado em câmeras de eventos que utiliza correlação cruzada no domínio da frequência para alcançar uma latência de processamento extremamente baixa (2,88 ms) e manter erros de trajetória inferiores a 15 cm em diversos cenários diurnos e noturnos.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Este trabalho demonstra que os benchmarks atuais de compreensão de vídeo negligenciam a importância da audição ao serem resolvidos majoritariamente por pistas visuais, mas confirma que a integração de codificadores de fala em modelos de linguagem multimodais traz ganhos significativos em tarefas que exigem compreensão de áudio e alinhamento cruzado, propondo uma arquitetura escalável e de código aberto para remediar essa lacuna.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

O artigo apresenta o FINS, um framework leve que reconstrói superfícies implícitas e campos de distância assinada (SDF) a partir de uma única imagem com alta eficiência e precisão, superando métodos anteriores em velocidade de convergência e viabilidade para tarefas de geração de movimento em robótica.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

← Anterior Próximo →