cs.CV artigos | Gist.Science

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

O artigo apresenta o HoloLLM, um modelo de linguagem multimodal que integra sensores incomuns como LiDAR, infravermelho, radar mmWave e WiFi para superar as limitações da visão em ambientes reais, utilizando um projetor universal de injeção de modalidades e uma pipeline de curadoria de dados colaborativa para alcançar uma percepção e raciocínio humanos significativamente mais precisos e robustos.

Chuhao Zhou, Jianfei Yang2026-02-25💬 cs.CL

Learning Hierarchical Sparse Transform Coding for 3DGS Compression

Este artigo propõe um método de codificação de transformada treinável (TTC) com design hierárquico, combinando KLT e uma transformada neural esparsa, para melhorar o desempenho taxa-distorção e a eficiência de decodificação na compressão de 3DGS ao reintroduzir a transformação de análise-síntese.

Hao Xu, Xiaolin Wu, Xi Zhang2026-02-25⚡ eess

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System

O artigo apresenta o SpikePingpong, um sistema robótico inovador que combina visão baseada em pulsos (spike) com aprendizado por imitação em uma arquitetura de processamento rápido-lento para alcançar precisão de alta velocidade no jogo de pingue-pongue.

Hao Wang, Chengkai Hou, Xianglong Li + 7 more2026-02-25💻 cs

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Este trabalho propõe a Orientação Adaptativa de Baixa Frequência (ALG), uma solução simples e sem treinamento que melhora a dinâmica temporal na geração de vídeos a partir de imagens, mitigando a supressão de movimento causada pela exposição prematura a detalhes de alta frequência, sem comprometer a qualidade visual ou a alinhamento com o texto.

June Suk Choi, Kyungmin Lee, Sihyun Yu + 3 more2026-02-25💻 cs

Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction

Este artigo apresenta o UPNet, uma abordagem inovadora de seleção ativa de vistas que utiliza mapas de incerteza neural para identificar as perspectivas mais informativas para reconstrução 3D, alcançando precisão comparável com metade das vistas e reduzindo drasticamente o custo computacional em relação aos métodos existentes.

Zhengquan Zhang, Feng Xu, Mengmi Zhang2026-02-25🤖 cs.AI

Addressing Camera Sensors Faults in Vision-Based Navigation: Simulation and Dataset Development

Este estudo aborda os desafios da navegação baseada em visão em missões espaciais ao caracterizar falhas de sensores, desenvolver um framework de simulação para gerar imagens defeituosas sintéticas e criar um conjunto de dados essencial para treinar e testar algoritmos de Inteligência Artificial na detecção dessas falhas.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models

O artigo apresenta o NRSeg, um framework de aprendizado resiliente a ruídos para segmentação semântica em visão de pássaro (BEV) que utiliza dados sintéticos de modelos de mundo de direção, combinando métricas de consistência geométrica, previsão paralela de distribuições e exclusão semântica hierárquica para alcançar desempenho superior em tarefas não supervisionadas e semi-supervisionadas.

Siyu Li, Fei Teng, Yihong Cao + 3 more2026-02-25⚡ eess

SFATTI: Spiking FPGA Accelerator for Temporal Task-driven Inference -- A Case Study on MNIST

Este artigo apresenta o SFATTI, um acelerador de FPGA para Redes Neurais de Spiking (SNN) desenvolvido com o framework Spiker+ para inferência temporal eficiente em energia na tarefa de reconhecimento de dígitos manuscritos do conjunto de dados MNIST.

Alessio Caviglia, Filippo Marostica, Alessio Carpegna + 2 more2026-02-25💻 cs

Low-Latency Event-Based Velocimetry for Quadrotor Control in a Narrow Pipe

Este trabalho apresenta o primeiro sistema de controle em malha fechada para drones quadrotor que permite o hover em tubos estreitos, utilizando velocimetria baseada em eventos para medir o fluxo de ar em tempo real e um controlador de aprendizado por reforço para compensar as perturbações aerodinâmicas e evitar colisões.

Leonard Bauersfeld, Davide Scaramuzza2026-02-25💻 cs

FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

O artigo apresenta o FedGIN, um framework de aprendizado federado que utiliza uma augmentação não-linear dinâmica de intensidade global para superar desafios de privacidade e variabilidade entre modalidades, permitindo uma segmentação robusta de órgãos em imagens médicas multimodais (MRI e CT) sem a necessidade de compartilhar dados brutos.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25🤖 cs.AI

Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

Este artigo propõe a NS-FPN, uma rede de pirâmide de características leve e eficaz que, ao adotar uma perspectiva de supressão de ruído no domínio da frequência através dos módulos LFP e SFS, melhora significativamente a detecção e segmentação de alvos pequenos no infravermelho, reduzindo falsos alarmes em cenários com ruído intenso.

Maoxun Yuan, Duanni Meng, Ziteng Xi + 4 more2026-02-25🤖 cs.AI

Learned Regularization for Microwave Tomography

Este artigo propõe o SSD-Reg, uma nova abordagem de regularização aprendida baseada em modelos de difusão que, integrada a um esquema variacional orientado por física, resolve o problema inverso não linear e mal-posto da Tomografia de Micro-ondas sem a necessidade de dados de treinamento pareados, permitindo a reconstrução precisa de estruturas anatômicas complexas.

Bowen Tong, Hao Chen, Shaorui Guo + 1 more2026-02-25⚡ eess

PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training

O artigo apresenta o PaCo-FR, um framework de pré-treinamento não supervisionado que combina modelagem de imagens mascaradas com alinhamento patch-pixel para superar desafios na representação facial, alcançando desempenho de ponta em diversas tarefas de análise facial com apenas 2 milhões de imagens não rotuladas.

Yin Xie, Zhichao Chen, Zeyu Xiao + 7 more2026-02-25💻 cs

Trajectory-aware Shifted State Space Models for Online Video Super-Resolution

Este artigo apresenta o TS-Mamba, um novo método de super-resolução de vídeo online que utiliza modelos de espaço de estado (SSM) com deslocamento e modelagem de trajetória para agregar informações espaciais e temporais de longo alcance, alcançando desempenho superior e uma redução significativa na complexidade computacional.

Qiang Zhu, Xiandong Meng, Yuxian Jiang + 5 more2026-02-25💻 cs

MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

O artigo apresenta o MoSA, um modelo inovador que gera vídeos humanos coerentes ao desacoplar a geração de estrutura e aparência, utilizando um transformador 3D e restrições de contato para superar as limitações de movimento e interação com o ambiente encontradas em abordagens anteriores.

Haoyu Wang, Hao Tang, Donglin Di + 5 more2026-02-25💻 cs

Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction

Este artigo apresenta o framework DeReF, uma abordagem multimodal inovadora para previsão de sobrevivência ao câncer que supera as limitações de fusão estática e isolamento de informações em métodos existentes, integrando uma estratégia de reorganização aleatória de características e atenção cruzada regional para melhorar a generalização e a interação entre modalidades, conforme validado em conjuntos de dados de câncer de fígado e TCGA.

Huayi Wang, Haochao Ying, Yuyang Xu + 5 more2026-02-25💻 cs

Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling

Este artigo propõe um novo framework que supera os desafios da heterogeneidade de dados na modelagem de frequência cardíaca, combinando dropout de recursos aleatórios, atenção histórica e aprendizado contrastivo para gerar representações unificadas e robustas, validadas pelo desempenho superior em um novo conjunto de dados benchmark chamado PARROTAO.

Zhengdong Huang, Zicheng Xie, Wentao Tian + 3 more2026-02-25🤖 cs.LG

EHWGesture -- A dataset for multimodal understanding of clinical gestures

Este artigo apresenta o EHWGesture, um novo conjunto de dados multimodal e multi-visão que integra vídeos RGB-Profundidade, câmeras de eventos e rastreamento de marcadores para o reconhecimento de gestos clínicos e a avaliação da qualidade da execução.

Gianluca Amprimo, Alberto Ancilotto, Alessandro Savino + 5 more2026-02-25🤖 cs.AI

PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models

O artigo apresenta o PCPO, um novo framework de otimização de política que resolve a instabilidade no treinamento de modelos de geração de imagem ao impor uma atribuição de crédito proporcional entre os timesteps, resultando em convergência acelerada e qualidade de imagem superior ao mitigar o colapso do modelo.

Jeongjae Lee, Jong Chul Ye2026-02-25🤖 cs.AI

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Este trabalho propõe o RobustVLA, um modelo de Visão-Linguagem-Ação que melhora significativamente a robustez contra perturbações multimodais através de otimização offline e seleção adaptativa de ruído, superando os modelos existentes tanto em simulação quanto em robôs reais com poucos dados.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

← Anterior Próximo →