cs.CV artigos | Gist.Science

Two Models for Surface Segmentation using the Total Variation of the Normal Vector

Este artigo propõe e compara duas abordagens variacionais para segmentação de superfícies em malhas triangulares, demonstrando que um regularizador baseado na variação total no espaço de rótulos, resolvido com um esquema de Newton em variedades para reduzir custos computacionais, oferece resultados superiores na remoção de ruído em regiões de curvatura constante.

Manuel Weiß, Lukas Baumgärtner, Laura Weigl + 3 more2026-02-25💻 cs

Revisiting the Generalization Problem of Low-level Vision Models Through the Lens of Image Deraining

Este artigo investiga as causas da falha de generalização em modelos de visão de baixo nível, identificando o "aprendizado de atalho" como o principal obstáculo e propondo estratégias para equilibrar a complexidade dos dados e utilizar priors de modelos generativos, com validação experimental em tarefas como remoção de chuva, ruído e desfoque.

Jinfan Hu, Zhiyuan You, Jinjin Gu + 3 more2026-02-25💻 cs

A deep learning framework for efficient pathology image analysis

O artigo apresenta o EAGLE, um novo framework de aprendizado profundo que utiliza modelos fundamentais para selecionar e analisar seletivamente regiões informativas em imagens de patologia, superando os métodos atuais em precisão e reduzindo o tempo de processamento em mais de 99%, o que viabiliza fluxos de trabalho em tempo real e torna a patologia assistida por IA mais acessível.

Peter Neidlinger, Tim Lenz, Sebastian Foersch + 24 more2026-02-25💻 cs

SEED: Towards More Accurate Semantic Evaluation for Visual Brain Decoding

O artigo apresenta o SEED, uma nova métrica de avaliação semântica para decodificação visual cerebral que, ao integrar três medidas complementares e se alinhar melhor a avaliações humanas do que os métodos atuais, revela limitações nos modelos de última geração e disponibiliza dados e código para impulsionar pesquisas futuras.

Juhyeon Park, Peter Yongho Kim, Jiook Cha + 2 more2026-02-25🤖 cs.LG

VISIONLOGIC: From Neuron Activations to Causally Grounded Concept Rules for Vision Models

O VisionLogic é um novo framework neural-simbólico que gera explicações hierárquicas e interpretáveis para modelos de visão computacional, convertendo ativações neuronais em regras lógicas globais fundamentadas causalmente em conceitos visuais validados, superando métodos anteriores ao garantir que os conceitos descobertos sejam efetivamente causais para as previsões do modelo.

Chuqin Geng, Yuhe Jiang, Ziyu Zhao + 4 more2026-02-25💻 cs

Enhancing Out-of-Distribution Detection with Extended Logit Normalization

Este trabalho propõe o ELogitNorm, uma nova formulação sem hiperparâmetros que corrige o fenômeno de colapso de características no LogitNorm ao adicionar um termo de perda sensível à distância de características, melhorando significativamente a detecção de dados fora de distribuição e a calibração de confiança sem comprometer a precisão da classificação.

Yifan Ding, Xixi Liu, Jonas Unger + 1 more2026-02-25💻 cs

An Efficient LiDAR-Camera Fusion Network for Multi-Class 3D Dynamic Object Detection and Trajectory Prediction

Este artigo apresenta um framework eficiente de fusão LiDAR-câmera, composto pelos modelos UniMT e RTMCT, que realiza detecção de objetos 3D e previsão de trajetória em tempo real para robôs móveis de serviço, superando métodos existentes em precisão e mantendo alto desempenho em hardware limitado.

Yushen He, Lei Zhao, Tianchen Deng + 2 more2026-02-25🤖 cs.AI

Reproducing and Improving CheXNet: Deep Learning for Chest X-ray Disease Classification

Este artigo descreve a reprodução do algoritmo CheXNet e a exploração de modelos alternativos para classificação de doenças em raios-X torácicos, alcançando um AUC-ROC médio de 0,85 e um F1 médio de 0,39 no conjunto de dados NIH ChestX-ray14.

Daniel J. Strick, Carlos Garcia, Anthony Huang + 1 more2026-02-25⚡ eess

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

O artigo apresenta o HoloLLM, um modelo de linguagem multimodal que integra sensores incomuns como LiDAR, infravermelho, radar mmWave e WiFi para superar as limitações da visão em ambientes reais, utilizando um projetor universal de injeção de modalidades e uma pipeline de curadoria de dados colaborativa para alcançar uma percepção e raciocínio humanos significativamente mais precisos e robustos.

Chuhao Zhou, Jianfei Yang2026-02-25💬 cs.CL

Learning Hierarchical Sparse Transform Coding for 3DGS Compression

Este artigo propõe um método de codificação de transformada treinável (TTC) com design hierárquico, combinando KLT e uma transformada neural esparsa, para melhorar o desempenho taxa-distorção e a eficiência de decodificação na compressão de 3DGS ao reintroduzir a transformação de análise-síntese.

Hao Xu, Xiaolin Wu, Xi Zhang2026-02-25⚡ eess

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System

O artigo apresenta o SpikePingpong, um sistema robótico inovador que combina visão baseada em pulsos (spike) com aprendizado por imitação em uma arquitetura de processamento rápido-lento para alcançar precisão de alta velocidade no jogo de pingue-pongue.

Hao Wang, Chengkai Hou, Xianglong Li + 7 more2026-02-25💻 cs

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Este trabalho propõe a Orientação Adaptativa de Baixa Frequência (ALG), uma solução simples e sem treinamento que melhora a dinâmica temporal na geração de vídeos a partir de imagens, mitigando a supressão de movimento causada pela exposição prematura a detalhes de alta frequência, sem comprometer a qualidade visual ou a alinhamento com o texto.

June Suk Choi, Kyungmin Lee, Sihyun Yu + 3 more2026-02-25💻 cs

Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction

Este artigo apresenta o UPNet, uma abordagem inovadora de seleção ativa de vistas que utiliza mapas de incerteza neural para identificar as perspectivas mais informativas para reconstrução 3D, alcançando precisão comparável com metade das vistas e reduzindo drasticamente o custo computacional em relação aos métodos existentes.

Zhengquan Zhang, Feng Xu, Mengmi Zhang2026-02-25🤖 cs.AI

Addressing Camera Sensors Faults in Vision-Based Navigation: Simulation and Dataset Development

Este estudo aborda os desafios da navegação baseada em visão em missões espaciais ao caracterizar falhas de sensores, desenvolver um framework de simulação para gerar imagens defeituosas sintéticas e criar um conjunto de dados essencial para treinar e testar algoritmos de Inteligência Artificial na detecção dessas falhas.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models

O artigo apresenta o NRSeg, um framework de aprendizado resiliente a ruídos para segmentação semântica em visão de pássaro (BEV) que utiliza dados sintéticos de modelos de mundo de direção, combinando métricas de consistência geométrica, previsão paralela de distribuições e exclusão semântica hierárquica para alcançar desempenho superior em tarefas não supervisionadas e semi-supervisionadas.

Siyu Li, Fei Teng, Yihong Cao + 3 more2026-02-25⚡ eess

SFATTI: Spiking FPGA Accelerator for Temporal Task-driven Inference -- A Case Study on MNIST

Este artigo apresenta o SFATTI, um acelerador de FPGA para Redes Neurais de Spiking (SNN) desenvolvido com o framework Spiker+ para inferência temporal eficiente em energia na tarefa de reconhecimento de dígitos manuscritos do conjunto de dados MNIST.

Alessio Caviglia, Filippo Marostica, Alessio Carpegna + 2 more2026-02-25💻 cs

Low-Latency Event-Based Velocimetry for Quadrotor Control in a Narrow Pipe

Este trabalho apresenta o primeiro sistema de controle em malha fechada para drones quadrotor que permite o hover em tubos estreitos, utilizando velocimetria baseada em eventos para medir o fluxo de ar em tempo real e um controlador de aprendizado por reforço para compensar as perturbações aerodinâmicas e evitar colisões.

Leonard Bauersfeld, Davide Scaramuzza2026-02-25💻 cs

FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

O artigo apresenta o FedGIN, um framework de aprendizado federado que utiliza uma augmentação não-linear dinâmica de intensidade global para superar desafios de privacidade e variabilidade entre modalidades, permitindo uma segmentação robusta de órgãos em imagens médicas multimodais (MRI e CT) sem a necessidade de compartilhar dados brutos.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25🤖 cs.AI

Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

Este artigo propõe a NS-FPN, uma rede de pirâmide de características leve e eficaz que, ao adotar uma perspectiva de supressão de ruído no domínio da frequência através dos módulos LFP e SFS, melhora significativamente a detecção e segmentação de alvos pequenos no infravermelho, reduzindo falsos alarmes em cenários com ruído intenso.

Maoxun Yuan, Duanni Meng, Ziteng Xi + 4 more2026-02-25🤖 cs.AI

Learned Regularization for Microwave Tomography

Este artigo propõe o SSD-Reg, uma nova abordagem de regularização aprendida baseada em modelos de difusão que, integrada a um esquema variacional orientado por física, resolve o problema inverso não linear e mal-posto da Tomografia de Micro-ondas sem a necessidade de dados de treinamento pareados, permitindo a reconstrução precisa de estruturas anatômicas complexas.

Bowen Tong, Hao Chen, Shaorui Guo + 1 more2026-02-25⚡ eess

← Anterior Próximo →