cs.CV artigos | Gist.Science

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

O artigo propõe o framework SGMA, que utiliza os módulos de Fusão Guiada por Semântica e Amostragem Consciente da Modalidade para superar os desafios de desequilíbrio, variação intraclasse e heterogeneidade na segmentação semântica de sensoriamento remoto com dados multimodais incompletos, garantindo um aprendizado balanceado e melhorando significativamente o desempenho das modalidades mais frágeis.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

Este artigo apresenta um framework de aprendizado profundo baseado em grafos que, ao substituir parcellações anatômicas por parcellações funcionais e utilizar redes de atenção em grafos, alcança uma acurácia de 95% na classificação de Transtorno do Espectro Autista (TEA) a partir de dados de fMRI em repouso, identificando com interpretabilidade os hubs do Modo Padrão como biomarcadores neurais.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

O artigo propõe o NeighborMAE, um modelo de autoencoder mascarado que explora as dependências espaciais entre imagens de observação da Terra vizinhas para melhorar a aprendizagem auto-supervisionada, superando significativamente as abordagens existentes em diversas tarefas.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

O artigo apresenta o EIMC, um paradigma inovador de percepção colaborativa multimodal para veículos autônomos que utiliza voxels colaborativos leves e um protocolo baseado em mapas de calor para selecionar e fundir apenas as instâncias críticas, alcançando alta precisão e reduzindo drasticamente o uso de largura de banda.

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

Este trabalho estabelece uma fundamentação teórica para a função de perda focal ao analisar a entropia focal, demonstrando suas propriedades de convexidade e continuidade, provando a existência de um minimizador único e revelando como a função amplifica probabilidades intermediárias enquanto suprime tanto os eventos de alta probabilidade quanto os de baixa probabilidade em cenários de desequilíbrio de classes.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

Este artigo apresenta o ForestPersons, um novo conjunto de dados em grande escala com mais de 96 mil imagens capturadas sob a copa das árvores, projetado especificamente para superar as limitações de detecção de pessoas desaparecidas em florestas por drones aéreos e melhorar as operações de busca e salvamento.

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Este artigo propõe o classificador discriminativo assistido por geração (GAD), que supera os métodos generativos tradicionais em eficiência e precisão para a compreensão de ações em modelos multimodais de grande escala, alcançando resultados state-of-the-art em diversos benchmarks.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

O SemGS é um framework feed-forward que utiliza uma arquitetura de dupla ramificação e mecanismos de atenção sensíveis à câmera para reconstruir campos semânticos 3D generalizáveis a partir de poucas imagens, permitindo a síntese de novas visualizações semânticas com alta eficiência e generalização.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Este artigo apresenta um robô cirúrgico assistivo de dois braços que utiliza um modelo visão-linguagem para gerar trajetórias de entrega de instrumentos sem disparos e um framework de programação quadrática para garantir movimentos reativos livres de colisões em ambientes dinâmicos, alcançando uma taxa de sucesso de 83,33% em validações experimentais.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

O artigo propõe a Generalizable Knowledge Distillation (GKD), um framework multi-estágio que desacopla a aprendizagem de representações da aprendizagem de tarefas e utiliza um mecanismo de distilação suave baseado em consultas para preservar a robustez fora de domínio ao transferir conhecimento de Modelos Fundamentais de Visão para segmentação semântica, superando significativamente os métodos convencionais em benchmarks de generalização.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

O artigo apresenta o VC-STaR, um novo quadro de autoaprimoramento que utiliza pares de perguntas e respostas contrastivos para mitigar alucinações visuais e gerar o conjunto de dados VisCoR-55K, resultando em um desempenho superior de raciocínio visual em modelos VLMs após o ajuste fino supervisionado.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

O artigo apresenta o CAPT, um framework de ajuste de prompts que reduz o desalinhamento entre visão e linguagem ao modelar explicitamente padrões de confusão sistemática através de um banco de dados, mineradores semânticos e amostrais, e um especialista de diferenças multi-granularidade, demonstrando melhorias significativas na precisão e generalização em 11 conjuntos de dados de benchmark.

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

O artigo apresenta o CAWM-Mamba, um modelo unificado pioneiro que realiza a fusão de imagens infravermelhas e visíveis com restauração simultânea de condições climáticas adversas compostas, superando métodos existentes através de módulos inovadores como o WAPM, CFIM e WSSB, e demonstrando superioridade em benchmarks e tarefas downstream.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

O artigo apresenta o SOLAR, um framework de modelagem de sequências para sistemas de recomendação que utiliza a atenção SVD-Optimized para reduzir a complexidade computacional de $O(N^2 d)$ para $O(Ndr)$ preservando a distribuição softmax, permitindo o processamento eficiente de sequências de comportamento de grande escala e resultando em ganhos significativos de visualizações de vídeo no cenário online do Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

O artigo propõe a Arquitetura ATD (Adaptive Token Dictionary), um novo modelo baseado em Transformers para restauração de imagens que utiliza um dicionário de tokens aprendível e mecanismos de atenção cruzada para modelar dependências globais com complexidade linear, alcançando desempenho state-of-the-art em tarefas como super-resolução e remoção de ruído.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

O artigo apresenta o NEMF, um novo framework que reconstrói com alta precisão os parâmetros físicos dos materiais de uma cena a partir de dados não invasivos, transformando um problema de inversão mal posto em uma tarefa supervisionada por física para criar "Gêmeos Digitais" funcionais e simuláveis.

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Este estudo demonstra que a combinação de técnicas de aumento de dados, especificamente Transformações Afins Aleatórias e Distorção de Cor, maximiza a precisão de um modelo Vision Transformer leve (EfficientViT) para o reconhecimento de caracteres manuscritos bengalis em conjuntos de dados com recursos limitados.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

O artigo apresenta o Synthetic-Child, um pipeline de dados sintéticos baseado em IA generativa que, sem utilizar fotografias reais de crianças, produz imagens fotorealistas para treinar um modelo de estimativa de postura que supera a precisão de modelos pré-treinados com dados adultos e atinge desempenho em tempo real em dispositivos de borda, resolvendo desafios éticos e de privacidade.

Taowen Zeng2026-03-04💻 cs

VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

O artigo apresenta o VLMFusionOcc3D, um framework multimodal robusto que utiliza priores linguísticos de Modelos Visão-Linguagem e mecanismos de fusão adaptativa ao clima para melhorar a precisão e a estabilidade da previsão de ocupação semântica 3D em cenários de condução autónoma desafiadores.

A. Enes Doruk, Hasan F. Ates2026-03-04💻 cs

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

O artigo apresenta o DrPose, um algoritmo de ajuste fino baseado em recompensa direta que utiliza apenas pares de imagens e poses humanas para otimizar modelos de difusão multivista, permitindo a reconstrução de humanos 3D com poses mais naturais e diversas sem a necessidade de ativos 3D caros.

Seunguk Do, Minwoo Huh, Joonghyuk Shin + 1 more2026-03-04💻 cs

← Anterior Próximo →