cs.CV artigos | Gist.Science

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

O artigo apresenta o VG3S, um novo framework que integra capacidades geométricas de Fundamentos Visuais (VFMs) ao método de Gaussian Splatting para melhorar significativamente a precisão da previsão de ocupação semântica 3D em cenários de direção autônoma.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

O artigo apresenta o CoE, um framework de sumarização multimodal sem treinamento que utiliza um Grafo de Eventos Hierárquico para guiar um raciocínio estruturado em cadeia de eventos, superando os métodos atuais em precisão, interpretabilidade e generalização entre domínios.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

O artigo apresenta o EntON, uma estratégia inovadora de densificação de vizinhança otimizada por Entropia Eigen em 3D Gaussian Splatting que utiliza características geométricas locais para alternar entre refinamento baseado em gradiente e densificação consciente da estrutura, resultando em reconstruções 3D com maior precisão geométrica e qualidade de renderização, ao mesmo tempo que reduz o número de Gaussianas e o tempo de treinamento.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

Word-Anchored Temporal Forgery Localization

O artigo apresenta o WAFL, uma nova abordagem para localização temporal de falsificações que substitui os métodos tradicionais de regressão por classificação binária em nível de palavras, utilizando módulos de realinhamento de características e uma função de perda assimétrica para alcançar maior precisão e eficiência computacional.

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

O artigo propõe o SSLA-Det, um modelo de detecção de objetos baseado em eventos que utiliza a atenção linear espacialmente esparsa (SSLA) para superar os gargalos de treinamento e eficiência das abordagens assíncronas existentes, alcançando estado da arte em precisão enquanto reduz a computação por evento em mais de 20 vezes.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

O artigo apresenta o TaPD, um framework unificado e plug-and-play que utiliza destilação de conhecimento progressiva e um módulo de preenchimento temporal para melhorar significativamente a previsão de trajetórias em veículos autônomos, especialmente em cenários com históricos de observação variáveis ou extremamente curtos.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

O artigo propõe o DC-Merge, um método de fusão de modelos que melhora a retenção de conhecimento ao equilibrar a distribuição de energia dos vetores de tarefa e alinhar suas geometrias direcionais em um subespaço ortogonal compartilhado, alcançando desempenho superior em benchmarks de visão e visão-linguagem.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

O artigo apresenta o HCF-RES, um novo framework multimodal que alcança resultados de última geração na segmentação de referência generalizada em 3D (3D-GRES) ao decompor semântica visual hierarquicamente usando máscaras do SAM e integrar progressivamente características 2D e 3D com refinamento guiado por linguagem.

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

O artigo apresenta o NOVA, um novo paradigma de rastreamento 3D multi-objeto que utiliza modelos de linguagem autoregressivos para generalizar a detecção de alvos desconhecidos através da modelagem gerativa de sequências semânticas espaço-temporais, alcançando desempenho superior em conjuntos de dados como nuScenes.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

O artigo apresenta o GazeMoE, um novo framework end-to-end que utiliza módulos de Mistura de Especialistas (MoE) para selecionar adaptativamente pistas de um modelo de fundação congelado e estimar com estado da arte o alvo do olhar humano, abordando desafios como desequilíbrio de classes e a necessidade de integrar múltiplas pistas multimodais.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

O artigo apresenta o ODD-SEC, um sistema de detecção de drones em tempo real projetado para plataformas móveis que utiliza uma câmera de eventos giratória para oferecer visão de 360 graus e estimativa de direção, superando as limitações de iluminação e movimento das câmeras tradicionais por meio de uma nova representação de eventos e uma rede neural leve.

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

O artigo apresenta o HiPP-Prune, um framework de poda estruturada hierárquica para modelos visão-linguagem que utiliza otimização de política baseada em preferências do usuário para gerenciar o trade-off entre eficiência, utilidade da tarefa e robustez contra alucinações, preservando a sensibilidade visual crítica durante a compressão.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

O artigo apresenta o StrSR, um novo framework de destilação adversarial em um único passo que utiliza regularização espectral e de trajetória para superar as limitações de distorções periódicas e incompatibilidade de trajetórias nos modelos Diffusion Transformer, alcançando desempenho de ponta em super-resolução de imagens do mundo real.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

O artigo apresenta o benchmark OccNL e o método DPR-Occ, uma nova abordagem robusta a ruídos de rótulo que supera as limitações das estratégias 2D ao garantir previsões precisas de ocupação semântica 3D em ambientes dinâmicos e com dados corrompidos.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

O artigo apresenta o ADiVA, uma abordagem de aprendizado zero-shot generativo que supera desafios como a lacuna classe-instância e a discrepância semântico-visual ao modelar distribuições de atributos e alinhar explicitamente representações semânticas e visuais, alcançando desempenho superior em benchmarks padrão.

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

O artigo apresenta o FlowMotion, uma nova estrutura sem treinamento que realiza transferência de movimento em vídeos de forma eficiente e flexível, utilizando diretamente as previsões latentes de modelos T2V baseados em fluxo para alinhar padrões de movimento e estabilizar a geração.

Zhen Wang, Youcan Xu, Jun Xiao, Long Chen2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Este artigo propõe um método inovador de remoção de artefatos em imagens 3D de CBCT dentário, utilizando modelos de difusão baseados em pontuação perpendicular que operam no domínio das projeções para preservar as correlações espaciais e gerar reconstruções de alta qualidade.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

O artigo apresenta o DEX-AR, um novo método de explicabilidade dinâmica para modelos de linguagem e visão autoregressivos que gera mapas de calor 2D para interpretar a geração de tokens, distinguindo entre informações visuais e linguísticas por meio de filtragem dinâmica de cabeças de atenção e agregação em nível de sequência.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

O artigo propõe o LTA (Latent Transfer Attack), um método de ataque adversarial que otimiza perturbações no espaço latente de um VAE do Stable Diffusion em vez do espaço de pixels, resultando em exemplos mais robustos, de baixa frequência e com maior capacidade de transferência entre diferentes arquiteturas de modelos de visão computacional.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

O artigo propõe o WMoE-CLIP, um método de aprendizado de prompts para detecção de anomalias zero-shot que combina um autoencoder variacional, decomposição por wavelets e um módulo de mistura de especialistas para superar as limitações de abordagens existentes na captura de semântica complexa e anomalias sutis.

Peng Chen, Chao Huang2026-03-09💻 cs

← Anterior Próximo →