cs.CV artigos | Gist.Science

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

O artigo apresenta o DAP, um planejador autoregressivo de tokens discretos que, com um orçamento compacto de 160M de parâmetros, alcança desempenho de última geração ao prever conjuntamente semânticas BEV e trajetórias do veículo, utilizando também um ajuste fino baseado em aprendizado por reforço para otimizar a tomada de decisão no benchmark NAVSIM.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

O artigo propõe o framework CCSD, uma nova abordagem de auto-distilação composicional multimodal que utiliza arquiteturas codificador-decodificador compartilhadas e específicas, combinadas com mecanismos hierárquicos e progressivos de transferência de conhecimento, para alcançar segmentação robusta e de alto desempenho de tumores cerebrais em cenários clínicos onde modalidades de ressonância magnética estão ausentes.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

O artigo apresenta o FlashCache, um novo framework de compressão de cache KV para modelos de linguagem multimodal que utiliza uma abordagem guiada por domínio de frequência para identificar e preservar outliers críticos, resultando em uma aceleração de decodificação de até 1,69 vezes e uma redução de 80% no uso de memória sem comprometer o desempenho.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

O artigo apresenta o MambaTAD, um modelo inovador de detecção de ações temporais que integra modelos de espaço de estados estruturados com novos componentes, como o módulo DMBSS e uma cabeça de fusão global, para superar desafios de contexto temporal e eficiência computacional em vídeos não cortados.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

O artigo propõe o ObAct, um novo framework de aprendizado por imitação com visão ativa que utiliza um braço robótico como observador para construir uma representação 3DGS e encontrar a melhor posição de câmera, permitindo que o braço executor atue com observações mais claras e resultando em políticas significativamente mais robustas do que em configurações com câmeras estáticas.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

O artigo apresenta o STAvatar, um método inovador para reconstrução de avatares 3D de cabeça a partir de vídeos monoculares que supera as limitações de rigidez e oclusão das abordagens existentes ao combinar um mecanismo de ligação suave adaptativa em UV com uma estratégia de controle de densidade temporal baseada em erros perceptivos fundidos, resultando em detalhes finos e alta fidelidade.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

O artigo apresenta o RadarVLM, um modelo de visão e linguagem que unifica a compreensão de cenas de radar através de uma supervisão espacial estruturada e do objetivo SG-CLIP, alcançando melhorias significativas na precisão de localização e segmentação de veículos em comparação com abordagens tradicionais.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

O artigo apresenta o PowerCLIP, um novo framework de pré-treinamento contrastivo que supera as limitações de alinhamento composicional ao otimizar exaustivamente as correspondências entre regiões de imagem e frases por meio de alinhamento de conjunto de potências, utilizando agregadores não lineares eficientes para reduzir a complexidade computacional de exponencial para linear e alcançar desempenho superior em tarefas de classificação e recuperação zero-shot.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

O artigo apresenta o DPAC, um método de controle adversarial para amostragem de difusão que preserva a distribuição ao projetar gradientes adversariais no espaço tangente definido pela geometria do escore, minimizando a divergência KL do caminho e melhorando a fidelidade perceptual (FID) sem comprometer a taxa de sucesso do ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Este artigo apresenta uma abordagem de ajuste fino eficiente e justa para modelos de visão e linguagem no diagnóstico de glaucoma, introduzindo técnicas como FR-LoRA, GR-LoRA e Hybrid-LoRA que reduzem as disparidades de precisão entre grupos demográficos em 69% enquanto mantêm alta acurácia geral com apenas 0,24% de parâmetros treináveis.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

O artigo apresenta o UniComp, um novo framework de compressão de vídeo baseado na singularidade da informação que, ao minimizar a entropia condicional através de fusão de grupos de quadros, alocação de tokens e compressão espacial dinâmica, supera os métodos existentes na preservação de fidelidade visual sob orçamentos computacionais restritos.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

O artigo apresenta o NeuralRemaster, um método de difusão que preserva as fases dos dados de entrada enquanto randomiza suas magnitudes, permitindo a geração de imagens e vídeos estruturalmente alinhados e geometricamente consistentes para tarefas como re-renderização e transferência sim-to-real, sem custos adicionais de inferência ou alterações na arquitetura do modelo.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Este artigo apresenta o TAP, um novo framework baseado em Grandes Modelos de Linguagem (LLMs) e estratégias evolutivas que descobre automaticamente e sem treinamento proxies superiores para quantização de precisão mista, eliminando a dependência de otimização diferenciada custosa ou de conhecimento manual de especialistas.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Este trabalho apresenta o conjunto de dados EgoCampus e o modelo EgoCampusNet, que utilizam óculos com rastreamento ocular para prever a atenção visual de pedestres em ambientes externos, preenchendo uma lacuna em estudos anteriores focados principalmente em cenários internos.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Este artigo apresenta o DriverGaze360, um novo conjunto de dados em escala massiva com visão de 360 graus e o método DriverGaze360-Net, que utilizam orientação por objetos para superar as limitações de campo de visão frontal e alcançar um estado da arte na previsão da atenção do motorista em ambientes de condução panorâmicos.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

O artigo apresenta o ViRC, um framework que aprimora o raciocínio matemático multimodal em modelos de linguagem através de um mecanismo de "Reason Chunking" que divide o processo em Unidades de Raciocínio Crítico (CRUs), apoiado pelo novo conjunto de dados CRUX e uma estratégia de treinamento progressivo, resultando em um modelo ViRC-7B com desempenho superior em benchmarks matemáticos.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

O artigo apresenta o FluenceFormer, um framework baseado em transformadores que utiliza uma arquitetura de duas etapas e uma função de perda física para prever mapas de fluência em radioterapia, superando os métodos convencionais ao garantir consistência estrutural e conservação de energia com uma taxa de erro de apenas 4,5%.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Este artigo apresenta o EPD-Solver, um novo solucionador de EDO que utiliza avaliações de gradiente paralelas e um esquema de otimização em duas etapas com aprendizado por reforço para acelerar a inferência de modelos de difusão sem comprometer a qualidade da imagem.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Este artigo apresenta o PhyGDPO, um framework de otimização direta de preferências em grupo consciente da física, que utiliza um pipeline de construção de dados aumentados por física e um esquema de recompensa guiado por VLM para gerar vídeos texto-para-vídeo que seguem consistentemente as leis físicas, superando os métodos atuais em benchmarks especializados.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

O artigo apresenta o MorphAny3D, um framework sem treinamento que utiliza representações de Latente Estruturado (SLAT) e mecanismos de atenção inovadores para gerar sequências de morfagem 3D de alta qualidade, semanticamente consistentes e temporalmente suaves, inclusive entre categorias distintas.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

← Anterior Próximo →