cs.CV artigos | Gist.Science

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

O artigo apresenta o BridgeDrive, uma nova política de planejamento de trajetória baseada em difusão que utiliza um "ponte de difusão" para transformar trajetórias de referência em planos refinados e seguros, alcançando desempenho superior em benchmarks de condução autônoma em malha fechada.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

O artigo apresenta o SphereAR, um modelo de geração de imagens autoregressivo que utiliza latentes em hiperesfera para estabilizar a decodificação e eliminar o colapso de variância, alcançando desempenho superior ao estado da arte em modelos de difusão e geração mascarada com escalas de parâmetros comparáveis.

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

Este artigo apresenta um novo método de super-resolução de vídeo contínuo em espaço e tempo que codifica a sequência como um Campo de Fourier 3D (VFF) para capturar detalhes espaciais e dinâmicas temporais de forma coerente, superando os métodos existentes em qualidade e eficiência computacional.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

O artigo apresenta o EgoTraj-Bench, o primeiro benchmark do mundo real que alinha observações históricas ruidosas de visão em primeira pessoa com trajetórias futuras limpas, e propõe o modelo BiFlow, que utiliza um mecanismo de ancoragem ego-cêntrica para alcançar desempenho superior e maior robustez na previsão de trajetórias sob condições perceptivas imperfeitas.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

Este artigo propõe o método SpecMCD, uma abordagem de detecção de nuvens com supervisão fraca que combina características espectrais e uma rede profunda de cena em múltiplas escalas para gerar máscaras de nuvens em nível de pixel com alta precisão, superando métodos existentes em cenários com diferentes coberturas de nuvens.

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

O VidGuard-R1 é um detector pioneiro de vídeos gerados por IA que utiliza otimização de política relativa em grupo (GRPO) e modelos de recompensa especializados para superar as limitações de conjuntos de dados estáticos, alcançando desempenho de última geração e fornecendo explicações forenses baseadas em raciocínio físico.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

O artigo apresenta o SpineMed, um ecossistema co-desenvolvido com cirurgiões que inclui o conjunto de dados SpineMed-450k e o benchmark SpineBench, os quais superam as limitações atuais de modelos de visão e linguagem em tarefas de raciocínio espinhal específico por nível vertebral, demonstrando melhorias significativas na precisão diagnóstica e utilidade clínica.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

O artigo apresenta o ExposureEngine, um sistema automatizado que utiliza caixas delimitadoras orientadas (OBB) e uma camada de agentes baseada em linguagem natural para detectar com precisão logotipos de patrocinadores em transmissões esportivas e calcular métricas de visibilidade, superando as limitações dos métodos tradicionais de caixas alinhadas aos eixos.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

O artigo apresenta o TerraCodec, uma família de codecs aprendidos pré-treinados em dados do Sentinel-2 que supera os codecs clássicos na compressão de imagens multiespectrais e permite a remoção de nuvens em vídeo, abordando lacunas na compressão temporal e oferecendo modelos de taxa flexível.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Este artigo apresenta o XFactor, o primeiro modelo auto-supervisionado sem geometria capaz de verdadeira síntese de novas vistas, demonstrando que a transferibilidade de poses entre cenas é alcançável sem viéses 3D explícitos ou conceitos de geometria multivista.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

O artigo apresenta o VIST3A, um framework que combina modelos de geração de vídeo e reconstrução 3D pré-treinados através de técnicas de "stitching" e ajuste por recompensa direta, permitindo a geração de cenas 3D consistentes e de alta qualidade a partir de texto.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Este artigo apresenta o DRBD-Mamba, um modelo de segmentação 3D eficiente e robusto para tumores cerebrais que utiliza curvas de preenchimento espacial e fusão gating para superar limitações computacionais e de generalização, alcançando ganhos significativos de precisão e eficiência em relação aos métodos atuais.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

O artigo apresenta o MSSR, um framework de dupla agente que supera os desafios do raciocínio espacial em modelos visão-linguagem ao construir iterativamente um Conjunto Mínimo Suficiente de informações 3D, eliminando redundâncias e garantindo a precisão necessária para alcançar desempenho state-of-the-art em benchmarks desafiadores.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

O artigo apresenta o framework SceneCOT, que introduz um método de raciocínio em cadeia de pensamento fundamentado em cenas 3D e o dataset SCENECOT-185K para superar as limitações atuais na resposta fundamentada de modelos de linguagem grandes em ambientes tridimensionais.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

O artigo apresenta o Grasp Any Region (GAR), um modelo de linguagem multimodal que supera as limitações anteriores ao integrar contexto global e interações entre múltiplas regiões para permitir um entendimento visual preciso e raciocínio composicional avançado, validado pelo novo benchmark GAR-Bench e demonstrando capacidades superiores tanto em imagens quanto em vídeos.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

O artigo apresenta o FLoC, um método de compressão de tokens visuais livre de treinamento e agnóstico a modelos, baseado na função de localização de instalações e no algoritmo ganancioso preguiçoso, que seleciona eficientemente um subconjunto representativo de tokens para melhorar a compreensão de vídeos longos em Modelos Multimodais de Grande Escala.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

O MotionStream é um sistema de geração de vídeo em tempo real que, ao combinar controle de movimento interativo com uma arquitetura de atenção causal e técnicas de destilação, permite a criação de vídeos de duração ilimitada com latência subsegundo e alta qualidade em uma única GPU.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

O artigo propõe o SASG-DA, um método de aumento de dados baseado em difusão que utiliza representações semânticas orientadas a tarefas e amostragem esparsa para gerar amostras fiéis e diversas, melhorando significativamente o reconhecimento de gestos mioelétricos e a generalização em cenários com dados limitados.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

O artigo apresenta o DeiTFake, um modelo de detecção de deepfakes baseado em DeiT que utiliza uma estratégia de treinamento progressivo em duas etapas com aumento de complexidade de dados, alcançando 99,22% de precisão e superando os principais benchmarks no conjunto de dados OpenForensics.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Este artigo propõe um método totalmente automático para gerar dados rotulados e um pipeline que extrai e retifica imagens de ultrassom de fotografias de monitores, eliminando a dependência do formato DICOM e permitindo o treinamento de modelos com fidelidade visual suficiente para classificar vistas cardíacas com precisão balanceada de 0,79.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

← Anterior Próximo →