cs.CV artigos | Gist.Science

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

O artigo apresenta o RobustVisRAG, um framework de geração aumentada por recuperação baseada em visão que utiliza um guia causal para separar efetivamente semântica de degradações visuais, melhorando significativamente o desempenho em documentos distorcidos sem comprometer a precisão em entradas limpas.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

O artigo apresenta o LFG, um modelo de pré-treinamento autônomo sem rótulos que utiliza vídeos de direção não estruturados da internet e um mecanismo de ensino multi-modal para aprender representações unificadas de geometria e movimento, superando métodos existentes em tarefas de planejamento e previsão sem a necessidade de dados anotados ou LiDAR.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

O artigo apresenta o Diffusion Probe, um framework eficiente e independente de modelo que prevê a qualidade final de imagens geradas por difusão texto-para-imagem analisando as distribuições de atenção cruzada em estágios iniciais, permitindo decisões antecipadas que reduzem custos computacionais e melhoram a qualidade do resultado.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

O artigo apresenta o DiffusionHarmonizer, um framework de aprimoramento generativo online que utiliza um aprimorador condicionado temporalmente derivado de modelos de difusão para transformar renderizações de reconstruções neurais imperfeitas em saídas fotorealistas e temporalmente consistentes, corrigindo artefatos e harmonizando a iluminação para simulações robóticas escaláveis.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

O UFO-4D é um framework unificado e feedforward que reconstrói representações 4D densas e explícitas a partir de apenas duas imagens não posicionadas, estimando simultaneamente geometria 3D, movimento e pose da câmera com alta precisão ao aproveitar a renderização diferenciável de múltiplos sinais a partir de um único conjunto de Gaussianas 3D dinâmicas.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

O artigo apresenta o Dr. Seg, um framework simples e plug-and-play baseado em GRPO que supera as limitações da transferência direta de paradigmas de raciocínio para percepção visual em Modelos de Linguagem Visuais, introduzindo mecanismos de confirmação e recompensas ranqueadas por distribuição para melhorar o desempenho em tarefas complexas como a segmentação.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

O artigo propõe o AlignVAR, um novo framework de super-resolução de imagem baseado em autoregressão visual que supera desafios de consistência global e acúmulo de erros através de componentes inovadores de coerência espacial e restrições hierárquicas, oferecendo resultados de alta fidelidade com inferência significativamente mais rápida e menor complexidade de parâmetros em comparação com métodos baseados em difusão.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

O artigo apresenta o SOLACE, um framework de pós-treinamento para geração de texto-imagem que utiliza recompensas intrínsecas baseadas na autoconfiança do modelo para otimização não supervisionada, resultando em melhorias na geração composicional, renderização de texto e alinhamento, além de mitigar a exploração de recompensas quando combinado com sinais externos.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

O artigo apresenta o Dr. Occ, um framework de previsão de ocupação 3D que utiliza um transformador guiado por profundidade para alinhamento geométrico preciso e um transformador de especialistas guiado por região para lidar com desequilíbrios espaciais, alcançando desempenho superior no benchmark Occ3D-nuScenes.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

O artigo apresenta o FreeAct, um novo framework de quantização para Modelos de Linguagem de Grande Escala que supera as limitações das transformações estáticas ao utilizar matrizes de transformação específicas para cada tipo de token, adaptando-se dinamicamente às disparidades nas ativações e melhorando significativamente o desempenho em modelos multimodais e de difusão.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

O artigo apresenta o Kiwi-Edit, uma nova arquitetura unificada e um pipeline escalável de geração de dados que, ao criar o conjunto de dados RefVIE, supera as limitações atuais na edição de vídeo baseada em instruções, permitindo um controle visual preciso e fiel através da combinação de instruções textuais e referências visuais.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

O artigo apresenta o Track4World, um modelo feedforward inovador que realiza o rastreamento 3D denso e eficiente de todos os pixels em um sistema de coordenadas centrado no mundo, superando métodos anteriores na estimativa de fluxo e reconstrução 4D a partir de vídeos monoculares.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

O artigo apresenta o PVT-GDLA, um decodificador baseado em Transformer que utiliza Atenção Linear Diferencial Portada (GDLA) para alcançar segmentação médica de alta fidelidade com complexidade linear, superando as limitações de custo computacional e diluição de atenção de modelos anteriores ao preservar bordas anatômicas precisas e dependências de longo alcance de forma eficiente.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

O artigo apresenta o MultiShadow, um método baseado em modelos de difusão que utiliza caminhos de imagem e texto para gerar sombras fisicamente plausíveis e geometricamente consistentes para múltiplos objetos inseridos em uma cena, superando as limitações das abordagens existentes focadas em objetos únicos.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

O artigo apresenta o IoUCert, um novo framework de verificação formal que supera as limitações existentes ao garantir a robustez de detectores de objetos baseados em âncoras, como SSD e YOLO, através de uma transformação de coordenadas que permite o cálculo de limites ótimos para a métrica de Interseção sobre União (IoU) sem degradação de precisão.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

O artigo propõe um framework de tradução não pareada de MRI de ultra-baixo campo para alto campo, baseado em uma Ponte Neural de Schrödinger aprimorada com distribuição guiada por difusão e regularização de preservação anatômica, que melhora o realismo e a fidelidade estrutural das imagens cerebrais.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

O artigo apresenta o TumorFlow, um framework generativo guiado por princípios biofísicos que sintetiza sequências longitudinais realistas de ressonância magnética cerebral, permitindo a visualização controlada e interpretável da progressão do glioblastoma e a geração de dados sintéticos para apoiar o planejamento de tratamento personalizado.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

O artigo apresenta o NOVA3R, uma abordagem inovadora que utiliza um mecanismo de tokens de cena e um decodificador baseado em difusão para realizar reconstrução 3D amodal completa e fisicamente plausível a partir de imagens não posicionadas, superando as limitações de métodos alinhados a pixels ao recuperar tanto pontos visíveis quanto invisíveis.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Este artigo propõe um framework unificado de detecção conjunta para lacunas e espaços perivascular dilatados (EPVS) que, ao empregar atenção cruzada inicializada com zero e estratégias de perda mista para superar a interferência de características e o desequilíbrio de classes, alcança desempenho superior ao estado da arte na detecção de lacunas e demonstra robustez em grandes coortes populacionais.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

O artigo apresenta o "Gaussian Wardrobe", uma nova estrutura que digitaliza avatares 3D composicionais a partir de vídeos multiview, separando o corpo de camadas de roupas neurais independentes da forma para permitir a síntese realista em novas poses e a transferência versátil de vestuário entre diferentes indivíduos.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

← Anterior Próximo →