cs.CV artigos | Gist.Science

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

O artigo apresenta o DisQ-HNet, um framework de síntese de imagem multimodal que utiliza decomposição de informação parcial e uma rede Half-UNet quantizada para gerar PET-Tau a partir de ressonâncias magnéticas T1 e FLAIR, garantindo alta fidelidade reconstrutiva e interpretabilidade das contribuições de cada modalidade para tarefas de diagnóstico de Alzheimer.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

O artigo apresenta o DrivePTS, um framework de aprendizado progressivo que aprimora a geração de cenas de direção autônoma ao mitigar dependências entre condições geométricas, enriquecer o contexto semântico com descrições hierárquicas de múltiplas visões e preservar detalhes estruturais por meio de uma perda guiada por frequência, alcançando assim fidelidade e generalização superiores às métodos existentes.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

SwiftNDC: Fast Neural Depth Correction for High-Fidelity 3D Reconstruction

O SwiftNDC é um framework neural rápido e geral que corrige mapas de profundidade para gerar uma geometria inicial densa e consistente, acelerando significativamente a reconstrução de malhas e melhorando a fidelidade da síntese de novas vistas ao utilizar a técnica de 3D Gaussian Splatting.

Kang Han, Wei Xiang, Lu Yu + 3 more2026-02-27💻 cs

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

O artigo propõe o QARMVC, um novo framework de agrupamento multi-visão robusto que supera as limitações das abordagens binárias ao quantificar a intensidade heterogênea de ruído através de discrepâncias de reconstrução e integrar essas pontuações de qualidade em uma estratégia hierárquica de aprendizado para suprimir a propagação de ruído e alinhar as visões locais.

Peihan Wu, Guanjie Cheng, Yufei Tong + 2 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Este artigo revela um viés crítico nas avaliações atuais de modelos de difusão, onde o aumento excessivo da escala de orientação (CFG) infla artificialmente as pontuações de preferência humana à custa da qualidade visual, propondo um novo framework de avaliação (GA-Eval) e um método (TDG) para expor essa falha e incentivar uma reavaliação rigorosa do progresso no campo.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

O artigo apresenta o GIFSplat, um método de reconstrução 3D puramente feed-forward que utiliza refinamento iterativo e um prior generativo destilado para superar as limitações de métodos existentes, alcançando resultados superiores em qualidade e mantendo inferência rápida a partir de poucas visões sem necessidade de poses de câmera ou otimização por gradiente.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

Causal Motion Diffusion Models for Autoregressive Motion Generation

Este trabalho apresenta o Causal Motion Diffusion Models (CMDM), um quadro unificado que combina um VAE causal alinhado semanticamente com um transformador de difusão autoregressivo para gerar movimentos humanos de alta qualidade, fluidos e em tempo real, superando as limitações de causalidade e estabilidade dos métodos existentes.

Qing Yu, Akihisa Watanabe, Kent Fujiwara2026-02-27💻 cs

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

O BetterScene aprimora a síntese de novas vistas em cenas reais com fotos extremamente esparsas ao alinhar as representações do modelo de difusão SVD, utilizando regularização de equivalência temporal e um modelo de fundação visual para corrigir inconsistências e gerar vistas contínuas e livres de artefatos.

Yuci Han, Charles Toth, John E. Anderson + 2 more2026-02-27🤖 cs.AI

$ϕ$ -DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Este artigo apresenta o $Ï$ -DPO, uma nova abordagem de Otimização Direta de Preferências para Aprendizado Contínuo em Modelos Multimodais Grandes que mitiga tanto o esquecimento catastrófico quanto os vieses causados por distribuições de dados desbalanceadas, alcançando desempenho superior ao estado da arte em múltiplos benchmarks.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG

LoR-LUT: Learning Compact 3D Lookup Tables via Low-Rank Residuals

O artigo apresenta o LoR-LUT, uma abordagem unificada que gera tabelas de consulta 3D compactas e interpretáveis para aprimoramento de imagens, combinando tabelas de base com correções de resíduos de baixo posto para alcançar alta fidelidade perceptual com um tamanho de modelo reduzido e uma ferramenta de visualização interativa.

Ziqi Zhao, Abhijit Mishra, Shounak Roychowdhury2026-02-27💻 cs

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Este artigo propõe o DP-aware AdaLN-Zero, um mecanismo de condicionamento sensível à sensibilidade para transformadores de difusão que mitiga gradientes de cauda pesada induzidos por contextos heterogêneos, melhorando significativamente a utilidade de tarefas de séries temporais sob privacidade diferencial sem sacrificar o desempenho em cenários não privados.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery

O artigo apresenta o SATtxt, um modelo de linguagem e visão fundado que, através de destilação espectral e alinhamento com LLMs instruídos, permite inferência eficiente apenas com imagens RGB enquanto preserva informações espectrais, superando os métodos existentes em tarefas de classificação e recuperação de imagens de satélite.

Minh Kha Do, Wei Xiang, Kang Han + 5 more2026-02-27💻 cs

Coded-E2LF: Coded Aperture Light Field Imaging from Events

O artigo apresenta o Coded-E2LF, um método computacional pioneiro que reconstrói campos de luz 4D com precisão de nível de pixel utilizando exclusivamente uma câmera de eventos estacionária e um obturador codificado, eliminando a necessidade de imagens de intensidade e demonstrando sua eficácia em cenas 3D reais.

Tomoya Tsuchida, Keita Takahashi, Chihiro Tsutake + 2 more2026-02-27💻 cs

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

Este trabalho apresenta o CGSA, um novo framework para detecção de objetos adaptativa sem fonte que integra aprendizado centrado em objetos em detectores baseados em DETR, utilizando módulos de consciência de slots hierárquicos e contraste guiado por classe para superar as limitações dos métodos atuais e alcançar desempenho superior em cenários de privacidade.

Boyang Dai, Zeng Fan, Zihao Qi + 2 more2026-02-27🤖 cs.AI

Instruction-based Image Editing with Planning, Reasoning, and Generation

Este artigo propõe um novo modelo multimodal que integra planejamento, raciocínio e geração para aprimorar a edição de imagens baseada em instruções, superando as limitações de abordagens anteriores ao separar essas etapas em uma cadeia de pensamento que inclui planejamento de prompts, raciocínio sobre regiões de edição e geração guiada por dicas.

Liya Ji, Chenyang Qi, Qifeng Chen2026-02-27🤖 cs.AI

CRAG: Can 3D Generative Models Help 3D Assembly?

O artigo apresenta o CRAG, um novo método que reformula a montagem 3D como um problema conjunto de geração e montagem, demonstrando que a síntese de formas completas e a previsão de poses se reforçam mutuamente para superar as limitações de métodos anteriores que não conseguem reconstruir geometrias ausentes.

Zeyu Jiang, Sihang Li, Siqi Tan + 8 more2026-02-27💻 cs

QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition

O artigo "QuadSync" propõe um novo framework teórico e algorítmico que desafia a noção de que os tensores quadrofocais são impraticáveis, demonstrando que é possível recuperar múltiplas câmeras através de uma decomposição de Tucker e de um algoritmo de sincronização que integra informações de tensores bifocais, trifocais e quadrofocais.

Daniel Miao, Gilad Lerman, Joe Kileel2026-02-27🔢 math

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

Este artigo apresenta o MWAM, um módulo plug-and-play de baixo custo que utiliza uma Métrica de Razão de Frequência para identificar e reequilibrar dinamicamente o aprendizado entre modalidades durante o treinamento, mitigando a degradação de desempenho causada por modalidades ausentes e melhorando a robustez de modelos multimodais.

Siqi Lu, Wanying Xu, Yongbin Zheng + 3 more2026-02-27💻 cs

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

O "Interactive Medical-SAM2 GUI" é uma aplicação de código aberto baseada no Napari que integra o modelo Medical-SAM2 para permitir anotações semiautomáticas eficientes e unificadas de volumes médicos 2D e 3D, superando as limitações de fluxos de trabalho existentes ao oferecer propagação de máscaras, correção interativa e exportação quantitativa em um pipeline local.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

Este artigo propõe uma abordagem prática para a construção de conjuntos de dados de avaliação de qualidade áudio-visual (AVQA) por meio de crowdsourcing, resultando no YT-NTU-AVQ, que é o maior e mais diversificado conjunto de dados desse tipo até a data, contendo 1.620 sequências de áudio e vídeo geradas por usuários e anotadas com informações detalhadas para superar as limitações de escala e diversidade dos datasets existentes.

Renyu Yang, Jian Jin, Lili Meng + 4 more2026-02-27💻 cs

← Anterior Próximo →

cs.CV