DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

O artigo apresenta o DisQ-HNet, um framework de síntese de imagem multimodal que utiliza decomposição de informação parcial e uma rede Half-UNet quantizada para gerar PET-Tau a partir de ressonâncias magnéticas T1 e FLAIR, garantindo alta fidelidade reconstrutiva e interpretabilidade das contribuições de cada modalidade para tarefas de diagnóstico de Alzheimer.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

O artigo apresenta o DrivePTS, um framework de aprendizado progressivo que aprimora a geração de cenas de direção autônoma ao mitigar dependências entre condições geométricas, enriquecer o contexto semântico com descrições hierárquicas de múltiplas visões e preservar detalhes estruturais por meio de uma perda guiada por frequência, alcançando assim fidelidade e generalização superiores às métodos existentes.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

O artigo propõe o QARMVC, um novo framework de agrupamento multi-visão robusto que supera as limitações das abordagens binárias ao quantificar a intensidade heterogênea de ruído através de discrepâncias de reconstrução e integrar essas pontuações de qualidade em uma estratégia hierárquica de aprendizado para suprimir a propagação de ruído e alinhar as visões locais.

Peihan Wu, Guanjie Cheng, Yufei Tong + 2 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Este artigo revela um viés crítico nas avaliações atuais de modelos de difusão, onde o aumento excessivo da escala de orientação (CFG) infla artificialmente as pontuações de preferência humana à custa da qualidade visual, propondo um novo framework de avaliação (GA-Eval) e um método (TDG) para expor essa falha e incentivar uma reavaliação rigorosa do progresso no campo.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

O artigo apresenta o GIFSplat, um método de reconstrução 3D puramente feed-forward que utiliza refinamento iterativo e um prior generativo destilado para superar as limitações de métodos existentes, alcançando resultados superiores em qualidade e mantendo inferência rápida a partir de poucas visões sem necessidade de poses de câmera ou otimização por gradiente.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

ϕϕ-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Este artigo apresenta o I¨•Ï•-DPO, uma nova abordagem de Otimização Direta de Preferências para Aprendizado Contínuo em Modelos Multimodais Grandes que mitiga tanto o esquecimento catastrófico quanto os vieses causados por distribuições de dados desbalanceadas, alcançando desempenho superior ao estado da arte em múltiplos benchmarks.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Este artigo propõe o DP-aware AdaLN-Zero, um mecanismo de condicionamento sensível à sensibilidade para transformadores de difusão que mitiga gradientes de cauda pesada induzidos por contextos heterogêneos, melhorando significativamente a utilidade de tarefas de séries temporais sob privacidade diferencial sem sacrificar o desempenho em cenários não privados.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery

O artigo apresenta o SATtxt, um modelo de linguagem e visão fundado que, através de destilação espectral e alinhamento com LLMs instruídos, permite inferência eficiente apenas com imagens RGB enquanto preserva informações espectrais, superando os métodos existentes em tarefas de classificação e recuperação de imagens de satélite.

Minh Kha Do, Wei Xiang, Kang Han + 5 more2026-02-27💻 cs

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

Este trabalho apresenta o CGSA, um novo framework para detecção de objetos adaptativa sem fonte que integra aprendizado centrado em objetos em detectores baseados em DETR, utilizando módulos de consciência de slots hierárquicos e contraste guiado por classe para superar as limitações dos métodos atuais e alcançar desempenho superior em cenários de privacidade.

Boyang Dai, Zeng Fan, Zihao Qi + 2 more2026-02-27🤖 cs.AI

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

O "Interactive Medical-SAM2 GUI" é uma aplicação de código aberto baseada no Napari que integra o modelo Medical-SAM2 para permitir anotações semiautomáticas eficientes e unificadas de volumes médicos 2D e 3D, superando as limitações de fluxos de trabalho existentes ao oferecer propagação de máscaras, correção interativa e exportação quantitativa em um pipeline local.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

Este artigo propõe uma abordagem prática para a construção de conjuntos de dados de avaliação de qualidade áudio-visual (AVQA) por meio de crowdsourcing, resultando no YT-NTU-AVQ, que é o maior e mais diversificado conjunto de dados desse tipo até a data, contendo 1.620 sequências de áudio e vídeo geradas por usuários e anotadas com informações detalhadas para superar as limitações de escala e diversidade dos datasets existentes.

Renyu Yang, Jian Jin, Lili Meng + 4 more2026-02-27💻 cs