Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Este artigo propõe o framework CSL, uma abordagem unificada de co-aprendizado que supera os desafios do reconhecimento de imagens multi-rótulo com rótulos incompletos, integrando a extração de características semânticas robustas e a recuperação adaptativa de rótulos ausentes para alcançar desempenho superior em conjuntos de dados públicos.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

O artigo apresenta o UniFlow, um tokenizador visual unificado que supera o dilema entre compreensão e geração ao combinar auto-distilação adaptativa em camadas para herdar características semânticas robustas com um decodificador leve de fluxo de pixels que garante reconstrução de alta fidelidade, alcançando resultados superiores em diversas tarefas de entendimento e geração de imagens.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

O artigo apresenta o Fly-CL, um framework bioinspirado no circuito olfativo de moscas que utiliza modelos pré-treinados quase congelados para resolver problemas de multicolinearidade na aprendizagem contínua, reduzindo significativamente o tempo de treinamento sem comprometer o desempenho.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

O artigo apresenta o Mono4DGS-HDR, um sistema pioneiro que utiliza uma abordagem de otimização em duas etapas baseada em Gaussian Splatting para reconstruir cenas 4D de alto alcance dinâmico (HDR) a partir de vídeos monoculares não calibrados com exposições alternadas, alcançando superioridade em qualidade e velocidade de renderização.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

O artigo apresenta o BioCAP, um modelo fundamental biológico que utiliza legendas sintéticas geradas por modelos de linguagem multimodal para superar a escassez de descrições textuais específicas, melhorando assim a classificação de espécies e a recuperação de imagens ao alinhar características visuais e textuais em um espaço latente compartilhado.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Este trabalho propõe um método inovador que gera vídeos de rostos falantes em alta resolução exclusivamente a partir de uma única entrada de áudio, utilizando um modelo de difusão condicionado à fala com priores faciais e um módulo de refinamento regional para superar as limitações das abordagens existentes que dependem de imagens de referência.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Este estudo demonstra que a segmentação de imagens médicas segue uma lei de escala limitada pela geometria anatômica, onde o aumento de dados apresenta saturação precoce, mas o uso de aumentações baseadas em topologia melhora a eficiência amostral ao expandir a cobertura topológica efetiva sem alterar a estrutura fundamental da lei de escala.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs