Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

El artículo presenta Fly-CL, un marco bioinspirado en el circuito olfativo de la mosca que mejora el aprendizaje de representaciones continuas en modelos preentrenados al resolver la multicolinealidad y reducir significativamente el tiempo de entrenamiento mediante un emparejamiento de similitud eficiente.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Este trabajo propone un enfoque novedoso que genera videos de rostros parlantes de alta resolución exclusivamente a partir de una sola entrada de audio, superando a los métodos existentes mediante un modelo de difusión condicionado al habla con priores faciales y un módulo de refinamiento regional para optimizar la sincronización labial y los detalles.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

VeCoR -- Velocity Contrastive Regularization for Flow Matching

El artículo presenta VeCoR, un esquema de regularización contrastiva que mejora la estabilidad y la fidelidad perceptual de los modelos de Flow Matching al introducir una supervisión de dos vías que guía las trayectorias hacia direcciones estables y las aleja de direcciones fuera de la variedad de datos, logrando reducciones significativas en el FID en configuraciones ligeras y de pocos pasos.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision es un paradigma eficiente de modelos visión-lenguaje que, inspirado en la visión activa humana, utiliza un enfoque de aprendizaje por refuerzo con optimización de política desacoplada (DTPO) para adquirir de forma adaptativa y selectiva la información visual necesaria, logrando así un rendimiento superior con una reducción significativa de tokens visuales en comparación con los métodos existentes.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Este artículo presenta FARL, un marco novedoso que mejora la generalización en modelos de visión y lenguaje mediante el uso de análisis de Fourier para desentrelazar explícitamente las características estructurales y estilísticas de las imágenes, facilitando así un aprendizaje de representación más robusto en escenarios de pocos ejemplos.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs