DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

El artículo presenta DiffInk, un marco innovador basado en transformadores de difusión latente que, mediante el uso de un VAE con regularización dual (InkVAE) y un modelo generativo (InkDiT), logra la primera generación eficiente y de alta fidelidad de líneas completas de escritura a mano en línea, disociando con precisión el contenido de los glifos del estilo del escritor.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

El artículo presenta LVTINO, un solucionador inverso cero-shot para la restauración de video de alta definición que utiliza Consistencia de Video (VCMs) para lograr reconstrucciones temporalmente coherentes y de alta calidad con alta eficiencia computacional, superando a los métodos anteriores basados en modelos de difusión de imágenes aplicados fotograma a fotograma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

Splat the Net: Radiance Fields with Splattable Neural Primitives

El artículo presenta "Splat the Net", una nueva representación volumétrica que combina la expresividad de los campos neuronales con la eficiencia del splatting mediante primitivas neuronales que permiten un cálculo exacto y rápido de la integración de rayos, logrando una calidad y velocidad equivalentes a las de 3D Gaussian Splatting pero con una décima parte de primitivas y una sexta parte de parámetros.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

El artículo presenta LinearSR, un marco holístico que supera los desafíos de inestabilidad y eficiencia de la atención lineal en la superresolución de imágenes mediante estrategias innovadoras como el fine-tuning guiado por puntos de inflexión y una arquitectura de expertos mixtos, logrando así un rendimiento perceptual de vanguardia con una eficiencia computacional excepcional.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

El artículo presenta PHyCLIP, un modelo que unifica la jerarquía y la composicionalidad en el aprendizaje de representaciones visión-lenguaje mediante un producto 1\ell_1 de factores hiperbólicos, superando a los enfoques de espacio único y mejorando la interpretabilidad en tareas de clasificación y recuperación.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

El artículo presenta Fly-CL, un marco bioinspirado en el circuito olfativo de la mosca que mejora el aprendizaje de representaciones continuas en modelos preentrenados al resolver la multicolinealidad y reducir significativamente el tiempo de entrenamiento mediante un emparejamiento de similitud eficiente.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI