VeCoR -- Velocity Contrastive Regularization for Flow Matching

El artículo presenta VeCoR, un esquema de regularización contrastiva que mejora la estabilidad y la fidelidad perceptual de los modelos de Flow Matching al introducir una supervisión de dos vías que guía las trayectorias hacia direcciones estables y las aleja de direcciones fuera de la variedad de datos, logrando reducciones significativas en el FID en configuraciones ligeras y de pocos pasos.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision es un paradigma eficiente de modelos visión-lenguaje que, inspirado en la visión activa humana, utiliza un enfoque de aprendizaje por refuerzo con optimización de política desacoplada (DTPO) para adquirir de forma adaptativa y selectiva la información visual necesaria, logrando así un rendimiento superior con una reducción significativa de tokens visuales en comparación con los métodos existentes.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Este artículo presenta FARL, un marco novedoso que mejora la generalización en modelos de visión y lenguaje mediante el uso de análisis de Fourier para desentrelazar explícitamente las características estructurales y estilísticas de las imágenes, facilitando así un aprendizaje de representación más robusto en escenarios de pocos ejemplos.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Este estudio sistémico demuestra que, en la adaptación continua en tiempo de prueba, la familia de enmascaramiento (espacial frente a frecuencial) es el factor determinante para la estabilidad del aprendizaje, donde el enmascaramiento espacial preserva la coherencia estructural en arquitecturas basadas en tokens de parche mientras que el frecuencial puede causar colapso catastrófico, y su eficacia óptima depende de la alineación entre la arquitectura y la tarea.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

El artículo presenta Brain-Semantoks, un marco de aprendizaje auto-supervisado que utiliza un tokenizador semántico y un objetivo de auto-distilación para aprender representaciones robustas de la dinámica cerebral a partir de series temporales de fMRI, logrando un alto rendimiento en tareas posteriores y mejoras escalables sin necesidad de adaptación de dominio.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

ββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

El artículo presenta β\beta-CLIP, un marco de aprendizaje contrastivo condicionado por texto que logra una alineación jerárquica y multi-granular entre representaciones visuales y textuales mediante un mecanismo de atención cruzada y una nueva función de pérdida (β\beta-CAL), logrando así un rendimiento superior en tareas de recuperación densa y alineación visión-idioma sin necesidad de negativos duros.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP es un método que recupera geometría de escenas y movimiento humano simulables a partir de video monoculares mediante el ajuste de primitivas planas y el modelado de contactos, logrando una reconstrucción física plausible que reduce drásticamente las tasas de fallo en el seguimiento de movimientos y acelera la simulación para aplicaciones de robótica y realidad aumentada.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Esta investigación presenta un marco integral de inteligencia artificial interpretable que integra el análisis de imágenes dermatológicas con datos de historial familiar para mejorar la precisión diagnóstica y la personalización de tratamientos, validando sus resultados con profesionales de la salud y proponiendo ensayos clínicos prospectivos para su implementación en la práctica médica real.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Este estudio propone el método "ForCM", que integra técnicas de Análisis de Imágenes Basado en Objetos (OBIA) con modelos de aprendizaje profundo aplicados a imágenes multiespectrales de Sentinel-2 para lograr un mapeo de cobertura forestal en la Amazonía con una precisión superior (hasta 95,64%) en comparación con los métodos tradicionales.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

El artículo presenta CEM, un plugin de optimización de fidelidad que minimiza el error acumulativo mediante un algoritmo de programación dinámica para adaptar dinámicamente las estrategias de caché en la aceleración de modelos Diffusion Transformer, mejorando significativamente la calidad de generación sin añadir sobrecarga computacional.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Este trabajo propone un método de alineación 3D zero-shot que optimiza la pose relativa entre dos mallas mediante gradientes de CLIP y un renderizador diferenciable, reforzados por restricciones geométricas de contacto y no penetración, para lograr ensamblajes de objetos semánticamente fieles y físicamente plausibles sin necesidad de entrenar nuevos modelos.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs