Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Este estudio sistémico demuestra que, en la adaptación continua en tiempo de prueba, la familia de enmascaramiento (espacial frente a frecuencial) es el factor determinante para la estabilidad del aprendizaje, donde el enmascaramiento espacial preserva la coherencia estructural en arquitecturas basadas en tokens de parche mientras que el frecuencial puede causar colapso catastrófico, y su eficacia óptima depende de la alineación entre la arquitectura y la tarea.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

El artículo presenta Brain-Semantoks, un marco de aprendizaje auto-supervisado que utiliza un tokenizador semántico y un objetivo de auto-distilación para aprender representaciones robustas de la dinámica cerebral a partir de series temporales de fMRI, logrando un alto rendimiento en tareas posteriores y mejoras escalables sin necesidad de adaptación de dominio.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

ββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

El artículo presenta β\beta-CLIP, un marco de aprendizaje contrastivo condicionado por texto que logra una alineación jerárquica y multi-granular entre representaciones visuales y textuales mediante un mecanismo de atención cruzada y una nueva función de pérdida (β\beta-CAL), logrando así un rendimiento superior en tareas de recuperación densa y alineación visión-idioma sin necesidad de negativos duros.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP es un método que recupera geometría de escenas y movimiento humano simulables a partir de video monoculares mediante el ajuste de primitivas planas y el modelado de contactos, logrando una reconstrucción física plausible que reduce drásticamente las tasas de fallo en el seguimiento de movimientos y acelera la simulación para aplicaciones de robótica y realidad aumentada.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Esta investigación presenta un marco integral de inteligencia artificial interpretable que integra el análisis de imágenes dermatológicas con datos de historial familiar para mejorar la precisión diagnóstica y la personalización de tratamientos, validando sus resultados con profesionales de la salud y proponiendo ensayos clínicos prospectivos para su implementación en la práctica médica real.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Este estudio propone el método "ForCM", que integra técnicas de Análisis de Imágenes Basado en Objetos (OBIA) con modelos de aprendizaje profundo aplicados a imágenes multiespectrales de Sentinel-2 para lograr un mapeo de cobertura forestal en la Amazonía con una precisión superior (hasta 95,64%) en comparación con los métodos tradicionales.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

El artículo presenta CEM, un plugin de optimización de fidelidad que minimiza el error acumulativo mediante un algoritmo de programación dinámica para adaptar dinámicamente las estrategias de caché en la aceleración de modelos Diffusion Transformer, mejorando significativamente la calidad de generación sin añadir sobrecarga computacional.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Este trabajo propone un método de alineación 3D zero-shot que optimiza la pose relativa entre dos mallas mediante gradientes de CLIP y un renderizador diferenciable, reforzados por restricciones geométricas de contacto y no penetración, para lograr ensamblajes de objetos semánticamente fieles y físicamente plausibles sin necesidad de entrenar nuevos modelos.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

Este artículo presenta Perceptual Counterfactual Geodesics (PCG), un método que genera explicaciones contrafactuales semánticamente válidas y suaves al trazar geodésicas en un espacio latente con una métrica riemanniana perceptual derivada de características de visión robusta, superando así las limitaciones de los enfoques existentes que sufren de artefactos fuera de la variedad o colapso adversarial.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

El artículo presenta Vision-DeepResearch, un nuevo paradigma para modelos de lenguaje grandes multimodales que internaliza capacidades de investigación profunda mediante búsqueda visual y textual multi-turno, multi-entidad y multi-escala, superando significativamente a los enfoques existentes y a flujos de trabajo basados en modelos propietarios de vanguardia en escenarios reales con alto nivel de ruido.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Este artículo propone un nuevo método de cuantización post-entrenamiento para modelos de difusión que asigna pesos óptimos a las muestras de calibración para alinear los gradientes entre pasos de tiempo, superando así las limitaciones de las técnicas uniformes existentes y mejorando el rendimiento en conjuntos de datos como CIFAR-10, LSUN-Bedrooms e ImageNet.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

El artículo presenta CaCoVID, un nuevo algoritmo de compresión de tokens para la comprensión de video que utiliza aprendizaje por refuerzo para optimizar activamente la selección de tokens basándose en su contribución real a las predicciones correctas, superando así las limitaciones de los métodos tradicionales que priorizan únicamente las puntuaciones de atención.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI