Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

Este trabajo identifica que la normalización de capa convencional perjudica el entrenamiento de los transformadores para la restauración de imágenes al causar divergencia de magnitudes y colapso de entropía, y propone una nueva normalización adaptativa (i-LN) que corrige estas desalineaciones para mejorar tanto la dinámica de entrenamiento como el rendimiento final.

MinKyu Lee, Sangeek Hyun, Woojin Jun + 3 more2026-02-23💻 cs

eStonefish-Scenes: A Sim-to-Real Validated and Robot-Centric Event-based Optical Flow Dataset for Underwater Vehicles

Este artículo presenta eStonefish-Scenes, un dataset sintético de flujo óptico basado en eventos validado en escenarios reales para vehículos submarinos, junto con la librería eWiz, demostrando que el entrenamiento exclusivo con datos simulados permite una estimación precisa del flujo óptico en entornos reales sin necesidad de ajuste fino.

Jad Mansour, Sebastian Realpe, Hayat Rajani + 3 more2026-02-23💻 cs

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

El artículo presenta Mod-Adapter, un método sin ajuste previo que personaliza múltiples conceptos (tanto objetos como abstractos) en la generación de imágenes mediante un adaptador de modulación que utiliza atención cruzada visión-idioma y capas de expertos mixtos, todo ello optimizado con una estrategia de preentrenamiento guiada por modelos de lenguaje visual.

Weizhi Zhong, Huan Yang, Zheng Liu + 5 more2026-02-23💻 cs

GraphGSOcc: Semantic-Geometric Graph Transformer with Dynamic-Static Decoupling for 3D Gaussian Splatting-based Occupancy Prediction

El artículo presenta GraphGSOcc, un marco novedoso que combina transformadores gráficos semántico-geométricos con un mecanismo de desacoplamiento dinámico-estático para mejorar la predicción de ocupación semántica 3D basada en Gaussian Splatting, logrando resultados de vanguardia en precisión y eficiencia de memoria en múltiples conjuntos de datos de conducción autónoma.

Ke Song, Yunhe Wu, Chunchit Siu + 1 more2026-02-23🤖 cs.AI

View Invariant Learning for Vision-Language Navigation in Continuous Environments

Este artículo presenta VIL, un marco de aprendizaje post-entrenamiento basado en aprendizaje contrastivo y distilación de conocimiento que logra invarianza ante cambios de perspectiva en la navegación visión-lenguaje en entornos continuos, mejorando significativamente el rendimiento en benchmarks estándar y configuraciones de robots reales sin degradar las capacidades en entornos de vista fija.

Josh Qixuan Sun, Huaiyuan Weng, Xiaoying Xing + 2 more2026-02-23🤖 cs.LG

Smartphone-based iris recognition through high-quality visible-spectrum iris image capture.V2

Este trabajo presenta un pipeline integral para el reconocimiento de iris en el espectro visible mediante smartphones, que incluye una aplicación de captura estandarizada, el conjunto de datos CUVIRIS y modelos de aprendizaje profundo optimizados, demostrando una alta precisión (EER del 0,057%) y viabilidad práctica en dispositivos comerciales.

Naveenkumar G Venkataswamy, Yu Liu, Soumyabrata Dey + 2 more2026-02-23⚡ eess

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

El artículo presenta GradFix, un método que permite transferir vectores de tarea entre modelos preentrenados distintos mediante el enmascaramiento basado en la estructura de los signos del gradiente, logrando así un ajuste eficiente sin necesidad de fine-tuning adicional y superando a enfoques existentes en diversas tareas de visión y lenguaje.

Filippo Rinaldi, Aniello Panariello, Giacomo Salici + 4 more2026-02-23🤖 cs.AI

Investigating Demographic Bias in Brain MRI Segmentation: A Comparative Study of Deep-Learning and Non-Deep-Learning Methods

Este estudio evalúa el sesgo demográfico en la segmentación del núcleo accumbens mediante MRI, comparando métodos de aprendizaje profundo y tradicionales, y descubre que, aunque la precisión de algunos modelos mejora al entrenarlos con datos de la misma raza, las diferencias de volumen por raza desaparecen en la mayoría de las segmentaciones automatizadas, mientras que las diferencias por sexo se mantienen.

Ghazal Danaee, Marc Niethammer, Jarrett Rushmore + 1 more2026-02-23💻 cs

Perception-to-Pursuit: Track-Centric Temporal Reasoning for Open-World Drone Detection and Autonomous Chasing

El artículo presenta "Perception-to-Pursuit" (P2P), un marco de razonamiento temporal centrado en la pista que utiliza transformadores causales para predecir trayectorias de drones y planificar persecuciones autónomas viables, logrando una mejora del 77% en la precisión de predicción y un aumento masivo en la viabilidad de la persecución en comparación con los métodos tradicionales.

Venkatakrishna Reddy Oruganti2026-02-23💻 cs

Temporal Pair Consistency for Variance-Reduced Flow Matching

Este artículo presenta la Consistencia de Pares Temporales (TPC), un principio ligero de reducción de varianza que acopla las predicciones de velocidad en pares de instantes de tiempo dentro de modelos de flujo continuo, mejorando teórica y empíricamente la calidad y eficiencia de la generación de imágenes sin alterar la arquitectura del modelo, la trayectoria de probabilidad o el solucionador.

Chika Maduabuchi, Jindong Wang2026-02-23🤖 cs.AI