GraphGSOcc: Semantic-Geometric Graph Transformer with Dynamic-Static Decoupling for 3D Gaussian Splatting-based Occupancy Prediction

El artículo presenta GraphGSOcc, un marco novedoso que combina transformadores gráficos semántico-geométricos con un mecanismo de desacoplamiento dinámico-estático para mejorar la predicción de ocupación semántica 3D basada en Gaussian Splatting, logrando resultados de vanguardia en precisión y eficiencia de memoria en múltiples conjuntos de datos de conducción autónoma.

Ke Song, Yunhe Wu, Chunchit Siu + 1 more2026-02-23🤖 cs.AI

View Invariant Learning for Vision-Language Navigation in Continuous Environments

Este artículo presenta VIL, un marco de aprendizaje post-entrenamiento basado en aprendizaje contrastivo y distilación de conocimiento que logra invarianza ante cambios de perspectiva en la navegación visión-lenguaje en entornos continuos, mejorando significativamente el rendimiento en benchmarks estándar y configuraciones de robots reales sin degradar las capacidades en entornos de vista fija.

Josh Qixuan Sun, Huaiyuan Weng, Xiaoying Xing + 2 more2026-02-23🤖 cs.LG

Smartphone-based iris recognition through high-quality visible-spectrum iris image capture.V2

Este trabajo presenta un pipeline integral para el reconocimiento de iris en el espectro visible mediante smartphones, que incluye una aplicación de captura estandarizada, el conjunto de datos CUVIRIS y modelos de aprendizaje profundo optimizados, demostrando una alta precisión (EER del 0,057%) y viabilidad práctica en dispositivos comerciales.

Naveenkumar G Venkataswamy, Yu Liu, Soumyabrata Dey + 2 more2026-02-23⚡ eess

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

El artículo presenta GradFix, un método que permite transferir vectores de tarea entre modelos preentrenados distintos mediante el enmascaramiento basado en la estructura de los signos del gradiente, logrando así un ajuste eficiente sin necesidad de fine-tuning adicional y superando a enfoques existentes en diversas tareas de visión y lenguaje.

Filippo Rinaldi, Aniello Panariello, Giacomo Salici + 4 more2026-02-23🤖 cs.AI

Investigating Demographic Bias in Brain MRI Segmentation: A Comparative Study of Deep-Learning and Non-Deep-Learning Methods

Este estudio evalúa el sesgo demográfico en la segmentación del núcleo accumbens mediante MRI, comparando métodos de aprendizaje profundo y tradicionales, y descubre que, aunque la precisión de algunos modelos mejora al entrenarlos con datos de la misma raza, las diferencias de volumen por raza desaparecen en la mayoría de las segmentaciones automatizadas, mientras que las diferencias por sexo se mantienen.

Ghazal Danaee, Marc Niethammer, Jarrett Rushmore + 1 more2026-02-23💻 cs

Perception-to-Pursuit: Track-Centric Temporal Reasoning for Open-World Drone Detection and Autonomous Chasing

El artículo presenta "Perception-to-Pursuit" (P2P), un marco de razonamiento temporal centrado en la pista que utiliza transformadores causales para predecir trayectorias de drones y planificar persecuciones autónomas viables, logrando una mejora del 77% en la precisión de predicción y un aumento masivo en la viabilidad de la persecución en comparación con los métodos tradicionales.

Venkatakrishna Reddy Oruganti2026-02-23💻 cs

Temporal Pair Consistency for Variance-Reduced Flow Matching

Este artículo presenta la Consistencia de Pares Temporales (TPC), un principio ligero de reducción de varianza que acopla las predicciones de velocidad en pares de instantes de tiempo dentro de modelos de flujo continuo, mejorando teórica y empíricamente la calidad y eficiencia de la generación de imágenes sin alterar la arquitectura del modelo, la trayectoria de probabilidad o el solucionador.

Chika Maduabuchi, Jindong Wang2026-02-23🤖 cs.AI

Context-Aware Asymmetric Ensembling for Interpretable Retinopathy of Prematurity Screening via Active Query and Vascular Attention

Este estudio propone el modelo de ensamblaje asimétrico consciente del contexto (CAA Ensemble), que integra una red de consulta activa multiescala y un aprendizaje de instancias múltiples para la topología vascular, logrando un rendimiento de vanguardia y una interpretabilidad clínica en el cribado de la retinopatía del prematuro a pesar de las limitaciones de datos.

Md. Mehedi Hassan, Taufiq Hasan2026-02-23⚡ eess

FireRed-Image-Edit-1.0 Technical Report

El informe técnico presenta FireRed-Image-Edit, un modelo de transformador de difusión que logra un rendimiento de vanguardia en la edición de imágenes basada en instrucciones mediante la optimización sistemática de un corpus de 1.600 millones de muestras, una metodología de entrenamiento multi-etapa con técnicas avanzadas de alineación y estabilidad, y la introducción del nuevo benchmark REDEdit-Bench para evaluar tareas de edición complejas.

Super Intelligence Team, Changhao Qiao, Chao Hui + 16 more2026-02-23⚡ eess

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Este trabajo presenta LeafNet, un conjunto de datos multimodal a gran escala con 186.000 imágenes de hojas y 13.950 pares de preguntas y respuestas, junto con el benchmark LeafBench, para evaluar y mejorar el rendimiento de los modelos de visión-linguaje en el diagnóstico de enfermedades vegetales, revelando que la integración de representaciones lingüísticas supera significativamente a los modelos de visión tradicionales en tareas de patología agrícola.

Khang Nguyen Quoc, Phuong D. Dao, Luyl-Da Quach2026-02-23🤖 cs.AI

GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery

El paper presenta GeoEyes, un marco de entrenamiento escalonado que combina el conjunto de datos UHR-CoZ y el método de aprendizaje por refuerzo AdaZoom-GRPO para superar la homogeneización en el uso de herramientas de zoom, permitiendo a los modelos de lenguaje multimodal enfocarse bajo demanda en imágenes de teledetección de ultra alta resolución y lograr un rendimiento superior en benchmarks como XLRS-Bench.

Fengxiang Wang, Mingshuo Chen, Yueying Li + 10 more2026-02-23🤖 cs.AI