DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text

El artículo presenta DohaScript, un conjunto de datos a gran escala y multi-escritor de texto manuscrito hindi continuo, diseñado para superar las limitaciones de los recursos existentes mediante un corpus paralelo controlado que facilita el análisis de variaciones estilísticas y el avance en tareas de reconocimiento y generación de escritura en Devanagari.

Kunwar Arpit Singh, Ankush Prakash, Haroon R Lone2026-02-23🤖 cs.AI

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Este artículo presenta OODBench, un nuevo benchmark automatizado de 40.000 instancias para evaluar el rendimiento de los Modelos de Visión y Lenguaje ante datos fuera de distribución (OOD), revelando que los modelos actuales sufren un notable deterioro en estos escenarios y proponiendo una métrica de evaluación escalonada para medir su impacto en preguntas de diversa dificultad.

Ling Lin, Yang Bai, Heng Su + 5 more2026-02-23🤖 cs.AI

Unifying Color and Lightness Correction with View-Adaptive Curve Adjustment for Robust 3D Novel View Synthesis

El artículo presenta Luminance-GS++, un marco basado en 3DGS que logra una síntesis de vistas novedosas robusta bajo diversas condiciones de iluminación mediante un ajuste de curva de luminosidad adaptativo a la vista y una refinación residual local, preservando la eficiencia de renderizado en tiempo real sin modificar la representación 3D subyacente.

Ziteng Cui, Shuhong Liu, Xiaoyu Dong + 4 more2026-02-23💻 cs

G-LoG Bi-filtration for Medical Image Classification

Este artículo presenta la bi-filtración G-LoG, un método de análisis topológico de datos que utiliza el operador Laplaciano de Gaussiano para extraer características estables de imágenes médicas volumétricas, demostrando mediante experimentos en MedMNIST que un clasificador simple entrenado con estas características supera a las filtraciones de un solo parámetro y compite eficazmente con complejos modelos de aprendizaje profundo.

Qingsong Wang, Jiaxing He, Bingzhe Hou + 3 more2026-02-23🔢 math

Self-Aware Object Detection via Degradation Manifolds

Este artículo presenta un marco de autoconciencia para la detección de objetos que utiliza variedades de degradación y aprendizaje contrastivo para estructurar el espacio de características según el tipo y severidad de la degradación de la imagen, permitiendo así identificar desviaciones del régimen operativo nominal sin depender de etiquetas de degradación ni de la confianza del detector.

Stefan Becker, Simon Weiss, Wolfgang Hübner + 1 more2026-02-23💻 cs

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Este trabajo presenta un modelo de mundo de video centrado en el humano que utiliza la generación de video interactiva con control de manos y cámara para crear entornos virtuales inmersivos que responden al movimiento real del usuario, demostrando una mayor percepción de control y rendimiento en tareas en comparación con métodos anteriores.

Linxi Xie, Lisong C. Sun, Ashley Neall + 3 more2026-02-23💻 cs

Spatio-Spectroscopic Representation Learning using Unsupervised Convolutional Long-Short Term Memory Networks

Este trabajo presenta un marco de aprendizaje profundo no supervisado basado en redes neuronales convolutivas de memoria a corto y largo plazo (ConvLSTM) para extraer representaciones de características espaciales y espectroscópicas de aproximadamente 9000 galaxias del sondeo MaNGA, demostrando su eficacia al identificar características científicamente relevantes en una muestra de núcleos galácticos activos (AGN).

Kameswara Bharadwaj Mantha, Lucy Fortson, Ramanakumar Sankar + 8 more2026-02-23🔭 astro-ph

The Geometry of Noise: Why Diffusion Models Don't Need Noise Conditioning

Este artículo resuelve la paradoja de los modelos generativos autónomos al demostrar que su estabilidad se logra mediante un flujo de gradiente riemanniano sobre una Energía Marginal, donde un campo vectorial invariante en el tiempo incorpora implícitamente una métrica conforme que contrarresta las singularidades geométricas, evitando así el colapso catastrófico asociado a las parametrizaciones de predicción de ruido.

Mojtaba Sahraee-Ardakan, Mauricio Delbracio, Peyman Milanfar2026-02-23⚡ eess

Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

El artículo presenta MemStream, un enfoque que escala el presupuesto de tokens y utiliza una estrategia de selección adaptativa junto con un sistema de expertos de mezcla sin entrenamiento para mejorar la comprensión de videos en streaming y el razonamiento en preguntas y respuestas (VQA), logrando mejoras significativas en benchmarks como CG-Bench, LVBench y VideoMME.

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam + 2 more2026-02-23💻 cs