cs.CV artículos | Gist.Science

DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text

El artículo presenta DohaScript, un conjunto de datos a gran escala y multi-escritor de texto manuscrito hindi continuo, diseñado para superar las limitaciones de los recursos existentes mediante un corpus paralelo controlado que facilita el análisis de variaciones estilísticas y el avance en tareas de reconocimiento y generación de escritura en Devanagari.

Kunwar Arpit Singh, Ankush Prakash, Haroon R Lone2026-02-23🤖 cs.AI

Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

El artículo presenta PrediT, un marco de aceleración sin entrenamiento para los Transformadores de Difusión que utiliza métodos de pasos múltiples lineales para predecir y saltar pasos de denoising, logrando una reducción de latencia de hasta 5.54 veces sin comprometer significativamente la calidad de la generación.

Hanshuai Cui, Zhiqing Tang, Qianli Ma + 2 more2026-02-23💻 cs

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Este artículo presenta OODBench, un nuevo benchmark automatizado de 40.000 instancias para evaluar el rendimiento de los Modelos de Visión y Lenguaje ante datos fuera de distribución (OOD), revelando que los modelos actuales sufren un notable deterioro en estos escenarios y proponiendo una métrica de evaluación escalonada para medir su impacto en preguntas de diversa dificultad.

Ling Lin, Yang Bai, Heng Su + 5 more2026-02-23🤖 cs.AI

RamanSeg: Interpretability-driven Deep Learning on Raman Spectra for Cancer Diagnosis

El artículo presenta RamanSeg, un modelo de aprendizaje profundo interpretable basado en prototipos que supera a los enfoques de caja negra para el diagnóstico de cáncer mediante espectroscopía Raman, ofreciendo una alternativa rápida y sin tinción a la histopatología tradicional.

Chris Tomy, Mo Vali, David Pertzborn + 9 more2026-02-23⚡ eess

Evaluating Graphical Perception Capabilities of Vision Transformers

Este estudio evalúa las capacidades de percepción gráfica de los Vision Transformers (ViT) comparándolos con las CNN y humanos en tareas basadas en los fundamentos de Cleveland y McGill, revelando que, aunque los ViT son potentes en visión general, su alineación con la percepción humana en el ámbito de la visualización es limitada.

Poonam Poonam, Pere-Pau Vázquez, Timo Ropinski2026-02-23💻 cs

A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion

Este artículo presenta el Calibrador de Movimiento Consciente de Distorsión (DMC), un módulo posprocesamiento auto-supervisado que mejora la plausibilidad física y la consistencia semántica de los movimientos generados a partir de texto al corregir artefactos como el flotamiento de los pies sin depender de modelos físicos complejos.

Gahyeon Shim, Soogeun Park, Hyemin Ahn2026-02-23💻 cs

On the Adversarial Robustness of Discrete Image Tokenizers

Este trabajo presenta el primer estudio sobre la vulnerabilidad de los tokenizadores de imágenes discretos ante ataques adversarios, proponiendo métodos eficientes para generarlos y una estrategia de entrenamiento adversario no supervisado que mejora significativamente la robustez y la generalización en diversas tareas multimodales.

Rishika Bhagwatkar, Irina Rish, Nicolas Flammarion + 1 more2026-02-23🤖 cs.AI

RoEL: Robust Event-based 3D Line Reconstruction

El artículo presenta RoEL, un método robusto que utiliza líneas extraídas de cámaras de eventos para mejorar la reconstrucción 3D y el refinamiento de la pose mediante funciones de costo geométrico que eliminan distorsiones y ambigüedades, demostrando un rendimiento superior en diversos escenarios y modalidades.

Gwangtak Bae, Jaeho Shin, Seunggu Kang + 3 more2026-02-23💻 cs

DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

El artículo presenta DEIG, un marco innovador que mejora la generación de múltiples instancias mediante un extractor de detalles y un módulo de fusión para un control semántico preciso, respaldado por un nuevo conjunto de datos y un benchmark que demuestran su superioridad en coherencia espacial y precisión semántica.

Shiyan Du, Conghan Yue, Xinyu Cheng + 1 more2026-02-23💻 cs

Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation

El artículo presenta LOTS, un marco que mejora la generación de imágenes de moda mediante la combinación de bocetos globales con pares de texto-boceto localizados, validado con el nuevo conjunto de datos Sketchy que incluye tanto bocetos profesionales como espontáneos.

Ziyue Liu, Davide Talon, Federico Girella + 5 more2026-02-23💻 cs

Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

El artículo presenta Diff2DGS, un marco de dos etapas que combina la inpainting basada en difusión y el Splatting Gaussiano 2D deformable para lograr una reconstrucción 3D fiable y precisa de escenas quirúrgicas ocluidas, mejorando tanto la apariencia como la geometría en comparación con los métodos actuales.

Tianyi Song, Danail Stoyanov, Evangelos Mazomenos + 1 more2026-02-23💻 cs

Unifying Color and Lightness Correction with View-Adaptive Curve Adjustment for Robust 3D Novel View Synthesis

El artículo presenta Luminance-GS++, un marco basado en 3DGS que logra una síntesis de vistas novedosas robusta bajo diversas condiciones de iluminación mediante un ajuste de curva de luminosidad adaptativo a la vista y una refinación residual local, preservando la eficiencia de renderizado en tiempo real sin modificar la representación 3D subyacente.

Ziteng Cui, Shuhong Liu, Xiaoyu Dong + 4 more2026-02-23💻 cs

G-LoG Bi-filtration for Medical Image Classification

Este artículo presenta la bi-filtración G-LoG, un método de análisis topológico de datos que utiliza el operador Laplaciano de Gaussiano para extraer características estables de imágenes médicas volumétricas, demostrando mediante experimentos en MedMNIST que un clasificador simple entrenado con estas características supera a las filtraciones de un solo parámetro y compite eficazmente con complejos modelos de aprendizaje profundo.

Qingsong Wang, Jiaxing He, Bingzhe Hou + 3 more2026-02-23🔢 math

Quantum-enhanced satellite image classification

Este estudio demuestra que un método híbrido de extracción de características cuánticas, implementado en procesadores de IBM, mejora la precisión de la clasificación de imágenes satelitales hasta un 87%, superando significativamente a los enfoques puramente clásicos como ResNet50.

Qi Zhang, Anton Simen, Carlos Flores-Garrigós + 7 more2026-02-23⚛️ quant-ph

Self-Aware Object Detection via Degradation Manifolds

Este artículo presenta un marco de autoconciencia para la detección de objetos que utiliza variedades de degradación y aprendizaje contrastivo para estructurar el espacio de características según el tipo y severidad de la degradación de la imagen, permitiendo así identificar desviaciones del régimen operativo nominal sin depender de etiquetas de degradación ni de la confianza del detector.

Stefan Becker, Simon Weiss, Wolfgang Hübner + 1 more2026-02-23💻 cs

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Este trabajo presenta un modelo de mundo de video centrado en el humano que utiliza la generación de video interactiva con control de manos y cámara para crear entornos virtuales inmersivos que responden al movimiento real del usuario, demostrando una mayor percepción de control y rendimiento en tareas en comparación con métodos anteriores.

Linxi Xie, Lisong C. Sun, Ashley Neall + 3 more2026-02-23💻 cs

Spatio-Spectroscopic Representation Learning using Unsupervised Convolutional Long-Short Term Memory Networks

Este trabajo presenta un marco de aprendizaje profundo no supervisado basado en redes neuronales convolutivas de memoria a corto y largo plazo (ConvLSTM) para extraer representaciones de características espaciales y espectroscópicas de aproximadamente 9000 galaxias del sondeo MaNGA, demostrando su eficacia al identificar características científicamente relevantes en una muestra de núcleos galácticos activos (AGN).

Kameswara Bharadwaj Mantha, Lucy Fortson, Ramanakumar Sankar + 8 more2026-02-23🔭 astro-ph

The Geometry of Noise: Why Diffusion Models Don't Need Noise Conditioning

Este artículo resuelve la paradoja de los modelos generativos autónomos al demostrar que su estabilidad se logra mediante un flujo de gradiente riemanniano sobre una Energía Marginal, donde un campo vectorial invariante en el tiempo incorpora implícitamente una métrica conforme que contrarresta las singularidades geométricas, evitando así el colapso catastrófico asociado a las parametrizaciones de predicción de ruido.

Mojtaba Sahraee-Ardakan, Mauricio Delbracio, Peyman Milanfar2026-02-23⚡ eess

SARAH: Spatially Aware Real-time Agentic Humans

El paper presenta SARAH, un método causal en tiempo real que habilita agentes conversacionales con conciencia espacial en entornos de realidad virtual, logrando movimientos corporales naturales sincronizados con el habla y la posición del usuario a más de 300 FPS.

Evonne Ng, Siwei Zhang, Zhang Chen + 2 more2026-02-23💻 cs

Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

El artículo presenta MemStream, un enfoque que escala el presupuesto de tokens y utiliza una estrategia de selección adaptativa junto con un sistema de expertos de mezcla sin entrenamiento para mejorar la comprensión de videos en streaming y el razonamiento en preguntas y respuestas (VQA), logrando mejoras significativas en benchmarks como CG-Bench, LVBench y VideoMME.

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam + 2 more2026-02-23💻 cs

← Anterior Siguiente →