cs.CV artículos | Gist.Science

Evaluating Graphical Perception Capabilities of Vision Transformers

Este estudio evalúa las capacidades de percepción gráfica de los Vision Transformers (ViT) comparándolos con las CNN y humanos en tareas basadas en los fundamentos de Cleveland y McGill, revelando que, aunque los ViT son potentes en visión general, su alineación con la percepción humana en el ámbito de la visualización es limitada.

Poonam Poonam, Pere-Pau Vázquez, Timo Ropinski2026-02-23💻 cs

A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion

Este artículo presenta el Calibrador de Movimiento Consciente de Distorsión (DMC), un módulo posprocesamiento auto-supervisado que mejora la plausibilidad física y la consistencia semántica de los movimientos generados a partir de texto al corregir artefactos como el flotamiento de los pies sin depender de modelos físicos complejos.

Gahyeon Shim, Soogeun Park, Hyemin Ahn2026-02-23💻 cs

On the Adversarial Robustness of Discrete Image Tokenizers

Este trabajo presenta el primer estudio sobre la vulnerabilidad de los tokenizadores de imágenes discretos ante ataques adversarios, proponiendo métodos eficientes para generarlos y una estrategia de entrenamiento adversario no supervisado que mejora significativamente la robustez y la generalización en diversas tareas multimodales.

Rishika Bhagwatkar, Irina Rish, Nicolas Flammarion + 1 more2026-02-23🤖 cs.AI

RoEL: Robust Event-based 3D Line Reconstruction

El artículo presenta RoEL, un método robusto que utiliza líneas extraídas de cámaras de eventos para mejorar la reconstrucción 3D y el refinamiento de la pose mediante funciones de costo geométrico que eliminan distorsiones y ambigüedades, demostrando un rendimiento superior en diversos escenarios y modalidades.

Gwangtak Bae, Jaeho Shin, Seunggu Kang + 3 more2026-02-23💻 cs

DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

El artículo presenta DEIG, un marco innovador que mejora la generación de múltiples instancias mediante un extractor de detalles y un módulo de fusión para un control semántico preciso, respaldado por un nuevo conjunto de datos y un benchmark que demuestran su superioridad en coherencia espacial y precisión semántica.

Shiyan Du, Conghan Yue, Xinyu Cheng + 1 more2026-02-23💻 cs

Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation

El artículo presenta LOTS, un marco que mejora la generación de imágenes de moda mediante la combinación de bocetos globales con pares de texto-boceto localizados, validado con el nuevo conjunto de datos Sketchy que incluye tanto bocetos profesionales como espontáneos.

Ziyue Liu, Davide Talon, Federico Girella + 5 more2026-02-23💻 cs

Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

El artículo presenta Diff2DGS, un marco de dos etapas que combina la inpainting basada en difusión y el Splatting Gaussiano 2D deformable para lograr una reconstrucción 3D fiable y precisa de escenas quirúrgicas ocluidas, mejorando tanto la apariencia como la geometría en comparación con los métodos actuales.

Tianyi Song, Danail Stoyanov, Evangelos Mazomenos + 1 more2026-02-23💻 cs

Unifying Color and Lightness Correction with View-Adaptive Curve Adjustment for Robust 3D Novel View Synthesis

El artículo presenta Luminance-GS++, un marco basado en 3DGS que logra una síntesis de vistas novedosas robusta bajo diversas condiciones de iluminación mediante un ajuste de curva de luminosidad adaptativo a la vista y una refinación residual local, preservando la eficiencia de renderizado en tiempo real sin modificar la representación 3D subyacente.

Ziteng Cui, Shuhong Liu, Xiaoyu Dong + 4 more2026-02-23💻 cs

G-LoG Bi-filtration for Medical Image Classification

Este artículo presenta la bi-filtración G-LoG, un método de análisis topológico de datos que utiliza el operador Laplaciano de Gaussiano para extraer características estables de imágenes médicas volumétricas, demostrando mediante experimentos en MedMNIST que un clasificador simple entrenado con estas características supera a las filtraciones de un solo parámetro y compite eficazmente con complejos modelos de aprendizaje profundo.

Qingsong Wang, Jiaxing He, Bingzhe Hou + 3 more2026-02-23🔢 math

Quantum-enhanced satellite image classification

Este estudio demuestra que un método híbrido de extracción de características cuánticas, implementado en procesadores de IBM, mejora la precisión de la clasificación de imágenes satelitales hasta un 87%, superando significativamente a los enfoques puramente clásicos como ResNet50.

Qi Zhang, Anton Simen, Carlos Flores-Garrigós + 7 more2026-02-23⚛️ quant-ph

Self-Aware Object Detection via Degradation Manifolds

Este artículo presenta un marco de autoconciencia para la detección de objetos que utiliza variedades de degradación y aprendizaje contrastivo para estructurar el espacio de características según el tipo y severidad de la degradación de la imagen, permitiendo así identificar desviaciones del régimen operativo nominal sin depender de etiquetas de degradación ni de la confianza del detector.

Stefan Becker, Simon Weiss, Wolfgang Hübner + 1 more2026-02-23💻 cs

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Este trabajo presenta un modelo de mundo de video centrado en el humano que utiliza la generación de video interactiva con control de manos y cámara para crear entornos virtuales inmersivos que responden al movimiento real del usuario, demostrando una mayor percepción de control y rendimiento en tareas en comparación con métodos anteriores.

Linxi Xie, Lisong C. Sun, Ashley Neall + 3 more2026-02-23💻 cs

Spatio-Spectroscopic Representation Learning using Unsupervised Convolutional Long-Short Term Memory Networks

Este trabajo presenta un marco de aprendizaje profundo no supervisado basado en redes neuronales convolutivas de memoria a corto y largo plazo (ConvLSTM) para extraer representaciones de características espaciales y espectroscópicas de aproximadamente 9000 galaxias del sondeo MaNGA, demostrando su eficacia al identificar características científicamente relevantes en una muestra de núcleos galácticos activos (AGN).

Kameswara Bharadwaj Mantha, Lucy Fortson, Ramanakumar Sankar + 8 more2026-02-23🔭 astro-ph

The Geometry of Noise: Why Diffusion Models Don't Need Noise Conditioning

Este artículo resuelve la paradoja de los modelos generativos autónomos al demostrar que su estabilidad se logra mediante un flujo de gradiente riemanniano sobre una Energía Marginal, donde un campo vectorial invariante en el tiempo incorpora implícitamente una métrica conforme que contrarresta las singularidades geométricas, evitando así el colapso catastrófico asociado a las parametrizaciones de predicción de ruido.

Mojtaba Sahraee-Ardakan, Mauricio Delbracio, Peyman Milanfar2026-02-23⚡ eess

SARAH: Spatially Aware Real-time Agentic Humans

El paper presenta SARAH, un método causal en tiempo real que habilita agentes conversacionales con conciencia espacial en entornos de realidad virtual, logrando movimientos corporales naturales sincronizados con el habla y la posición del usuario a más de 300 FPS.

Evonne Ng, Siwei Zhang, Zhang Chen + 2 more2026-02-23💻 cs

Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

El artículo presenta MemStream, un enfoque que escala el presupuesto de tokens y utiliza una estrategia de selección adaptativa junto con un sistema de expertos de mezcla sin entrenamiento para mejorar la comprensión de videos en streaming y el razonamiento en preguntas y respuestas (VQA), logrando mejoras significativas en benchmarks como CG-Bench, LVBench y VideoMME.

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam + 2 more2026-02-23💻 cs

GRIHA: Synthesizing 2-Dimensional Building Layouts from Images Captured using a Smart Phone

El artículo presenta GRIHA, un marco de trabajo eficiente que genera planos de planta 2D de interiores utilizando únicamente imágenes RGB capturadas con teléfonos inteligentes y tecnología SLAM integrada (ARCore), superando así las limitaciones de hardware especializado y la necesidad de imágenes panorámicas sin oclusiones de los métodos existentes.

Shreya Goyal, Naimul Khan, Chiranjoy Chattopadhyay + 1 more2026-02-20💻 cs

Knowledge driven Description Synthesis for Floor Plan Interpretation

Este artículo presenta dos modelos, DSIC y TBDG, que utilizan redes neuronales profundas para generar descripciones flexibles y detalladas de planos arquitectónicos a partir de imágenes, superando las limitaciones de rigidez y falta de detalle de los métodos existentes mediante la síntesis de texto basada en claves visuales y palabras clave.

Shreya Goyal, Chiranjoy Chattopadhyay, Gaurav Bhatnagar2026-02-20💻 cs

MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints

El artículo presenta MotionHint, un algoritmo de odometría visual monocular auto-supervisado que utiliza un modelo de movimiento basado en redes neuronales (PPnet) para guiar a los sistemas existentes y reducir significativamente el error de trayectoria absoluta en el conjunto de datos KITTI.

Cong Wang, Yu-Ping Wang, Dinesh Manocha2026-02-20💻 cs

Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar

Este artículo presenta {\name}, un método que utiliza puntos neuronales guiados por la superficie y mapeo UV de alta resolución para generar avatares volumétricos de cabeza fotorrealistas y dinámicos, superando las limitaciones de las técnicas anteriores en regiones faciales complejas y estructuras delgadas mediante innovaciones que mejoran la eficiencia de entrenamiento y renderizado.

Cong Wang, Di Kang, Yan-Pei Cao + 3 more2026-02-20💻 cs

← Anterior Siguiente →