cs.CV artículos | Gist.Science

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

El artículo presenta ReactDance, un marco de difusión que utiliza una representación latente jerárquica con cuantización escalar finita (HFSQ) y muestreo de contexto local por bloques (BLC) para generar danzas reactivas de alta fidelidad y coherencia a largo plazo.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

El artículo presenta RESAR-BEV, un marco de fusión cámara-radar explicable y progresivo para la segmentación en vista cenital que supera a los métodos existentes mediante un aprendizaje autoregresivo residual, una representación robusta de BEV y una supervisión desacoplada, logrando un rendimiento de vanguardia (54.0% mIoU) y tiempo real (14.6 FPS) en el conjunto de datos nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Este artículo presenta DHECA-SuperGaze, un método de aprendizaje profundo que mejora la estimación de la mirada en entornos no controlados mediante la integración de superresolución y un módulo de atención cruzada dual cabeza-ojo, corrigiendo además errores en el conjunto de datos Gaze360 y logrando un rendimiento superior al estado del arte en múltiples métricas y configuraciones.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

El artículo presenta OSPO, un marco de optimización de preferencias auto-mejorable centrado en objetos que, sin depender de datos o modelos externos, utiliza máscaras basadas en atención y una pérdida SimPO ponderada por objetos para mejorar significativamente la alineación texto-imagen y reducir las alucinaciones en la generación de imágenes.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

Este artículo presenta EDITOR, un método de inversión de prompts para modelos de difusión texto-a-imagen que combina la inicialización con modelos de descripción de imágenes, la refinación en el espacio latente y la conversión a texto, logrando una superioridad en similitud visual, alineación textual e interpretabilidad frente a técnicas existentes, además de habilitar diversas aplicaciones creativas y analíticas.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

El artículo presenta HypeVPR, un marco de aprendizaje jerárquico en espacio hiperbólico diseñado para mejorar el reconocimiento de lugares entre imágenes panorámicas y de perspectiva mediante la captura eficiente de estructuras jerárquicas, lo que permite un control flexible entre precisión y eficiencia mientras se reduce el almacenamiento y se acelera la recuperación.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

El IGN presenta FLAIR-HUB, el conjunto de datos de uso del suelo multiesensorial más grande con anotaciones de muy alta resolución (20 cm) que integra seis modalidades alineadas para abordar los desafíos de la clasificación de cultivos y cobertura terrestre mediante aprendizaje profundo y fusión multimodal.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este trabajo presenta HSG-12M, un conjunto de datos a gran escala de 16,7 millones de multigrafos espaciales derivados de los espectros de energía de cristales no hermitianos, generado mediante la herramienta automatizada Poly2Graph para superar la falta de datos de alta calidad en física cuántica y fomentar el aprendizaje geométrico avanzado en grafos.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

InterActHuman es un marco novedoso que supera las limitaciones de los métodos existentes al permitir la animación de video de múltiples conceptos con interacciones humanas y objeto-objeto, mediante un control espacial explícito que vincula condiciones multimodales (texto, imagen y audio) a regiones específicas de cada identidad.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

AutoV es un marco ligero que mejora la comprensión de modelos de visión y lenguaje grandes (LVLMs) mediante la recuperación automática de la mejor prompt visual para cada instancia, utilizando pérdidas de predicción como señal de supervisión para superar las limitaciones del diseño manual de prompts.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Este trabajo presenta TreeBench, un nuevo benchmark diseñado para evaluar el razonamiento visual fundamentado mediante evidencia trazable, y propone TreeVGR, un paradigma de entrenamiento que mejora significativamente el rendimiento de los modelos en tareas de localización y razonamiento complejo.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

Este trabajo presenta GMLN-BTS, una red ligera basada en grafos para la segmentación de tumores cerebrales que, mediante un codificador adaptativo, un módulo de interacción multimodal y un refinamiento de vóxeles, logra un rendimiento de vanguardia con solo 4,58 millones de parámetros, reduciendo la complejidad computacional en un 98% en comparación con los modelos Transformer 3D convencionales.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

El artículo presenta EDA, un marco teórico unificado que supera las limitaciones de los modelos de difusión basados en ruido gaussiano fijo al permitir el uso de ruido arbitrario para tareas de restauración de imágenes, logrando resultados competitivos en diversas aplicaciones médicas y naturales con un número reducido de pasos de muestreo.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

El artículo presenta SAMPO, un marco de optimización de preferencias que alinea los modelos fundacionales de visión con la intención clínica de segmentación en imágenes de patología, mejorando la precisión y la robustez frente a prompts imperfectos mediante la adaptación de la Optimización Directa de Preferencias (DPO) y estrategias de aprendizaje híbridas.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

Este artículo propone SRTrack, un marco de ajuste fino regularizado por significancia que optimiza los rastreadores multimodales al equilibrar la plasticidad y la estabilidad mediante la incorporación de la importancia intrínseca de los parámetros, logrando un rendimiento superior en diversos benchmarks.

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Este artículo presenta un método de navegación para cuadricópteros basado en aprendizaje por refuerzo que utiliza información privilegiada y mapas de tiempo de llegada para superar grandes obstáculos, logrando un 86% de éxito en simulaciones y validándose con vuelos reales sin colisiones en entornos exteriores complejos.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Este artículo presenta un sistema fiable para la localización de objetos lejanos en tareas de vigilancia crítica, como la monitorización de incendios forestales con drones, demostrando que la combinación de triangulación multivista o filtros de partículas con segmentación de imágenes y recursos computacionales a bordo permite estimar la posición, forma y incertidumbre de los objetos sin necesidad de reconstrucción 3D compleja ni configuraciones de sensores especializadas.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

BridgeDrive es una nueva política de planificación de trayectorias en bucle cerrado para la conducción autónoma que utiliza un puente de difusión guiado por anclajes para transformar trayectorias básicas en planes refinados y seguros, logrando un rendimiento superior al estado del arte en evaluaciones de conducción en tiempo real.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

El artículo presenta SphereAR, un modelo de generación de imágenes autoregresivo que utiliza latentes hiperesféricos para estabilizar la decodificación y eliminar el colapso de varianza, logrando así un nuevo estado del arte en la generación de imágenes de ImageNet que supera a modelos de difusión y generación enmascarada en escalas comparables.

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

Este artículo presenta un nuevo enfoque para la superresolución continua de video espacio-temporal que codifica la secuencia como un Campo de Fourier de Video 3D (VFF), permitiendo una muestreo flexible y libre de aliasing que supera a los métodos existentes en nitidez, consistencia temporal y eficiencia computacional.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

← Anterior Siguiente →