cs.CV artículos | Gist.Science

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Este trabajo propone una estrategia de entrenamiento post-inicial basado en aprendizaje por refuerzo, que utiliza una optimización de política grupal adaptada (GRPO) y recompensas híbridas para habilitar la generación intercalada de texto e imágenes en modelos unificados sin depender de grandes conjuntos de datos específicos.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudio presenta un análisis exhaustivo y unificado de diversos métodos de imagen no lineal de tiempo de vuelo (ToF NLOS), estableciendo un marco común de formulación y hardware para evaluar sus similitudes, diferencias y limitaciones de rendimiento, con el objetivo de servir como referencia para comparaciones objetivas en futuras investigaciones.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

El artículo presenta GeoSolver, un marco innovador que mejora el razonamiento paso a paso en la interpretación de teledetección mediante el uso de un modelo de recompensa de proceso (GeoPRM) y un algoritmo de aprendizaje por refuerzo (Process-Aware Tree-GRPO) para lograr un escalado robusto en el tiempo de prueba y alcanzar el estado del arte en diversas pruebas.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

El artículo presenta GeoAlignCLIP, un marco unificado que mejora la alineación visión-idioma en teledetección mediante el aprendizaje de consistencia multi-granular y un nuevo conjunto de datos (RSFG-100k), logrando un rendimiento superior en tareas de detalle fino en comparación con los métodos existentes.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Este trabajo introduce el paradigma de Modelado Lenguaje-Panorama (PLM) y el conjunto de datos PanoVQA para escenarios adversos, proponiendo un módulo de atención dispersa panorámica que permite a los modelos de visión-lingüística existentes procesar imágenes de 360° de manera holística, superando las limitaciones de los enfoques basados en imágenes de campo estrecho.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

El artículo presenta BinaryAttention, un método que binariza las consultas y claves en los transformadores de visión y difusión para lograr una atención de 1 bit mediante operaciones bit a bit y un sesgo aprendible, logrando más del doble de velocidad que FlashAttention2 sin sacrificar la precisión.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

El artículo presenta ParTY, un marco novedoso que mejora la síntesis de movimiento texto-a-movimiento mediante una red guiada por partes, una conexión textual consciente de las partes y una fusión holística-particular, logrando así generar movimientos corporales coherentes que reflejan con precisión acciones específicas de partes del cuerpo.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Este artículo propone un método de clasificación de imágenes inspirado en los movimientos sacádicos humanos que utiliza los mapas de atención de un Vision Transformer (DINO) para focalizar el procesamiento en regiones clave, logrando un rendimiento comparable o superior al de la visión completa con mayor eficiencia.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Este artículo propone un marco de superresolución de MRI de cero disparos basado en representaciones gaussianas explícitas y física de señales, que equilibra la eficiencia computacional y la fidelidad de los datos sin requerir conjuntos de entrenamiento emparejados.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

Decoder-Free Distillation for Quantized Image Restoration

El artículo presenta QDR, un marco de distilación libre de decodificador que combina auto-distilación, reponderación de magnitud aprendible y un modelo ligero para superar los cuellos de botella de la cuantización en la restauración de imágenes, logrando un rendimiento cercano al de precisión completa y alta velocidad en dispositivos de borde.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho Lee2026-03-11💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Este trabajo presenta un marco interpretable basado en modelos de visión y lenguaje para la generación y evaluación de datos sintéticos en teledetección, introduciendo el dataset ARAS400k que demuestra que la combinación de datos reales y sintéticos mejora consistentemente el rendimiento en tareas de segmentación semántica y descripción de imágenes.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

El artículo presenta X-GS, un marco abierto y extensible que unifica técnicas de 3DGS con modelos multimodales mediante un pipeline eficiente llamado X-GS-Perceiver para generar mapas 3D semánticos en tiempo real que habilitan tareas avanzadas como la detección de objetos y la generación de descripciones.

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

El artículo presenta OTPL-VIO, un sistema de odometría visual-inercial estéreo que mejora la precisión y robustez en entornos con baja textura y cambios de iluminación mediante la asociación global de líneas basada en transporte óptimo con descriptores profundos sin entrenamiento y una ponderación adaptativa de la incertidumbre.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

El artículo presenta KV-Lock, un marco de entrenamiento gratuito para modelos de difusión de video basados en DiT que sincroniza dinámicamente el bloqueo de claves y valores del fondo con la escala de guía condicional para mejorar la calidad del primer plano manteniendo la consistencia del fondo.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

El artículo presenta DiffWind, un marco de modelado diferenciable basado en física que utiliza la simulación de partículas y restricciones de dinámica de fluidos para reconstruir y simular con alta precisión la interacción entre el viento y objetos deformables a partir de observaciones de video.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

VarSplat es un sistema de SLAM RGB-D basado en 3D Gaussian Splatting que mejora la robustez y la precisión en la estimación de pose y reconstrucción al aprender explícitamente la varianza de incertidumbre por gaussiana para guiar el rastreo y la optimización hacia regiones fiables.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Este artículo presenta FootMR, un método de refinamiento que mejora la reconstrucción de movimientos finos de los pies en la captura de movimiento humano monocular sin marcadores al levantar secuencias de keypoints 2D a 3D utilizando datos de captura de movimiento a gran escala, y introduce el conjunto de datos MOOF para evaluar este rendimiento.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Este trabajo presenta AutoViVQA, un conjunto de datos a gran escala construido automáticamente para la Respuesta Visual a Preguntas en vietnamita, donde se exploran arquitecturas basadas en transformers y se comparan sistemáticamente métricas de evaluación automáticas en entornos multilingües.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

El artículo presenta DRIFT, un modelo transformador de doble representación que fusiona características locales y globales mediante una arquitectura de dos vías para mejorar la percepción en la conducción automatizada utilizando nubes de puntos de radar 4D, superando a los métodos existentes en tareas de detección de objetos y estimación de carreteras.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

← Anterior Siguiente →