cs.CV artículos | Gist.Science

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

El artículo presenta 3D-RFT, un marco pionero que aplica el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) a la comprensión de escenas 3D basadas en video, optimizando directamente los modelos multimodales mediante funciones de recompensa derivadas de métricas de evaluación para lograr un rendimiento superior al estado del arte en tareas de percepción y razonamiento espacial.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

El artículo presenta VideoHV-Agent, un marco multiagente que mejora la comprensión de videos largos reformulando la tarea como un proceso estructurado de generación y verificación de hipótesis, logrando así un rendimiento superior, mayor interpretabilidad y menor costo computacional al evitar la deriva semántica.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Este trabajo presenta Wallaroo, un modelo autoregresivo sencillo que unifica la comprensión, generación y edición multimodal mediante predicción de tokens siguientes, soportando múltiples resoluciones e idiomas, y demostrando un rendimiento competitivo en diversos benchmarks.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

TAPFormer es un marco basado en transformadores que logra un seguimiento robusto de puntos arbitrarios mediante una fusión asíncrona transitoria de frames RGB y flujos de eventos, superando a los métodos existentes en precisión y adaptabilidad bajo condiciones de iluminación y movimiento diversas.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

El artículo presenta MultiGO++, un marco innovador para la reconstrucción 3D de humanos vestidos a partir de una sola imagen que supera las limitaciones de los métodos existentes mediante una colaboración efectiva entre geometría y textura, lograda a través de una síntesis de texturas multi-fuente, un módulo de extracción de forma consciente de regiones y una red de reconstrucción dual.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Este trabajo presenta Lens2Zernike, un marco de aprendizaje profundo consistente con la física que recupera ciegamente parámetros ópticos a partir de una sola imagen borrosa mediante una estrategia de supervisión multi-tarea en tres dominios ópticos, logrando una recuperación de detalles difractivos superior a los métodos existentes.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Este trabajo presenta un estudio a gran escala sobre la Restauración de Imágenes Generativa (GIR) que, mediante una nueva evaluación multidimensional, revela un cambio de paradigma en los modos de fallo (de la escasez a la sobre-generación de detalles) y propone un nuevo modelo de calidad de imagen alineado con la percepción humana para guiar el desarrollo futuro del campo.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

El artículo presenta Tell2Adapt, un marco unificado de adaptación de dominio no supervisado sin fuente que aprovecha un modelo fundacional de visión para mejorar la segmentación de imágenes médicas mediante la regularización de prompts contextuales y el refinamiento de plausibilidad visual, logrando un rendimiento superior en múltiples objetivos anatómicos y dominios.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Este artículo presenta Semap, un nuevo conjunto de datos de referencia, y un marco de segmentación semántica multiscale que demuestra ser generalizable y robusto para procesar colecciones de mapas históricos heterogéneos, superando las limitaciones de los modelos especializados actuales.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Este trabajo propone IRTTA, un método de adaptación en tiempo de prueba que mejora la segmentación de imágenes de tomografía de coherencia óptica y proporciona estimaciones de incertidumbre aprovechando las representaciones intermedias del proceso de reconstrucción mediante un modulator network que ajusta los parámetros de normalización de una red de segmentación congelada.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

El paper presenta CoIn3D, un marco generalizable para la detección 3D de objetos con múltiples cámaras que supera las limitaciones de generalización en configuraciones no vistas al integrar explícitamente priores espaciales mediante modulación de características sensible al espacio y aumento de datos consciente de la cámara.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

Este artículo presenta CLIP-PZSL, un nuevo marco de aprendizaje cero-shot impulsado por CLIP que aborda el problema de las etiquetas ambiguas mediante la minería semántica y una pérdida parcial que identifica progresivamente las etiquetas verdaderas para mejorar la alineación entre instancias y etiquetas.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Este estudio presenta un sistema avanzado de detección de luces azules de emergencia mediante un conjunto de cuatro cámaras de gran angular y el modelo RT-DETR mejorado con un bloque de atención al color, logrando una alta precisión y estimación de ángulos de aproximación para reforzar la seguridad vial y los sistemas ADAS.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

El artículo presenta MI-DETR, un modelo de detección de objetivos infrarrojos pequeños que integra bioinspiración mediante un mapa de movimiento basado en autómatas celulares y una interconexión de vías parvocelular y magnocelular para lograr un rendimiento superior en múltiples conjuntos de datos sin necesidad de etiquetas de movimiento adicionales.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Este artículo presenta UniM, el primer benchmark unificado de 31.000 instancias de alta calidad para evaluar la capacidad de los modelos de lenguaje multimodal grandes de comprender y generar entradas y salidas arbitrariamente intercaladas en siete modalidades, junto con una suite de evaluación y un modelo base agéntico para abordar este desafío.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

MoRe es un transformador de reconstrucción 4D feed-forward eficiente que recupera escenas dinámicas a partir de videos monoculares mediante una estrategia de atención forzada para separar el movimiento de la estructura estática y una atención causal agrupada para garantizar coherencia temporal.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Este artículo presenta un marco innovador para la generación 4D que supera la escasez de datos mediante la transferencia ortogonal de priores espaciales y temporales desde modelos de difusión 3D y de video, integrándolos en un modelo de difusión STD-4D y una representación HexPlane mejorada para lograr una síntesis de alta calidad y consistencia espacio-temporal.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Este artículo propone un marco teórico para atribuciones Shapley en variedad basado en flujos generativos óptimos que minimizan la energía cinética, garantizando invariancia ante reparametrizaciones y superando a los métodos existentes al eliminar artefactos fuera de la variedad mediante una selección de línea base variacional.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

El artículo presenta GEM-TFL, un marco de localización de falsificaciones temporales que cierra la brecha entre la supervisión débil y completa mediante una optimización basada en EM, un refinamiento temporal sin entrenamiento y un módulo de grafos para mejorar la precisión y robustez en la detección de manipulaciones en videos.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

El artículo presenta Diff-ES, un marco de poda estructural para modelos de difusión que utiliza una búsqueda evolutiva para optimizar automáticamente los programas de dispersión por etapas y emplea enrutamiento de pesos eficiente en memoria, logrando así aceleraciones significativas sin sacrificar la calidad de generación.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

← Anterior Siguiente →