cs.CV artículos | Gist.Science

Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

Este trabajo propone un marco eficiente para la detección de anomalías no supervisada que utiliza un modelo autorregresivo espacial sobre las incrustaciones de DINOv3 para capturar dependencias contextuales entre parches, logrando un rendimiento competitivo con una inferencia significativamente más rápida y un menor consumo de memoria en comparación con los métodos existentes.

Ertunc Erdil, Nico Schulthess, Guney Tombak + 1 more2026-03-04💻 cs

The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

El artículo presenta el conjunto de datos Dresden (D4D), un recurso integral que ofrece pares de video endoscópico y geometría de luz estructurada de tejidos abdominales deformables en condiciones quirúrgicas realistas, diseñado para evaluar y desarrollar métodos de reconstrucción 4D, SLAM no rígido y estimación de profundidad.

Reuben Docea, Rayan Younis, Yonghao Long + 10 more2026-03-04💻 cs

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

El artículo presenta VIRGi, un método innovador que permite el recolorado rápido y fotorealista de escenas modeladas con 3D Gaussian Splatting, preservando los efectos dependientes de la vista mediante una arquitectura que separa los componentes difusos y especulares, y que logra propagar ediciones de color en tiempo real a partir de una única imagen modificada.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

El artículo presenta URGT, un transformador de parches múltiples unificado que estima simultáneamente profundidad y normales de alta resolución a partir de una sola imagen monocular, superando las limitaciones de detalle local y consistencia global mediante atención cruzada y una estrategia de muestreo llamada GridMix para lograr resultados de vanguardia y una generalización robusta.

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

El estudio presenta BRIGHT, el primer modelo fundacional especializado en patología mamaria que utiliza un marco colaborativo generalista-especialista entrenado con 210 millones de imágenes para superar a los modelos generalistas existentes en la mayoría de las tareas clínicas de oncología de mama, validando así un paradigma escalable para el desarrollo de modelos específicos por órgano.

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

Este trabajo presenta EduVQA, un nuevo marco de evaluación y el primer conjunto de datos EduAIGV-1k diseñado para medir la calidad perceptual y la alineación con el prompt de videos generados por IA para la enseñanza de matemáticas a niños, introduciendo un módulo S2D-MoE que supera a los métodos existentes.

Baoliang Chen, Xinlong Bu, Lingyu Zhu + 2 more2026-03-04💻 cs

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

El artículo presenta TikZilla, un modelo de lenguaje pequeño que mejora la generación de gráficos científicos en TikZ a partir de texto mediante el uso del nuevo dataset DaTikZ-V4 y un enfoque de entrenamiento en dos etapas que combina ajuste fino supervisado con aprendizaje por refuerzo basado en recompensas semánticas.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference

El artículo presenta TinyIceNet, una red de segmentación semántica compacta y optimizada para FPGA que permite el procesamiento en órbita de imágenes SAR de Sentinel-1 para la detección de hielo marino, logrando un equilibrio eficiente entre precisión y bajo consumo energético en comparación con las soluciones basadas en GPU.

Mhd Rashed Al Koutayni, Mohamed Selim, Gerd Reis + 2 more2026-03-04🤖 cs.AI

AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis

El artículo presenta AWDiff, un marco de difusión basado en transformada wavelet a trous y condicionado semánticamente por BioMedCLIP, diseñado para sintetizar imágenes de ultrasonido pulmonar de alta fidelidad que preservan estructuras finas críticas y mitigan la escasez de datos.

Maryam Heidari, Nantheera Anantrasirichai, Steven Walker + 2 more2026-03-04💻 cs

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

El artículo presenta RL3DEdit, un marco de aprendizaje por refuerzo que aprovecha las señales de recompensa derivadas del modelo fundacional 3D VGGT para optimizar la edición de escenas 3D mediante modelos de difusión 2D, logrando así una consistencia multivista estable y de alta calidad sin necesidad de datos de entrenamiento supervisados.

Jiyuan Wang, Chunyu Lin, Lei Sun + 8 more2026-03-04🤖 cs.AI

Kling-MotionControl Technical Report

Kling-MotionControl es un marco unificado basado en DiT que logra una animación de personajes holística, robusta y expresiva mediante la orquestación de representaciones de movimiento adaptadas al cuerpo, rostro y manos, garantizando la preservación de la identidad, la generalización entre diferentes personajes y una aceleración de inferencia superior a 10 veces.

Kling Team, Jialu Chen, Yikang Ding + 21 more2026-03-04💻 cs

Conditioned Activation Transport for T2I Safety Steering

Este artículo presenta Conditioned Activation Transport (CAT), un marco que utiliza mapas de transporte no lineales condicionados geométricamente para reducir la generación de contenido inseguro en modelos de texto a imagen sin comprometer la calidad de las imágenes benignas.

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński + 3 more2026-03-04🤖 cs.AI

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Este trabajo presenta MoD-DPO, un marco de optimización de preferencias que mitiga las alucinaciones cruzadas en modelos de lenguaje multimodal mediante la regularización de la desconexión de modalidades y la penalización de los sesgos textuales, logrando así una mayor precisión perceptiva y resistencia a las alucinaciones.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

Chain of World: World Model Thinking in Latent Motion

El artículo presenta CoWVLA, un nuevo paradigma de modelo de visión-idioma-acción que unifica el razonamiento temporal de los modelos del mundo con una representación de movimiento latente disociada para lograr un aprendizaje visuomotor más eficiente y preciso en robótica.

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

El artículo presenta ACE-Brain-0, un cerebro fundacional generalista que utiliza la inteligencia espacial como andamio universal para unificar el razonamiento espacial, la conducción autónoma y la manipulación robótica en un único modelo multimodal, logrando un alto rendimiento en 24 benchmarks mediante una nueva metodología de especialización y reconciliación.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

El artículo presenta COP-GEN, un transformador difusivo latente multimodal diseñado para generar distribuciones estocásticas de datos de observación terrestre que capturan la incertidumbre y variabilidad inherentes en las relaciones entre sensores, permitiendo traducciones flexibles entre modalidades y la completación de datos sin necesidad de reentrenamiento específico.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

El artículo introduce UniG2U-Bench, un benchmark integral que revela que, aunque los modelos multimodales unificados suelen tener un rendimiento inferior a sus contrapartes puramente visuales-lingüísticas en tareas generales, la generación intermedia mejora significativamente la comprensión en dominios específicos como la inteligencia espacial y el razonamiento multi-etapa, lo que subraya la necesidad de datos de entrenamiento más diversos y nuevos paradigmas.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

DuoMo es un método generativo que reconstruye el movimiento humano en coordenadas del mundo a partir de videos no restringidos y ruidosos, utilizando dos modelos de difusión para factorizar el aprendizaje en estimación en cámara y refinamiento global, logrando así un rendimiento superior al estado del arte sin depender de modelos paramétricos.

Yufu Wang, Evonne Ng, Soyong Shin + 8 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR es una arquitectura novedosa que escala la reconstrucción 3D densa a secuencias de video extremadamente largas mediante un módulo de memoria híbrido que combina entrenamiento en tiempo de prueba y atención de ventana deslizante, logrando una reconstrucción globalmente consistente sin post-optimización y superando significativamente a los métodos anteriores.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Este artículo presenta un estudio empírico de preentrenamiento multimodal desde cero que demuestra cómo la arquitectura Transfusion con MoE, combinada con representaciones visuales óptimas, revela sinergias entre modalidades, capacidades emergentes de modelado del mundo y una asimetría en las leyes de escalado que la visión requiere más datos que el lenguaje.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

← Anterior Siguiente →