cs.CV artículos | Gist.Science

G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior

El artículo presenta G4Splat, un método que utiliza un prior generativo guiado por geometría precisa derivada de estructuras planas para superar las limitaciones de consistencia multi-vista y reconstrucción en regiones no observadas, logrando así una recuperación de escenas 3D de alta calidad a partir de entradas de una sola vista o videos no poseídos.

Junfeng Ni, Yixin Chen, Zhifei Yang + 4 more2026-02-27💻 cs

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Este trabajo presenta PoSh, una métrica que utiliza grafos de escena para guiar a los modelos de lenguaje grandes como jueces en la evaluación de descripciones de imágenes detalladas, junto con el nuevo conjunto de datos DOCENT para validar su superioridad frente a métodos existentes y medir el progreso de los modelos en dominios complejos como el arte.

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford + 7 more2026-02-27💬 cs.CL

Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning

Este estudio demuestra que el aprendizaje auto-supervisado permite realizar una clasificación de cobertura terrestre a 1 metro de resolución a escala estatal utilizando solo 1.000 muestras etiquetadas, superando así la barrera de la necesidad de grandes volúmenes de datos de entrenamiento para el mapeo de alta resolución.

Dakota Hester, Vitor S. Martins, Lucas B. Ferreira + 1 more2026-02-27💻 cs

Q $^2$ : Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization

El artículo presenta Q², un marco de entrenamiento que mejora la cuantización de bajo bit en tareas visuales complejas mediante el equilibrio dinámico de gradientes y la alineación de la distribución de atención, logrando ganancias significativas en detección de objetos y segmentación de imágenes sin añadir sobrecarga en la inferencia.

Zhaoyang Wang, Dong Wang2026-02-27🤖 cs.AI

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

El artículo presenta USF-Net, una red neuronal unificada que integra convoluciones de grandes kernels adaptativos y mecanismos de atención de bajo costo para mejorar la extrapolación de secuencias de imágenes de nubes en sistemas fotovoltaicos, superando las limitaciones de los métodos existentes en eficiencia y modelado de dependencias espaciotemporales, y acompañada del lanzamiento del nuevo conjunto de datos ASI-CIS.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

Este trabajo identifica el problema de los "atajos visuales" en los benchmarks existentes de VQA multimodal basado en conocimiento, introduciendo el nuevo benchmark RETINA y el modelo MIMIR para forzar y evaluar la comprensión real de relaciones entre entidades en lugar de depender de coincidencias visuales superficiales.

Dosung Lee, Sangwon Jung, Boyoung Kim + 4 more2026-02-27💻 cs

Diffusion Model in Latent Space for Medical Image Segmentation Task

El artículo presenta MedSegLatDiff, un marco de difusión en espacio latente que combina un autoencoder variacional con un modelo de difusión para lograr una segmentación médica eficiente y probabilística, superando las limitaciones computacionales de los métodos generativos actuales y ofreciendo resultados competitivos en conjuntos de datos clínicos.

Huynh Trinh Ngoc, Toan Nguyen Hai, Ba Luong Son + 1 more2026-02-27🤖 cs.AI

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

El artículo presenta ClimaDrive, un marco de generación de imágenes guiado por semántica que produce datos sintéticos físicamente realistas y diversos en condiciones climáticas para construir el benchmark ClimaOoD, el cual mejora significativamente la generalización y robustez de los modelos de segmentación de anomalías en entornos de conducción autónoma.

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

El artículo presenta VLM-Pruner, un algoritmo de poda de tokens sin entrenamiento que equilibra la redundancia y la dispersión espacial mediante un paradigma de poda centrífuga y un criterio de almacenamiento temporal para mejorar la eficiencia y el rendimiento de los modelos de visión y lenguaje.

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni + 4 more2026-02-27🤖 cs.LG

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

El artículo presenta TIMAR, un marco causal que modela la dinámica de cabezas conversacionales en 3D mediante un enfoque de regresión automática enmascarada a nivel de turno, logrando una mayor coherencia temporal y una reducción significativa en los errores de predicción en comparación con métodos existentes.

Junjie Chen, Fei Wang, Zhihao Huang + 5 more2026-02-27💻 cs

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

El artículo presenta FiNDR, un marco innovador basado en modelos de lenguaje multimodal aumentados con razonamiento que logra el reconocimiento visual de categorías finas sin vocabulario predefinido, superando significativamente a los métodos anteriores y demostrando que las etiquetas curadas por humanos no constituyen un límite superior para el rendimiento.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

El artículo presenta UniPath, un marco de generación de imágenes patológicas impulsado por semántica que supera las limitaciones de la simulación de píxeles mediante el uso de tokens semánticos diagnósticos y control de prototipos, logrando un rendimiento superior y un control semántico preciso gracias a un nuevo corpus de datos y una evaluación especializada.

Minghao Han, Yichen Liu, Yizhou Liu + 5 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

El artículo presenta WebGym, el entorno de código abierto más grande hasta la fecha para entrenar agentes web visuales mediante aprendizaje por refuerzo en casi 300.000 tareas reales, logrando que un modelo adaptado supere significativamente a sistemas propietarios en pruebas de generalización.

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

El artículo presenta ThinkRL-Edit, un marco de aprendizaje por refuerzo centrado en el razonamiento que mejora la edición de imágenes basada en instrucciones mediante la desacoplación del razonamiento visual de la síntesis, la implementación de un muestreo con cadena de pensamiento para explorar hipótesis semánticas y el uso de recompensas binarias más precisas para superar las limitaciones actuales.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

MERGETUNE: Continued Fine-Tuning of Vision-Language Models

El artículo presenta MERGETUNE, una estrategia de ajuste fino continuo que utiliza la conectividad de modo lineal y un sustituto de segundo orden para recuperar el conocimiento preentrenado perdido en modelos de visión y lenguaje adaptados, mejorando así su generalización y robustez sin necesidad de replays de datos ni cambios arquitectónicos.

Wenqing Wang, Da Li, Xiatian Zhu + 1 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

El artículo presenta Molmo2, una nueva familia de modelos de lenguaje visual de código abierto con pesos y datos totalmente accesibles que, gracias a un conjunto de siete nuevos datasets de video y una receta de entrenamiento innovadora, logran un rendimiento superior en la comprensión de video y en tareas de fundamentación espacial (como el seguimiento y la indicación por puntos), superando tanto a los modelos de código abierto existentes como a algunos modelos propietarios.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

A Pragmatic VLA Foundation Model

El artículo presenta LingBot-VLA, un modelo fundacional de visión-lenguaje-acción entrenado con 20.000 horas de datos reales que demuestra una superioridad generalizadora y una eficiencia computacional notable en múltiples plataformas robóticas, acompañada de la publicación abierta de su código, modelo base y datos de evaluación.

Wei Wu, Fan Lu, Yunnan Wang + 22 more2026-02-27💻 cs

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

Este artículo presenta un algoritmo genérico de posicionamiento por luz visible (LC-VLP) que utiliza curvas de Lamé como representación unificada de formas de LED para estimar la pose de la cámara, logrando una mayor precisión y robustez en escenarios heterogéneos en comparación con los métodos actuales.

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

El artículo presenta VQ-Style, un método novedoso que utiliza RVQ-VAEs y aprendizaje contrastivo para desentrelazar eficazmente el contenido y el estilo en datos de movimiento humano, permitiendo la transferencia de estilo sin necesidad de ajuste fino mediante una técnica de intercambio de códigos cuantizados.

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

El artículo presenta OneVision-Encoder, un modelo que alinea la arquitectura de visión con los principios de compresión de los códecs mediante una escasez de parches coordinada, logrando así una mayor eficiencia y precisión en la comprensión multimodal al centrarse exclusivamente en las regiones de alta entropía de la información.

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

← Anterior Siguiente →

cs.CV