cs.CV artículos | Gist.Science

4D Monocular Surgical Reconstruction under Arbitrary Camera Motions

El artículo presenta Local-EndoGS, un marco de reconstrucción 4D de alto rendimiento para secuencias endoscópicas monocular con movimientos de cámara arbitrarios, que supera las limitaciones de los métodos actuales mediante una representación global progresiva basada en ventanas y una estrategia robusta de inicialización que integra geometría multivista y priores de profundidad monocular.

Jiwei Shan, Zeyu Cai, Cheng-Tai Hsieh + 5 more2026-02-20💻 cs

QuPAINT: Physics-Aware Instruction Tuning Approach to Quantum Material Discovery

Este trabajo presenta QuPAINT, un marco multimodal que combina un generador de datos sintéticos basado en física (Synthia), un conjunto de instrucciones a gran escala (QMat-Instruct) y un mecanismo de atención informado por física para mejorar la detección y caracterización de materiales cuánticos bidimensionales en imágenes de microscopía óptica, validado mediante el nuevo benchmark QF-Bench.

Xuan-Bac Nguyen, Hoang-Quan Nguyen, Sankalp Pandey + 4 more2026-02-20💻 cs

FoundationPose-Initialized 3D-2D Liver Registration for Surgical Augmented Reality

Este trabajo presenta un pipeline de registro 3D-2D para cirugía hepática con realidad aumentada que, al integrar mapas de profundidad con un estimador de pose fundacional y sustituir los modelos de elementos finitos por un algoritmo NICP no rígido, logra una precisión clínicamente relevante con menor complejidad de ingeniería.

Hanyuan Zhang, Lucas He, Runlong He + 5 more2026-02-20💻 cs

LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

El artículo presenta LATA, un método de adaptación transductiva libre de entrenamiento y etiquetas que utiliza un grafo de vecinos más cercanos y una puntuación conformal consciente de fallos para mejorar la eficiencia y el equilibrio de las clases en las predicciones de modelos de visión-lingüística médica, garantizando al mismo tiempo una cobertura válida bajo cambios de dominio.

Behzad Bozorgtabar, Dwarikanath Mahapatra, Sudipta Roy + 3 more2026-02-20💻 cs

Neural Implicit Representations for 3D Synthetic Aperture Radar Imaging

Este artículo presenta un enfoque de vanguardia para la imagenología SAR 3D que utiliza representaciones implícitas neuronales para modelar superficies de dispersión y regularizar la reconstrucción a partir de datos esparsos, demostrando su eficacia tanto en datos simulados como medidos.

Nithin Sugavanam, Emre Ertin2026-02-20⚡ eess

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

RetouchIQ es un marco que utiliza agentes de modelos de lenguaje multimodal (MLLM) guiados por un modelo de recompensa generalista para realizar edición de imágenes basada en instrucciones, superando las limitaciones de las recompensas tradicionales mediante un aprendizaje por refuerzo que mejora la coherencia semántica y la calidad perceptual.

Qiucheng Wu, Jing Shi, Simon Jenni + 4 more2026-02-20💻 cs

FR-GESTURE: An RGBD Dataset For Gesture-based Human-Robot Interaction In First Responder Operations

Este artículo presenta FR-GESTURE, el primer conjunto de datos RGBD diseñado específicamente para el control de vehículos terrestres no tripulados mediante gestos en operaciones de primeros respondedores, el cual incluye 3312 pares de imágenes capturadas bajo diversas condiciones y se pone a disposición pública para fomentar la investigación en interacción humano-robot.

Konstantinos Foteinos, Georgios Angelidis, Aggelos Psiris + 3 more2026-02-20💻 cs

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Este trabajo presenta ArtToMus, un marco innovador que genera música directamente a partir de obras de arte sin depender de descripciones textuales, apoyado por el nuevo conjunto de datos ArtSound de más de 100.000 pares de imagen-sonido.

Ivan Rinaldi, Matteo Mendula, Nicola Fanelli + 4 more2026-02-20💻 cs

Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

Este artículo propone un marco unificado de descubrimiento geoespacial que integra aprendizaje activo y meta-aprendizaje en línea, guiado por la relevancia de conceptos latentes para optimizar el muestreo y la generalización en entornos dinámicos con datos escasos, demostrando su eficacia en la detección de contaminantes PFAS.

Jowaria Khan, Anindya Sarkar, Yevgeniy Vorobeychik + 1 more2026-02-20🤖 cs.AI

CORAL: Correspondence Alignment for Improved Virtual Try-On

El artículo presenta CORAL, un marco basado en DiT que mejora el probador virtual mediante el alineamiento explícito de las correspondencias persona-ropa en la atención 3D, lo que resulta en una mejor preservación de detalles y formas globales.

Jiyoung Kim, Youngjin Shin, Siyoon Jin + 6 more2026-02-20💻 cs

IntRec: Intent-based Retrieval with Contrastive Refinement

IntRec es un marco de recuperación de objetos interactivo que mejora la precisión en escenas complejas mediante un estado de intención que utiliza memoria dual y alineación contrastiva para refinar las predicciones con retroalimentación del usuario, superando significativamente a los métodos existentes en benchmarks como LVIS.

Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger + 1 more2026-02-20💻 cs

Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

El artículo presenta M-Attack-V2, una mejora modular sobre M-Attack que supera las limitaciones de los ataques adversarios de caja negra en modelos de visión y lenguaje grandes mediante alineación multi-corte y un conjunto de parches refinado, logrando tasas de éxito sin precedentes en modelos de vanguardia como Claude-4.0, Gemini-2.5-Pro y GPT-5.

Xiaohan Zhao, Zhaoyi Li, Yaxin Luo + 2 more2026-02-20💬 cs.CL

When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Este trabajo introduce LIBERO-CF, el primer benchmark contrafactual para evaluar la capacidad de los modelos Visión-Lenguaje-Acción (VLAs) de seguir instrucciones en lugar de depender de atajos visuales, y propone la Guía de Acción Contrafactual (CAG), un método de inferencia sin entrenamiento que mejora significativamente la precisión del seguimiento lingüístico y el éxito de las tareas al combinar una política estándar con un módulo de visión-acción no condicionado al lenguaje.

Yu Fang, Yuchun Feng, Dong Jing + 5 more2026-02-20💻 cs

Prompt When the Animal is: Temporal Animal Behavior Grounding with Positional Recovery Training

Este trabajo propone Port, un marco de entrenamiento de recuperación posicional que mejora la detección de comportamientos animales mediante la recuperación de secuencias de etiquetas corruptas y un método de doble alineación, logrando un rendimiento destacado en el conjunto de datos Animal Kingdom y en el desafío ICME 2024.

Sheng Yan, Xin Du, Zongying Li + 3 more2026-02-19🤖 cs.AI

Less is More: Skim Transformer for Light Field Image Super-resolution

El artículo presenta SkimLFSR, una arquitectura eficiente basada en el principio "menos es más" que utiliza un Transformador de Muestreo (Skim Transformer) con múltiples ramas para procesar subconjuntos seleccionados de imágenes de apertura subaperturada, logrando así un rendimiento superior en la superresolución de imágenes de campo de luz con una reducción significativa de parámetros y una mayor adaptabilidad.

Zeke Zexi Hu, Haodong Chen, Hui Ye + 4 more2026-02-19⚡ eess

Ctrl-GenAug: Controllable Generative Augmentation for Medical Sequence Classification

Este trabajo presenta Ctrl-GenAug, un marco de aumento generativo controlable que sintetiza secuencias médicas semánticamente y secuencialmente personalizadas mientras filtra muestras ruidosas, mejorando así el rendimiento de la clasificación en secuencias médicas, especialmente en poblaciones subrepresentadas y condiciones fuera de dominio.

Xinrui Zhou, Yuhao Huang, Haoran Dou + 13 more2026-02-19🤖 cs.LG

Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?

El artículo presenta Fused-Planes, una representación de objetos que mejora la eficiencia de las Tri-Planes al compartir planos base globales y capturar similitudes estructurales, logrando una velocidad de entrenamiento 7,2 veces mayor y un uso de memoria 3,2 veces menor sin sacrificar la calidad de renderizado.

Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi + 5 more2026-02-19💻 cs

VeGaS: Video Gaussian Splatting

El artículo presenta VeGaS, un nuevo modelo de salpicadura gaussiana para video que utiliza una familia de distribuciones gaussianas plegadas para superar las limitaciones de edición de métodos anteriores, logrando una reconstrucción de cuadros superior y permitiendo modificaciones realistas en los datos de video.

Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil + 3 more2026-02-19💻 cs

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

El artículo presenta MC-LLaVA, un modelo de visión y lenguaje personalizado que supera las limitaciones de los enfoques actuales al integrar múltiples conceptos simultáneamente mediante un ajuste fino de instrucciones, prompts personalizados y un nuevo conjunto de datos de alta calidad para mejorar la interacción con el usuario.

Ruichuan An, Sihan Yang, Renrui Zhang + 10 more2026-02-19🤖 cs.AI

A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation

Esta revisión sintetiza los conceptos fundamentales de la cuantificación de incertidumbre bayesiana en la segmentación de imágenes probabilística, estableciendo un marco unificado que analiza su impacto en tareas clave, identifica desafíos críticos y ofrece directrices prácticas para el desarrollo de modelos más robustos y confiables.

M. M. A. Valiuddin, R. J. G. van Sloun, C. G. A. Viviers + 2 more2026-02-19⚡ eess

← Anterior Siguiente →