cs.CV artículos | Gist.Science

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

El artículo presenta SC-VLA, un modelo de visión-lenguaje-acción que logra auto-mejora mediante una imaginación de mundo dispersa y un módulo de refinamiento de acciones en línea, superando a los enfoques existentes en tareas de manipulación robótica con mayor eficiencia y tasa de éxito tanto en simulación como en entornos reales.

Chenyv Liu, Wentao Tan, Lei Zhu + 4 more2026-02-26🤖 cs.AI

Axial-Centric Cross-Plane Attention for 3D Medical Image Classification

Este trabajo propone una arquitectura de atención cruzada centrada en el plano axial que, al imitar el flujo de interpretación clínica y aprovechar un modelo fundacional médico, supera a los métodos existentes en la clasificación de imágenes médicas 3D al capturar las dependencias asimétricas entre los planos anatómicos.

Doyoung Park, Jinsoo Kim, Lohendran Baskaran2026-02-26💻 cs

Lie Flow: Video Dynamic Fields Modeling and Predicting with Lie Algebra as Geometric Physics Principle

El artículo presenta LieFlow, un marco de representación radiante dinámica que modela el movimiento en el grupo de Lie SE(3) para lograr una consistencia geométrica y física superior en la síntesis de vistas y la coherencia temporal de escenas 4D complejas en comparación con los métodos basados en NeRF.

Weidong Qiao, Wangmeng Zuo, Hui Li2026-02-26💻 cs

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

El artículo presenta la VCC-Net, una red de diagnóstico colaborativo guiada por la cognición visual que integra las trazas de búsqueda visual de los radiólogos con la inferencia del modelo para mejorar la precisión, la interpretabilidad y la alineación clínica en el diagnóstico de radiografías de tórax.

Shaoxuan Wu, Jingkun Chen, Chong Ma + 3 more2026-02-26🤖 cs.AI

HybridINR-PCGC: Hybrid Lossless Point Cloud Geometry Compression Bridging Pretrained Model and Implicit Neural Representation

El artículo presenta HybridINR-PCGC, un marco híbrido innovador que combina modelos preentrenados y representaciones neuronales implícitas para lograr una compresión de geometría de nubes de puntos sin pérdidas con mayor eficiencia y robustez frente a métodos existentes.

Wenjie Huang, Qi Yang, Shuting Xia + 3 more2026-02-26💻 cs

Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping

El artículo presenta MoGaF, un marco basado en 4D Gaussian Splatting que utiliza agrupación y optimización conscientes del movimiento para lograr una extrapolación de escenas dinámicas a largo plazo con mayor coherencia espacial, plausibilidad física y estabilidad temporal que los métodos existentes.

Junmyeong Lee, Hoseung Choi, Minsu Cho2026-02-26💻 cs

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

Este artículo presenta E-comIQ-ZH, un marco que incluye el primer dataset y benchmark automatizado con razonamiento paso a paso para evaluar de manera precisa y alineada con expertos la calidad de los carteles de comercio electrónico en chino, superando las limitaciones de las métricas actuales.

Meiqi Sun, Mingyu Li, Junxiong Zhu2026-02-26💻 cs

SF3D-RGB: Scene Flow Estimation from Monocular Camera and Sparse LiDAR

El artículo presenta SF3D-RGB, una arquitectura de aprendizaje profundo que estima el flujo de escena combinando imágenes monoculares y nubes de puntos LiDAR dispersas mediante un módulo de emparejamiento gráfico y refinamiento residual, logrando mayor precisión y eficiencia que los métodos de un solo modo o fusión existentes.

Rajai Alhimdiat, Ramy Battrawy, René Schuster + 2 more2026-02-26💻 cs

Brain Tumor Segmentation with Special Emphasis on the Non-Enhancing Brain Tumor Compartment

Este artículo presenta una arquitectura de aprendizaje profundo basada en U-Net para segmentar tumores cerebrales en diversas modalidades de resonancia magnética, con un énfasis especial en el compartimento no realzante, el cual, aunque ha sido omitido en desafíos recientes como los de MICCAI, es crucial para predecir la supervivencia del paciente y las zonas de crecimiento tumoral.

T. Schaffer, A. Brawanski, S. Wein + 2 more2026-02-26🤖 cs.LG

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

El artículo presenta una estrategia de dirección de activación multimodal dinámica y sin entrenamiento que mitiga las alucinaciones en los Grandes Modelos de Lenguaje Visual (LVLM) mediante la identificación de subconjuntos específicos de cabezas de atención y la aplicación de vectores de dirección de veracidad sensibles al contexto.

Jianghao Yin, Qin Chen, Kedi Chen + 3 more2026-02-26🤖 cs.AI

SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

El artículo presenta SurGo-R1, un modelo optimizado mediante RLHF con una arquitectura de razonamiento contextual por fases que supera significativamente a los modelos de visión-lingüística generalistas en la identificación de zonas seguras y el razonamiento clínico durante cirugías mínimamente invasivas, respaldado por un nuevo benchmark llamado ResGo.

Guanyi Qin, Xiaozhen Wang, Zhu Zhuo + 7 more2026-02-26🤖 cs.AI

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Este trabajo presenta un método de reconstrucción de imágenes que aprende mapas de nivel de dispersión espacialmente adaptativos para diccionarios convolucionales arbitrarios, logrando invarianza a permutaciones de filtros y mayor robustez ante cambios en la distribución de datos en comparación con enfoques de aprendizaje profundo convencionales.

Joshua Schulz, David Schote, Christoph Kolbitsch + 2 more2026-02-26⚡ eess

Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

Este estudio demuestra que los modelos de aprendizaje profundo para la delimitación de masas forestales logran una precisión comparable utilizando modelos de altura del dosel derivados de fotogrametría aérea en lugar de escaneo láser, lo que permite crear conjuntos de datos más escalables y temporalmente alineados sin necesidad de modelos digitales de terreno adicionales.

Håkon Næss Sandum, Hans Ole Ørka, Oliver Tomic + 1 more2026-02-26💻 cs

Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling

Este trabajo presenta un método innovador para la segmentación de imágenes dentales que combina un codificador de tres etapas con representaciones jerárquicas y un modelado bidireccional de secuencias para superar las limitaciones de los enfoques tradicionales y de los transformadores, logrando así una mayor precisión y eficiencia computacional.

Xinxin Zhao, Jian Jiang, Yan Tian + 5 more2026-02-26💻 cs

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

El artículo presenta TranX-Adapter, un adaptador ligero que mejora la detección de imágenes generadas por IA en modelos multimodales grandes al resolver la dilución de la atención mediante una fusión óptima de transporte y mecanismos de cruz-atención que integran eficazmente características de artefactos y semánticas.

Wenbin Wang, Yuge Huang, Jianqing Xu + 5 more2026-02-26💻 cs

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

El artículo presenta SigVLP, un modelo de pre-entrenamiento auto-supervisado para tomografía computarizada que utiliza incrustaciones de posición rotatorias y alineación texto-volumen a nivel de fragmentos para manejar eficazmente la variabilidad en el tamaño de los volúmenes médicos y mejorar las representaciones adaptativas en diversas tareas de diagnóstico.

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci + 4 more2026-02-26💻 cs

Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation

Este trabajo propone un paradigma de "Estructura-a-Imagen" que utiliza la congruencia de fase y una restricción estructural cruzada para adaptar simulaciones a imágenes reales de colonoscopia, logrando una estimación de profundidad sin supervisión con una reducción del 44,18% en el error cuadrático medio en comparación con métodos existentes.

Juan Yang, Yuyan Zhang, Han Jia + 2 more2026-02-26💻 cs

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

El artículo presenta LiREC-Net, una red de aprendizaje basada en escenas naturales sin objetivos que calibra simultáneamente sensores LiDAR, RGB y de eventos dentro de un marco unificado, logrando un rendimiento competitivo y estableciendo un nuevo estándar para la fusión tri-modal.

Aditya Ranjan Dash, Ramy Battrawy, René Schuster + 1 more2026-02-26💻 cs

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Este trabajo propone un marco de paralelismo híbrido que combina la partición basada en condiciones y la programación de pipelines adaptativa para acelerar significativamente la inferencia de modelos de difusión sin comprometer la calidad de la generación.

Euisoo Jung, Byunghyun Kim, Hyunjin Kim + 2 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

El artículo presenta SAPNet++, una red que mejora la segmentación de instancias guiada por puntos mediante la integración de estrategias de distancia, minería de cajas y afinidad multivariada para resolver la ambigüedad granular y la incertidumbre de los límites, logrando un rendimiento superior en cuatro conjuntos de datos desafiantes.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

← Anterior Siguiente →