cs.CV artículos | Gist.Science

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

El artículo presenta RnG, un Transformer unificado de avance que supera las limitaciones de los modelos de reconstrucción 3D existentes al inferir tanto la geometría visible como la oculta a partir de observaciones parciales mediante un mecanismo de atención causal guiado por la reconstrucción, logrando así un rendimiento de vanguardia en la generación de vistas nuevas y la reconstrucción 3D generalizable en tiempo real.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

El artículo presenta VisNec, un marco de selección de datos que mide la necesidad visual para identificar y priorizar muestras críticas en el ajuste de instrucciones multimodales, logrando un rendimiento superior con una fracción mínima de los datos de entrenamiento.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

CoSMo3D aborda la fragilidad de la segmentación semántica 3D en mundos abiertos al introducir un marco de referencia canónico latente guiado por LLM que alinea datos y estabiliza la percepción de partes funcionales independientemente de la pose, logrando así un nuevo estado del arte en la tarea.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Este trabajo presenta un modelo de lenguaje visual (VLM) ajustado finamente que estima la posición 3D de objetos a partir de imágenes monoculares y comandos de lenguaje natural para mejorar la interacción humano-robot, logrando una precisión mediana de 13 mm y una mejora de cinco veces frente a un modelo base sin ajuste.

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

Este artículo presenta SafeEditBench, un nuevo conjunto de datos para evaluar la generalización de modelos de visión-lingüística bajo diferentes políticas de seguridad, y propone SafeGuard-VL, un método basado en aprendizaje por refuerzo con recompensas verificables que supera las limitaciones de adaptación de los enfoques tradicionales ante políticas cambiantes.

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

AgilePruner es un estudio empírico que analiza las limitaciones de los métodos de poda de tokens visuales basados en atención y diversidad en los Modelos Grandes de Visión y Lenguaje, revelando que la diversidad conservada se correlaciona con alucinaciones y que el rendimiento óptimo depende de la complejidad de la imagen, lo que lleva al desarrollo de un mecanismo de poda adaptativa que mejora el rendimiento y reduce las alucinaciones.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

El desafío MAMA-MIA presenta un nuevo marco de evaluación a gran escala que utiliza datos de múltiples instituciones en Estados Unidos y Europa para superar las limitaciones de generalización y equidad de los modelos actuales de inteligencia artificial en la segmentación de tumores y la predicción de respuesta al tratamiento en resonancia magnética mamaria.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

Este trabajo propone un método que incorpora una modalidad de imagen complementaria (como la tomografía computarizada de rayos X) para guiar modelos de difusión sin necesidad de reentrenarlos, logrando así reconstrucciones de alta calidad a partir de datos escasos en tomografía computarizada de neutrones.

Timofey Efimov, Singanallur Venkatakrishnan, Maliha Hossain + 2 more2026-03-03💻 cs

Certifiable Estimation with Factor Graphs

Este artículo presenta un marco unificado que integra la optimización de grafos de factores con estimación certificable, demostrando que la preservación de la estructura del grafo bajo relajaciones convexas permite implementar métodos de verificación global utilizando las mismas bibliotecas y flujos de trabajo maduros ya empleados en robótica y visión por computadora.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

El artículo presenta FoSS, un marco de doble rama que integra el razonamiento en el dominio de la frecuencia con modelos de espacio de estado selectivos para lograr predicciones de trayectoria de vanguardia en la conducción autónoma, equilibrando con eficiencia la captura de dependencias a largo plazo y la incertidumbre multimodal mientras reduce significativamente los costos computacionales y de parámetros.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Este trabajo propone un marco de aprendizaje multitarea para el análisis de ultrasonidos mamarios que supera las limitaciones de los enfoques convencionales mediante una interacción bidireccional a múltiples niveles entre decodificadores y un mecanismo de coordinación adaptativa basado en la incertidumbre, logrando así una segmentación y clasificación de lesiones más precisas y robustas.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Este estudio demuestra que el aprendizaje por refuerzo (RL) mejora principalmente la precisión y eficiencia de muestreo de los modelos de visión y lenguaje médicos cuando ya existe una base sólida de razonamiento obtenida mediante ajuste fino supervisado (SFT), proponiendo una estrategia de entrenamiento que combina ambos enfoques para lograr un alto rendimiento en diversos benchmarks médicos.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

El paper presenta AG-VAS, un marco de segmentación de anomalías visuales sin ejemplos que aprovecha modelos multimodales grandes mediante tokens de anclaje semántico aprendibles y una alineación cruzada mejorada para lograr un rendimiento superior en la detección de anomalías en escenarios de ceros ejemplos.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Este trabajo presenta una evaluación comparativa que demuestra que, aunque los modelos de visión de vocabulario abierto ofrecen ventajas para la adaptación a nuevos desastres, el aprendizaje supervisado sigue siendo el enfoque más fiable para la segmentación semántica y la detección de objetos en escenas post-desastre cuando existen anotaciones específicas y se requiere precisión en objetos pequeños y bordes complejos.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

El artículo presenta NVB-Face, un método innovador de una sola etapa que genera vistas nuevas consistentes y de alta calidad directamente a partir de una única imagen de rostro degradada, superando las limitaciones de los enfoques tradicionales de dos etapas al evitar la dependencia de una restauración previa.

Taoyue Wang, Xiang Zhang, Xiaotian Li + 2 more2026-03-03🤖 cs.AI

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

El artículo presenta PEFD, un marco de ajuste fino equivariante a la perspectiva que permite la desmosaico de imágenes multiespectrales sin necesidad de datos de referencia, aprovechando la geometría proyectiva y modelos fundacionales preentrenados para lograr un rendimiento superior en datasets médicos y automotrices.

Andrew Wang, Mike Davies2026-03-03💻 cs

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

El artículo presenta MixerCSeg, una arquitectura eficiente para la segmentación de grietas que combina ventajas de CNN, Transformers y Mamba mediante componentes como TransMixer y DEGConv, logrando un rendimiento de vanguardia con una complejidad computacional mínima.

Zilong Zhao, Zhengming Ding, Pei Niu + 2 more2026-03-03🤖 cs.AI

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

El paper presenta TIMI, un marco de generación de múltiples instancias 3D a partir de imágenes que no requiere entrenamiento y logra una alta fidelidad espacial mediante los módulos de guía de separación consciente de instancias (ISG) y actualización geométrica adaptativa estabilizada espacialmente (SGU).

Xiao Cai, Lianli Gao, Pengpeng Zeng + 3 more2026-03-03💻 cs

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Este trabajo propone AOT, un método sin entrenamiento que optimiza la reducción de tokens en modelos de lenguaje grandes para video mediante el transporte óptimo local y global para preservar la información contextual y la fidelidad temporal.

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

El artículo presenta UniTalking, un marco unificado de difusión de extremo a extremo que genera retratos parlantes de alta fidelidad con sincronización labial precisa y clonación de voz personalizada, superando a los enfoques de código abierto existentes al aprovechar los priores de modelos de generación de video preentrenados.

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

← Anterior Siguiente →