cs.CV artículos | Gist.Science

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

El artículo presenta MC-INR, un marco de aprendizaje profundo que combina meta-aprendizaje, agrupamiento dinámico basado en errores residuales y una arquitectura de capas ramificadas para codificar de manera eficiente datos de simulaciones científicas multivariadas en mallas no estructuradas, superando las limitaciones de flexibilidad y escalabilidad de los métodos existentes.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

CoBELa es un marco basado en energía sin decodificador que logra una generación transparente y editable mediante la guía de conceptos explícitos sobre un generador preentrenado, permitiendo intervenciones composicionales sin reentrenamiento y mejorando la precisión conceptual y la calidad de imagen en comparación con métodos anteriores.

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

El artículo presenta InstructVLA, un modelo visión-idioma-acción que mediante una nueva estrategia de ajuste fino (VLA-IT) y adaptación de expertos mixtos logra preservar el razonamiento flexible de los grandes modelos de lenguaje mientras alcanza un rendimiento líder en manipulación robótica, superando significativamente a los enfoques existentes tanto en tareas simuladas como en entornos del mundo real.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

El artículo presenta DMTrack, un nuevo enfoque de seguimiento multimodal espacio-temporal que utiliza una arquitectura de doble adaptador (STMA y PMCA) para lograr resultados de vanguardia con solo 0.93 millones de parámetros entrenables.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

Este trabajo propone un marco de superresolución cero-shot para tomografía computarizada 3D que integra priores de proyección 2D generados por difusión y un nuevo método de splatting gaussiano 3D con mezcla alfa negativa para reconstruir volúmenes de alta resolución a partir de entradas de baja resolución sin necesidad de datos de entrenamiento emparejados.

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

El artículo presenta MMTok, un método que maximiza la cobertura multimodal combinando información visual y textual para seleccionar tokens de visión informativos, logrando así una inferencia más eficiente en Modelos Visuales-Lingüísticos sin comprometer significativamente su rendimiento.

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

Este trabajo presenta ConEQsA, un marco agéntico que aborda el nuevo problema de Respuesta a Preguntas Encarnadas Concurrentes y Asíncronas (EQsA) mediante la planificación de prioridades y memoria compartida, validado con un nuevo benchmark y métricas que demuestran su superioridad sobre enfoques secuenciales en escenarios realistas.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Este trabajo evalúa sistemáticamente la capacidad de los Modelos Visuales-Lingüísticos (VLM) para comprender la topología vial en la conducción autónoma, revelando que, a pesar de algunos avances, los modelos actuales (incluidos los de vanguardia) siguen fallando en tareas de razonamiento espacial clave, lo que indica que esta habilidad sigue siendo un cuello de botella fundamental.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

El artículo presenta SiNGER, un marco de destilación de conocimiento que mejora los modelos Vision Transformer al suprimir artefactos de alta norma y preservar señales informativas mediante una refinación de características guiada por el espacio nulo, logrando así un rendimiento superior en diversas tareas.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

El artículo presenta Earth-Agent, un marco agéntico pionero que unifica datos de observación terrestre RGB y espectrales mediante un ecosistema de herramientas MCP para realizar razonamiento cuantitativo multietapa, respaldado por el nuevo benchmark Earth-Bench para una evaluación integral.

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

El artículo presenta PROFusion, un sistema de reconstrucción densa en tiempo real que combina una red neuronal de regresión de poses con un algoritmo de optimización estocástica para lograr robustez ante movimientos de cámara inestables y alta precisión en la reconstrucción 3D.

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

El trabajo presenta Proxy-GS, un enfoque innovador que utiliza un sistema proxy rápido para introducir conciencia de oclusión en el entrenamiento y la inferencia de la Splatting de Gaussiano 3D, logrando así una aceleración significativa en la renderización y una mejora en la calidad visual al eliminar redundancias y guiar la densificación hacia superficies visibles.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

EchoGen es un marco pionero de generación impulsada por sujetos basado en modelos auto-regresivos visuales (VAR) que, mediante una estrategia de inyección dual, logra una fidelidad del sujeto y una calidad de imagen comparables a los métodos de difusión más avanzados, pero con una latencia de muestreo significativamente menor.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

El trabajo presenta TTT3R, un enfoque de entrenamiento en tiempo de prueba que mejora significativamente la generalización de longitud en modelos de reconstrucción 3D mediante una tasa de aprendizaje de actualización de memoria derivada de la confianza de alineación, logrando un rendimiento superior sin necesidad de reentrenamiento y con una alta eficiencia computacional.

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

BindWeave es un marco unificado que utiliza un modelo de lenguaje grande multimodal preentrenado para realizar un razonamiento cruzado profundo y vincular semánticas complejas a sujetos visuales concretos, logrando así una generación de video de alta fidelidad y consistente con el sujeto que supera a los modelos existentes.

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

El artículo presenta ArbInterp, un marco generativo novedoso que permite la interpolación de video a cualquier duración y en cualquier instante temporal mediante el uso de TaRoPE y una estrategia de condicionamiento desacoplada, superando así las limitaciones de flexibilidad de los métodos anteriores.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

El marco D2E demuestra que la preentrenamiento a escala de internet con datos de interacciones en escritorio (como videojuegos) permite transferir habilidades sensoriomotrices efectivas a la IA encarnada física, logrando un rendimiento superior o comparable a modelos mucho más grandes en tareas de manipulación y navegación.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

Human3R es un marco unificado y eficiente que realiza la reconstrucción 4D en tiempo real de múltiples personas y escenas densas a partir de videos monoculares casuales en una sola pasada, eliminando la necesidad de pipelines multietapa y dependencias externas.

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

El documento presenta MIRAGE, un marco de programación eficiente para la recuperación de imágenes que utiliza una descomposición jerárquica para mejorar la alineación entre consultas y objetos visuales, reduciendo la redundancia computacional y optimizando automáticamente los parámetros para lograr una mayor precisión y eficiencia en comparación con los sistemas existentes.

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Este artículo propone RALI, un algoritmo que utiliza aprendizaje contrastivo para alinear directamente las imágenes con representaciones textuales generalizables aprendidas mediante RL, logrando un rendimiento de evaluación de calidad de imagen comparable a los modelos de razonamiento pero con menos del 5% de parámetros y tiempo de inferencia.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

← Anterior Siguiente →