cs.CV artículos | Gist.Science

Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation

Este artículo presenta AAPB, un marco de aprendizaje libre que mejora la generación y edición de imágenes difusivas en conceptos raros mediante un coeficiente adaptativo óptimo, derivado de la identidad de Tweedie, para equilibrar dinámicamente los prompts auxiliares y objetivo y garantizar una fidelidad semántica y estructural superior.

Kwanyoung Lee, SeungJu Cha, Yebin Ahn, Hyunwoo Oh, Sungho Koh, Dong-Jin Kim2026-03-20💻 cs

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

Este trabajo presenta MAPG, un marco de agentes probabilísticos que mejora la navegación visión-lenguaje descomponiendo consultas complejas en subcomponentes estructurados para lograr una comprensión métrica y semántica precisa en entornos 3D, superando las limitaciones de los modelos de visión y lenguaje actuales y validándose mediante nuevos benchmarks y demostraciones en robots reales.

Swagat Padhan, Lakshya Jain, Bhavya Minesh Shah, Omkar Patil, Thao Nguyen, Nakul Gopalan2026-03-20💬 cs.CL

ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis

El marco ARIADNE presenta un enfoque innovador que combina el ajuste de preferencias mediante DPO para la percepción topológica y el razonamiento basado en RL para la localización de estenosis, logrando una detección de vasos coronarios más coherente y fiable que supera las limitaciones de las funciones de pérdida tradicionales en angiografía.

Zhan Jin, Yu Luo, Yizhou Zhang, Ziyang Cui, Yuqing Wei, Xianchao Liu, Xueying Zeng, Qing Zhang2026-03-20🤖 cs.AI

Few-shot Acoustic Synthesis with Multimodal Flow Matching

Este trabajo presenta FLAC, un método probabilístico basado en flujo de matching que sintetiza respuestas de impulso de habitación (RIR) acústicamente consistentes en entornos nuevos a partir de una sola muestra, superando a los enfoques actuales y proponiendo una nueva métrica de evaluación llamada AGREE.

Amandine Brunetto2026-03-20⚡ eess

Reconstruction Matters: Learning Geometry-Aligned BEV Representation through 3D Gaussian Splatting

El artículo presenta Splat2BEV, un marco que mejora la percepción en vista cenital (BEV) para la conducción autónoma al integrar una representación explícita de la geometría 3D mediante la técnica de 3D Gaussian Splatting, logrando así un rendimiento superior en comparación con los métodos existentes.

Yiren Lu, Xin Ye, Burhaneddin Yaman, Jingru Luo, Zhexiao Xiong, Liu Ren, Yu Yin2026-03-20💻 cs

FASTER: Rethinking Real-Time Flow VLAs

El artículo presenta FASTER, un método que reduce drásticamente la latencia de reacción en modelos de Visión-Lenguaje-Acción mediante un muestreo de flujo adaptativo y una arquitectura cliente-servidor, permitiendo una ejecución en tiempo real y altamente responsiva en robots físicos.

Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao2026-03-20💻 cs

Tinted Frames: Question Framing Blinds Vision-Language Models

Este trabajo demuestra que los modelos de visión y lenguaje son selectivamente ciegos debido a cómo el encuadre lingüístico reduce su atención visual, y propone un método de ajuste de prompts con tokens aprendibles para corregir esta mala asignación de atención y mejorar el rendimiento.

Wan-Cyuan Fan, Jiayun Luo, Declan Kutscher, Leonid Sigal, Ritwik Gupta2026-03-20💻 cs

RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing

El artículo presenta RPiAE, un autoencoder basado en representaciones que, mediante una regularización de pivote y un entrenamiento por etapas, mejora tanto la generación como la edición de imágenes al lograr latentes compactos con alta fidelidad de reconstrucción y preservación semántica, superando a los tokenizadores visuales existentes.

Yue Gong, Hongyu Li, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Xiaoyu Wu, Manyuan Zhang, Dawei Leng, Yuhui Yin, Lijun Zhang2026-03-20💻 cs

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Este trabajo demuestra que los modelos de espacio de estado (SSM) pueden servir como una alternativa robusta y eficiente a los transformadores visuales en los modelos de lenguaje y visión grandes, logrando un rendimiento superior o competitivo en tareas de comprensión visual y localización con una escala de modelo significativamente menor.

Shang-Jui Ray Kuo, Paola Cascante-Bonilla2026-03-20🤖 cs.LG

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen es un marco de generación 3D basado en texto que logra una síntesis coherente y semánticamente fundamentada mediante el uso de latentes duales para geometría y apariencia, latentes semánticos relacionales para las dependencias entre partes y un proceso de denoising sincronizado que asegura la consistencia mutua.

Tianjiao Yu, Xinzhuo Li, Muntasir Wahed, Jerry Xiong, Yifan Shen, Ying Shen, Ismini Lourentzou2026-03-20🤖 cs.LG

← Anterior Siguiente →