Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation

Este artículo presenta AAPB, un marco de aprendizaje libre que mejora la generación y edición de imágenes difusivas en conceptos raros mediante un coeficiente adaptativo óptimo, derivado de la identidad de Tweedie, para equilibrar dinámicamente los prompts auxiliares y objetivo y garantizar una fidelidad semántica y estructural superior.

Kwanyoung Lee, SeungJu Cha, Yebin Ahn, Hyunwoo Oh, Sungho Koh, Dong-Jin Kim2026-03-20💻 cs

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

Este trabajo presenta MAPG, un marco de agentes probabilísticos que mejora la navegación visión-lenguaje descomponiendo consultas complejas en subcomponentes estructurados para lograr una comprensión métrica y semántica precisa en entornos 3D, superando las limitaciones de los modelos de visión y lenguaje actuales y validándose mediante nuevos benchmarks y demostraciones en robots reales.

Swagat Padhan, Lakshya Jain, Bhavya Minesh Shah, Omkar Patil, Thao Nguyen, Nakul Gopalan2026-03-20💬 cs.CL

ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis

El marco ARIADNE presenta un enfoque innovador que combina el ajuste de preferencias mediante DPO para la percepción topológica y el razonamiento basado en RL para la localización de estenosis, logrando una detección de vasos coronarios más coherente y fiable que supera las limitaciones de las funciones de pérdida tradicionales en angiografía.

Zhan Jin, Yu Luo, Yizhou Zhang, Ziyang Cui, Yuqing Wei, Xianchao Liu, Xueying Zeng, Qing Zhang2026-03-20🤖 cs.AI

Reconstruction Matters: Learning Geometry-Aligned BEV Representation through 3D Gaussian Splatting

El artículo presenta Splat2BEV, un marco que mejora la percepción en vista cenital (BEV) para la conducción autónoma al integrar una representación explícita de la geometría 3D mediante la técnica de 3D Gaussian Splatting, logrando así un rendimiento superior en comparación con los métodos existentes.

Yiren Lu, Xin Ye, Burhaneddin Yaman, Jingru Luo, Zhexiao Xiong, Liu Ren, Yu Yin2026-03-20💻 cs

RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing

El artículo presenta RPiAE, un autoencoder basado en representaciones que, mediante una regularización de pivote y un entrenamiento por etapas, mejora tanto la generación como la edición de imágenes al lograr latentes compactos con alta fidelidad de reconstrucción y preservación semántica, superando a los tokenizadores visuales existentes.

Yue Gong, Hongyu Li, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Xiaoyu Wu, Manyuan Zhang, Dawei Leng, Yuhui Yin, Lijun Zhang2026-03-20💻 cs

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen es un marco de generación 3D basado en texto que logra una síntesis coherente y semánticamente fundamentada mediante el uso de latentes duales para geometría y apariencia, latentes semánticos relacionales para las dependencias entre partes y un proceso de denoising sincronizado que asegura la consistencia mutua.

Tianjiao Yu, Xinzhuo Li, Muntasir Wahed, Jerry Xiong, Yifan Shen, Ying Shen, Ismini Lourentzou2026-03-20🤖 cs.LG