CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

El artículo presenta CanoVerse, un marco de canonalización de alto rendimiento y un conjunto de datos masivo de 320.000 objetos en 1.156 categorías que resuelven la ambigüedad direccional en sistemas de aprendizaje 3D, mejorando la estabilidad en la generación, la recuperación de formas y la estimación de orientación sin supervisión.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

El artículo presenta LiveWorld, un marco innovador que resuelve el problema de la "dinámica fuera de la vista" en los modelos mundiales de video generativos al simular la evolución persistente de entidades no observadas mediante un estado global y un mecanismo de monitorización, validado por el nuevo benchmark LiveBench.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

El artículo presenta PromptGate, un marco de aprendizaje activo federado que utiliza un modelo de lenguaje visual dinámico con optimización de contexto específico por clase para purificar conjuntos de datos abiertos y mejorar la eficiencia de la anotación en entornos médicos distribuidos sin comprometer la privacidad de los pacientes.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Este estudio evalúa sistemáticamente las visualizaciones de clase y los atlas de activación en modelos de transformers para patología computacional, demostrando que, aunque estas técnicas revelan estructuras morfológicas coherentes en tareas de clasificación de tejidos, su interpretabilidad disminuye en subclases oncológicas complejas debido a la ambigüedad intrínseca de los datos.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

El artículo presenta VINO, un marco de aprendizaje auto-supervisado que utiliza un cuello de botella de información estructural y un proceso de destilación asimétrica para desvincular los objetos del contexto en videos densos, logrando representaciones centradas en el objeto que superan a los métodos anteriores en tareas de descubrimiento no supervisado.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

El artículo presenta FabricGen, un marco de trabajo integral que genera materiales de tela tejida de alta calidad a partir de descripciones textuales mediante la descomposición de la tarea en la síntesis de texturas macroscópicas con modelos de difusión y la creación de geometrías microscópicas realistas impulsada por un modelo de lenguaje especializado (WeavingLLM) que diseña patrones de tejido acordes a los principios de la industria.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

El artículo presenta los Mapas de Flujo Variacionales (VFMs), un marco que permite la generación condicional de imágenes de alta calidad en un solo paso mediante el aprendizaje de una distribución de ruido inicial adaptada a la observación, superando así las limitaciones de los modelos iterativos tradicionales.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

Este trabajo presenta BD-VITON, un nuevo conjunto de datos centrado en prendas tradicionales de Bangladesh como el saree y el panjabi, diseñado para abordar las limitaciones de generalización cultural de los sistemas actuales de prueba virtual de ropa y establecer líneas base robustas mediante la evaluación de modelos avanzados.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

El artículo presenta MAviS, un asistente conversacional multimodal especializado en especies aviares que se basa en un nuevo dataset y un benchmark para superar las limitaciones de los modelos existentes en la comprensión fina y la respuesta a preguntas sobre aves, logrando resultados de vanguardia en aplicaciones ecológicas.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Este artículo propone un método que combina entrenamiento adversarial con un bloque de suavizado de mapas de características para generar mapas de saliencia más estables, dispersos y confiables, demostrando mediante análisis teóricos, experimentos y un estudio humano que la calidad de las explicaciones depende críticamente del procedimiento de entrenamiento.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs