WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

El artículo presenta WorldCache, un marco de caché que acelera los modelos de mundo basados en difusión mediante la predicción de tokens heterogéneos guiada por curvatura y un salto adaptativo priorizado por caos, logrando una aceleración de hasta 3.7 veces manteniendo una alta calidad en las simulaciones.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

El artículo presenta K-MaT, un marco de aprendizaje de prompts que utiliza el transporte óptimo de Gromov-Wasserstein para transferir estructuras de decisión de modelos de visión-lingüística biomédica de alta resolución a modalidades de baja resolución sin necesidad de imágenes de entrenamiento, logrando resultados superiores al estado del arte y mitigando el olvido catastrófico en tareas de imagen médica.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

Este trabajo presenta LATO, un nuevo marco que utiliza un flujo de coincidencia en un espacio latente de topología estructurada para generar mallas 3D explícitas con geometría compleja y conectividad precisa de manera eficiente, sin depender de la extracción de isosuperficies ni de métodos heurísticos.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Este artículo presenta un método basado en visión por computadora que utiliza un sistema de doble cámara (BIODISCOVER) para estimar la biomasa de invertebrados a partir de imágenes y velocidad de sedimentación, logrando una precisión del 10-20% mediante modelos lineales y redes neuronales profundas, lo que permite escalar la monitorización de la biodiversidad sin procesos destructivos.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Este artículo presenta OralGPT-Plus, un modelo de lenguaje visual agente que utiliza aprendizaje por refuerzo y un nuevo conjunto de datos llamado DentalProbe para realizar un análisis iterativo y simétrico de radiografías panorámicas dentales, superando a los modelos existentes en precisión diagnóstica y fiabilidad clínica.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

El artículo presenta Rewis3d, un marco que mejora la segmentación semántica débilmente supervisada en imágenes 2D al utilizar la reconstrucción 3D feed-forward como señal de supervisión auxiliar para propagar anotaciones dispersas mediante consistencia geométrica y semántica, logrando un rendimiento superior al estado del arte sin etiquetas adicionales.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

El artículo presenta CHMv2, un mapa global de altura de dosel a resolución métrica que utiliza el modelo de estimación de profundidad DINOv3 entrenado con datos de escaneo láser aéreo para superar las limitaciones de los productos existentes mediante una mayor precisión, menor sesgo en bosques altos y una mejor preservación de la estructura a pequeña escala.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Este artículo presenta un marco de resolución de rompecabezas con guía humana que combina un solucionador automático con interacción iterativa para reconstruir eficazmente artefactos culturales fragmentados a gran escala, superando las limitaciones de los métodos puramente automáticos o manuales.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

El artículo presenta CLoPA, una estrategia de adaptación continua que ajusta una pequeña fracción de los parámetros de nnInteractive durante el flujo de trabajo de anotación, logrando un rendimiento experto en tareas de segmentación médica diversa con solo un episodio de entrenamiento y sin modificar la infraestructura existente.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

El artículo presenta WanderDream, el primer conjunto de datos a gran escala que permite a los agentes realizar razonamiento situado mediante la simulación mental de trayectorias futuras sin necesidad de exploración física activa, superando así limitaciones de seguridad y físicas en entornos reales.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Pinterest presenta "Canvas", un sistema de generación de imágenes a gran escala que, en lugar de depender de un modelo genérico, utiliza un modelo base de difusión multimodal que se ajusta rápidamente a conjuntos de datos específicos para crear modelos especializados que logran mejoras significativas en la participación de los usuarios y superan a modelos externos en tareas como la mejora de fondos y la ampliación de imágenes.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs