CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

El artículo presenta CLoPA, una estrategia de adaptación continua que ajusta una pequeña fracción de los parámetros de nnInteractive durante el flujo de trabajo de anotación, logrando un rendimiento experto en tareas de segmentación médica diversa con solo un episodio de entrenamiento y sin modificar la infraestructura existente.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

El artículo presenta WanderDream, el primer conjunto de datos a gran escala que permite a los agentes realizar razonamiento situado mediante la simulación mental de trayectorias futuras sin necesidad de exploración física activa, superando así limitaciones de seguridad y físicas en entornos reales.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Pinterest presenta "Canvas", un sistema de generación de imágenes a gran escala que, en lugar de depender de un modelo genérico, utiliza un modelo base de difusión multimodal que se ajusta rápidamente a conjuntos de datos específicos para crear modelos especializados que logran mejoras significativas en la participación de los usuarios y superan a modelos externos en tareas como la mejora de fondos y la ampliación de imágenes.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

El estudio demuestra que los modelos fundacionales de visión y lenguaje poseen una rica representación geométrica continua en sus características congeladas que supera significativamente su capacidad de expresión textual, revelando que la limitación reside en el entrenamiento de la vía generativa y no en la representación subyacente, lo que permite extraer mediciones físicas precisas mediante sondas lineales ligeras sin necesidad de ajuste fino.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

El artículo presenta GreenRFM, un marco de preentrenamiento eficiente en recursos para modelos fundamentales de radiología que, mediante un diseño de supervisión principista (MUST), logra un rendimiento superior y una generalización robusta con una fracción de los requisitos computacionales, desafiando así la noción de que el escalado masivo es indispensable.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

El artículo presenta Match4Annotate, un marco ligero que propaga anotaciones de puntos y máscaras dentro y entre videos mediante la adaptación de una representación neuronal implícita a características DINOv3, logrando un rendimiento superior en la propagación inter-video y ofreciendo una solución eficiente para la anotación escalable en dominios especializados como la imagen médica.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

El artículo presenta "Self-Flow", un paradigma de flujo de autoaprendizaje que integra el aprendizaje de representaciones dentro del marco generativo mediante una programación de doble paso de tiempo, logrando una síntesis multimodal escalable y superior sin depender de modelos externos.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed 💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Este estudio presenta un sistema de inteligencia artificial entrenado con más de 45.000 imágenes de ultrasonido que no solo diagnostica las hendiduras orofaciales fetales con una precisión comparable a la de radiólogos expertos, sino que también actúa como copiloto para mejorar la sensibilidad de los radiólogos junior y acelerar su formación clínica en entornos con escasez de especialistas.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

El artículo presenta SurgFormer, un transformador multirresolución escalable que utiliza redes neuronales entrenadas con datos de solvers biomecánicos para predecir en tiempo real la deformación de tejidos blandos y las reseciones quirúrgicas en mallas volumétricas, ofreciendo un modelo unificado y eficiente para la simulación quirúrgica.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

El artículo presenta EgoReasoner, un marco de dos etapas que utiliza plantillas de pensamiento adaptativas y recompensas específicas para la tarea, permitiendo a un modelo de 3B parámetros entrenado con solo 16K muestras superar significativamente a modelos más grandes en tareas de razonamiento 4D egocéntrico al alinear la estructura de razonamiento y la señal de recompensa con las necesidades cognitivas de cada tarea.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

El artículo presenta Penguin-VL, un modelo de lenguaje visual eficiente que supera a las arquitecturas tradicionales al reemplazar los codificadores visuales preentrenados con contraste por uno inicializado a partir de un LLM basado solo en texto, logrando un rendimiento superior en tareas de razonamiento y comprensión visual sin necesidad de escalar el tamaño del modelo.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

El artículo presenta SUREON, un conjunto de datos a gran escala y dos modelos de visión-linguaje (SureonVLM y SureonVLM-R1) que aprovechan las narraciones de videos académicos quirúrgicos para entrenar sistemas de IA capaces de razonar sobre la intención, la seguridad y la anticipación en cirugías, superando significativamente a los modelos generales en tareas de percepción y razonamiento quirúrgico.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI