cs.CV artículos | Gist.Science

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

El artículo presenta CLoPA, una estrategia de adaptación continua que ajusta una pequeña fracción de los parámetros de nnInteractive durante el flujo de trabajo de anotación, logrando un rendimiento experto en tareas de segmentación médica diversa con solo un episodio de entrenamiento y sin modificar la infraestructura existente.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

El artículo presenta WanderDream, el primer conjunto de datos a gran escala que permite a los agentes realizar razonamiento situado mediante la simulación mental de trayectorias futuras sin necesidad de exploración física activa, superando así limitaciones de seguridad y físicas en entornos reales.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

El artículo presenta CaTok, un tokenizador de imágenes causal unidimensional que utiliza un decodificador MeanFlow y una regularización REPA-A para lograr una tokenización visual causal eficiente, estable y de alta fidelidad, superando a los métodos actuales en la reconstrucción de imágenes de ImageNet.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Pinterest presenta "Canvas", un sistema de generación de imágenes a gran escala que, en lugar de depender de un modelo genérico, utiliza un modelo base de difusión multimodal que se ajusta rápidamente a conjuntos de datos específicos para crear modelos especializados que logran mejoras significativas en la participación de los usuarios y superan a modelos externos en tareas como la mejora de fondos y la ampliación de imágenes.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Este artículo analiza sistemáticamente el impacto de la ponderación de la pérdida y la parametrización en el entrenamiento de modelos de flujo, revelando cómo estas elecciones interactúan con la dimensionalidad de los datos, la arquitectura y el tamaño del conjunto para ofrecer orientaciones prácticas sobre las decisiones de diseño.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

El estudio demuestra que los modelos fundacionales de visión y lenguaje poseen una rica representación geométrica continua en sus características congeladas que supera significativamente su capacidad de expresión textual, revelando que la limitación reside en el entrenamiento de la vía generativa y no en la representación subyacente, lo que permite extraer mediciones físicas precisas mediante sondas lineales ligeras sin necesidad de ajuste fino.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

El artículo presenta GreenRFM, un marco de preentrenamiento eficiente en recursos para modelos fundamentales de radiología que, mediante un diseño de supervisión principista (MUST), logra un rendimiento superior y una generalización robusta con una fracción de los requisitos computacionales, desafiando así la noción de que el escalado masivo es indispensable.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

El artículo presenta Match4Annotate, un marco ligero que propaga anotaciones de puntos y máscaras dentro y entre videos mediante la adaptación de una representación neuronal implícita a características DINOv3, logrando un rendimiento superior en la propagación inter-video y ofreciendo una solución eficiente para la anotación escalable en dominios especializados como la imagen médica.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

El artículo presenta "Self-Flow", un paradigma de flujo de autoaprendizaje que integra el aprendizaje de representaciones dentro del marco generativo mediante una programación de doble paso de tiempo, logrando una síntesis multimodal escalable y superior sin depender de modelos externos.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

El artículo presenta SG-DOR, un marco de aprendizaje que utiliza grafos de escena con razonamiento de oclusión condicionado a la dirección para inferir relaciones físicas y de obstrucción en plantas de pimiento, mejorando así la planificación de la cosecha robótica en densos dosel.

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Este estudio presenta un sistema de inteligencia artificial entrenado con más de 45.000 imágenes de ultrasonido que no solo diagnostica las hendiduras orofaciales fetales con una precisión comparable a la de radiólogos expertos, sino que también actúa como copiloto para mejorar la sensibilidad de los radiólogos junior y acelerar su formación clínica en entornos con escasez de especialistas.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

Este artículo presenta SCAN, un marco universal basado en autoencoders y el principio de cuello de botella de información que genera mapas de alta resolución para proporcionar explicaciones visuales fieles y comparables tanto para arquitecturas CNN como Transformers, superando las limitaciones de los métodos actuales de IA explicable.

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

El artículo presenta AV-Unified, un marco unificado que integra múltiples tareas de comprensión de escenas audio-visuales mediante la conversión de entradas y salidas en secuencias de tokens discretos y el uso de módulos de percepción espacio-temporal multi-escala y guiada por modalidades cruzadas para lograr un aprendizaje conjunto efectivo.

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

Este artículo presenta un procedimiento de calibración espacial que estima el área de influencia y la sensibilidad relativa de cada píxel de un LiDAR de tiempo de vuelo difuso en un plano de imagen RGB, permitiendo una alineación precisa mediante mapas de respuesta recuperados con un parche retroreflector escaneado.

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

Este trabajo presenta NEGATE, un marco de entrenamiento libre que modela la negación lingüística en modelos de difusión texto-a-video como una restricción de viabilidad estructurada sobre la guía semántica, logrando una adherencia robusta a la negación sin reentrenar los parámetros del modelo.

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

El artículo presenta SurgFormer, un transformador multirresolución escalable que utiliza redes neuronales entrenadas con datos de solvers biomecánicos para predecir en tiempo real la deformación de tejidos blandos y las reseciones quirúrgicas en mallas volumétricas, ofreciendo un modelo unificado y eficiente para la simulación quirúrgica.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

Este trabajo demuestra que la redundancia en los datos multisource y multimodales de vehículos autónomos es un factor de calidad medible y accionable, ya que eliminar selectivamente etiquetas redundantes mejora el rendimiento de detección de objetos sin comprometer la precisión.

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

El artículo presenta EgoReasoner, un marco de dos etapas que utiliza plantillas de pensamiento adaptativas y recompensas específicas para la tarea, permitiendo a un modelo de 3B parámetros entrenado con solo 16K muestras superar significativamente a modelos más grandes en tareas de razonamiento 4D egocéntrico al alinear la estructura de razonamiento y la señal de recompensa con las necesidades cognitivas de cada tarea.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

El artículo presenta Penguin-VL, un modelo de lenguaje visual eficiente que supera a las arquitecturas tradicionales al reemplazar los codificadores visuales preentrenados con contraste por uno inicializado a partir de un LLM basado solo en texto, logrando un rendimiento superior en tareas de razonamiento y comprensión visual sin necesidad de escalar el tamaño del modelo.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

El artículo presenta SUREON, un conjunto de datos a gran escala y dos modelos de visión-linguaje (SureonVLM y SureonVLM-R1) que aprovechan las narraciones de videos académicos quirúrgicos para entrenar sistemas de IA capaces de razonar sobre la intención, la seguridad y la anticipación en cirugías, superando significativamente a los modelos generales en tareas de percepción y razonamiento quirúrgico.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

← Anterior Siguiente →