cs.CV artículos | Gist.Science

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

El artículo presenta WorldCache, un marco de caché que acelera los modelos de mundo basados en difusión mediante la predicción de tokens heterogéneos guiada por curvatura y un salto adaptativo priorizado por caos, logrando una aceleración de hasta 3.7 veces manteniendo una alta calidad en las simulaciones.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

El artículo presenta K-MaT, un marco de aprendizaje de prompts que utiliza el transporte óptimo de Gromov-Wasserstein para transferir estructuras de decisión de modelos de visión-lingüística biomédica de alta resolución a modalidades de baja resolución sin necesidad de imágenes de entrenamiento, logrando resultados superiores al estado del arte y mitigando el olvido catastrófico en tareas de imagen médica.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

El artículo presenta el DC-DiT, un modelo de transformador de difusión que mejora la eficiencia y la calidad de la generación de imágenes mediante un mecanismo de fragmentación dinámica que adapta la cantidad de tokens procesados según la complejidad visual de las regiones de la imagen y la etapa del proceso de denoising.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

Este trabajo presenta LATO, un nuevo marco que utiliza un flujo de coincidencia en un espacio latente de topología estructurada para generar mallas 3D explícitas con geometría compleja y conectividad precisa de manera eficiente, sin depender de la extracción de isosuperficies ni de métodos heurísticos.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Este artículo presenta un método basado en visión por computadora que utiliza un sistema de doble cámara (BIODISCOVER) para estimar la biomasa de invertebrados a partir de imágenes y velocidad de sedimentación, logrando una precisión del 10-20% mediante modelos lineales y redes neuronales profundas, lo que permite escalar la monitorización de la biodiversidad sin procesos destructivos.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Este artículo presenta OralGPT-Plus, un modelo de lenguaje visual agente que utiliza aprendizaje por refuerzo y un nuevo conjunto de datos llamado DentalProbe para realizar un análisis iterativo y simétrico de radiografías panorámicas dentales, superando a los modelos existentes en precisión diagnóstica y fiabilidad clínica.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

El artículo presenta Rewis3d, un marco que mejora la segmentación semántica débilmente supervisada en imágenes 2D al utilizar la reconstrucción 3D feed-forward como señal de supervisión auxiliar para propagar anotaciones dispersas mediante consistencia geométrica y semántica, logrando un rendimiento superior al estado del arte sin etiquetas adicionales.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

El artículo presenta MoEMambaMIL, un marco de aprendizaje profundo que combina modelos de espacio de estado selectivos con arquitecturas de expertos mixtos para analizar imágenes de diapositivas completas preservando su jerarquía espacial y logrando un rendimiento superior en múltiples tareas de diagnóstico.

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

El artículo presenta CHMv2, un mapa global de altura de dosel a resolución métrica que utiliza el modelo de estimación de profundidad DINOv3 entrenado con datos de escaneo láser aéreo para superar las limitaciones de los productos existentes mediante una mayor precisión, menor sesgo en bosques altos y una mejor preservación de la estructura a pequeña escala.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

Este trabajo propone un marco de entrenamiento consciente de grupos de prompts que, mediante regularización guiada por calidad y restricciones de consistencia a nivel de logits, mejora la robustez y la generalización de la segmentación guiada por texto de núcleos en patología computacional sin modificar la arquitectura del modelo.

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

El artículo presenta REACT++, un modelo de vanguardia para la generación de grafos de escena en tiempo real que logra un equilibrio óptimo entre velocidad, precisión en la predicción de relaciones y rendimiento en la detección de objetos mediante una atención cruzada eficiente, superando a su predecesor REACT con un 20% más de velocidad y un 10% de mejora en precisión.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Este artículo presenta un marco de resolución de rompecabezas con guía humana que combina un solucionador automático con interacción iterativa para reconstruir eficazmente artefactos culturales fragmentados a gran escala, superando las limitaciones de los métodos puramente automáticos o manuales.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

El artículo presenta DiffInf, un marco de difusión guiado por la influencia que mitiga las inconsistencias en las anotaciones de atributos faciales mediante la corrección generativa de muestras problemáticas, mejorando así la clasificación sin reducir la cobertura de la distribución de datos.

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

El estudio demuestra que en el modelo BEiT la organización figura-fondo se resuelve abruptamente en las capas finales mediante la influencia de la cabeza de atención L0H9, la cual introduce un sesgo hacia la completación convexa que puede ser modificado para permitir evidencias cóncavas.

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

El artículo presenta PSIVG, un marco innovador que integra un simulador físico en el proceso de generación de video mediante difusión para corregir las inconsistencias dinámicas y garantizar que los objetos generados obedezcan leyes físicas reales como la gravedad y la colisión, sin comprometer la calidad visual.

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

Este artículo presenta un método de visión estéreo no invasivo y consciente de la refracción, que utiliza una red YOLOv11-Pose para detectar puntos clave anatómicos y estimar con precisión la longitud de peces pequeños en acuarios domésticos, validado mediante un nuevo conjunto de datos de peces arroz de Sulawesi.

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

El artículo presenta CLoPA, una estrategia de adaptación continua que ajusta una pequeña fracción de los parámetros de nnInteractive durante el flujo de trabajo de anotación, logrando un rendimiento experto en tareas de segmentación médica diversa con solo un episodio de entrenamiento y sin modificar la infraestructura existente.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

El artículo presenta WanderDream, el primer conjunto de datos a gran escala que permite a los agentes realizar razonamiento situado mediante la simulación mental de trayectorias futuras sin necesidad de exploración física activa, superando así limitaciones de seguridad y físicas en entornos reales.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

El artículo presenta CaTok, un tokenizador de imágenes causal unidimensional que utiliza un decodificador MeanFlow y una regularización REPA-A para lograr una tokenización visual causal eficiente, estable y de alta fidelidad, superando a los métodos actuales en la reconstrucción de imágenes de ImageNet.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Pinterest presenta "Canvas", un sistema de generación de imágenes a gran escala que, en lugar de depender de un modelo genérico, utiliza un modelo base de difusión multimodal que se ajusta rápidamente a conjuntos de datos específicos para crear modelos especializados que logran mejoras significativas en la participación de los usuarios y superan a modelos externos en tareas como la mejora de fondos y la ampliación de imágenes.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

← Anterior Siguiente →