An Extended Topological Model For High-Contrast Optical Flow

Este artículo presenta un modelo topológico extendido basado en haces de círculos que explica las limitaciones del modelo de toro anterior y revela que los parches de flujo óptico de alto contraste se concentran principalmente cerca de círculos correspondientes a bordes de escalón binario en lugar de en el toro, lo cual es crucial para tareas de visión por computadora como la segmentación y el seguimiento.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

El artículo presenta ColonSplat, un marco de *Gaussian Splatting* dinámico que supera las limitaciones de los métodos actuales al reconstruir con precisión el movimiento peristáltico y la consistencia geométrica global en colonoscopias, respaldado por un nuevo conjunto de datos sintéticos llamado DynamicColon.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

El artículo presenta IGLU, una nueva función de activación paramétrica basada en una mezcla de escalas de puertas GELU que utiliza una distribución de cola pesada (Cauchy) para garantizar gradientes no nulos y mejorar la robustez en datos desbalanceados, junto con una aproximación computacionalmente eficiente (IGLU-Approx) que logra un rendimiento competitivo o superior al de ReLU y GELU en tareas de visión y lenguaje con menor costo computacional.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

Este artículo presenta un marco de aprendizaje eficiente en hardware que integra información previa ambiental con una arquitectura de transformadores duales en cascada (DTC) para predecir con alta precisión los puntos de aterrizaje de pelotas de tenis en tiempo real, superando a los métodos tradicionales en complejidad y eficiencia.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Este trabajo presenta OPTED, un conjunto de datos preprocesado de código abierto para la clasificación de tracoma, construido mediante un pipeline reproducible que utiliza el modelo de segmentación cero-disparo SAM 3 para extraer automáticamente la conjuntiva tarsal de fotografías clínicas y eliminar el ruido de fondo, abordando así la escasez de datos públicos de la región más afectada.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Este trabajo propone un nuevo paradigma de aumento de datos que utiliza modelos de lenguaje grandes para generar programas de CAD condicionados a superficies de referencia y procedimientos de modelado, logrando así crear modelos con mayor diversidad geométrica y mayor similitud con diseños industriales de grado profesional.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Este trabajo presenta ESM-YOLO+, una red ligera de fusión visible-infrarrojo que utiliza un módulo de fusión de atención mejorada con máscaras y una representación estructural durante el entrenamiento para lograr una detección precisa de objetivos pequeños en imágenes de teledetección, superando a los modelos base con una reducción significativa de parámetros y complejidad computacional.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

El artículo presenta HIERAMP, un método que mejora la destilación de conjuntos de datos mediante la amplificación de semántica jerárquica utilizando el modelo autoregresivo de visión (VAR) para guiar la síntesis de datos hacia regiones y estructuras discriminativas en diferentes niveles de escala.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Este estudio presenta una tubería analítica que utiliza segmentación 3D y aprendizaje automático para extraer características de invasión perineural y linfovascular en cáncer de próstata, demostrando que estas métricas tridimensionales superan a las bidimensionales en la predicción de la recurrencia bioquímica a 5 años.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Este estudio presenta viCT, un método que actualiza secuencialmente las tomografías computarizadas preoperatorias durante la cirugía endoscópica de senos paranasales mediante reconstrucciones 3D derivadas de video endoscópico monocular, permitiendo visualizar los límites de resección en evolución con una precisión submilimétrica sin necesidad de hardware adicional.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Este trabajo presenta un marco de transporte óptimo condicional no balanceado (CUOT) y un modelo generativo (CUOTM) que mitigan la sensibilidad a los valores atípicos inherente a los métodos tradicionales mediante la relajación de las restricciones de coincidencia de distribuciones, logrando así una mayor robustez y eficiencia en tareas de modelado generativo condicional.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Este artículo presenta un enfoque para la recuperación de formas basada en imágenes que utiliza codificadores prealineados de imágenes y nubes de puntos, junto con una pérdida de contraste duro multimodal, para lograr un rendimiento superior y capacidades de recuperación cero disparos sin necesidad de síntesis de vistas ni reentrenamiento específico.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Los autores proponen un marco de razonamiento multimodal perceptivo que mejora la comprensión espacial en imágenes monoculares para la conducción autónoma, representando los objetos mediante tokens de referencia visual en lugar de coordenadas textuales y utilizando un conjunto de datos de cadena de pensamiento multimodal, logrando así un rendimiento superior en el benchmark SURDS.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Este trabajo presenta ADAS-TO, el primer conjunto de datos naturalista a gran escala centrado en las transiciones de sistemas ADAS a control manual, que incluye más de 15.000 clips sincronizados de video y telemetría para caracterizar empíricamente las intervenciones humanas y demostrar que el análisis visual puede identificar señales de advertencia de seguridad críticas hasta 3 segundos antes de la toma de control.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs