cs.CV artículos | Gist.Science

An Extended Topological Model For High-Contrast Optical Flow

Este artículo presenta un modelo topológico extendido basado en haces de círculos que explica las limitaciones del modelo de toro anterior y revela que los parches de flujo óptico de alto contraste se concentran principalmente cerca de círculos correspondientes a bordes de escalón binario en lugar de en el toro, lo cual es crucial para tareas de visión por computadora como la segmentación y el seguimiento.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

El artículo presenta ColonSplat, un marco de *Gaussian Splatting* dinámico que supera las limitaciones de los métodos actuales al reconstruir con precisión el movimiento peristáltico y la consistencia geométrica global en colonoscopias, respaldado por un nuevo conjunto de datos sintéticos llamado DynamicColon.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

El artículo presenta IGLU, una nueva función de activación paramétrica basada en una mezcla de escalas de puertas GELU que utiliza una distribución de cola pesada (Cauchy) para garantizar gradientes no nulos y mejorar la robustez en datos desbalanceados, junto con una aproximación computacionalmente eficiente (IGLU-Approx) que logra un rendimiento competitivo o superior al de ReLU y GELU en tareas de visión y lenguaje con menor costo computacional.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

Este artículo presenta un marco de aprendizaje eficiente en hardware que integra información previa ambiental con una arquitectura de transformadores duales en cascada (DTC) para predecir con alta precisión los puntos de aterrizaje de pelotas de tenis en tiempo real, superando a los métodos tradicionales en complejidad y eficiencia.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

El artículo presenta PICS, un paradigma auto-supervisado que mejora la composición de imágenes mediante un Transformador de Interacción y un blending adaptativo para preservar las relaciones espaciales y la consistencia física al insertar objetos en paralelo.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Este trabajo presenta OPTED, un conjunto de datos preprocesado de código abierto para la clasificación de tracoma, construido mediante un pipeline reproducible que utiliza el modelo de segmentación cero-disparo SAM 3 para extraer automáticamente la conjuntiva tarsal de fotografías clínicas y eliminar el ruido de fondo, abordando así la escasez de datos públicos de la región más afectada.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Este trabajo propone un nuevo paradigma de aumento de datos que utiliza modelos de lenguaje grandes para generar programas de CAD condicionados a superficies de referencia y procedimientos de modelado, logrando así crear modelos con mayor diversidad geométrica y mayor similitud con diseños industriales de grado profesional.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

El artículo presenta PaQ-DETR, un marco unificado que mejora la detección de objetos al generar consultas dinámicas basadas en patrones latentes compartidos y emplear una estrategia de asignación consciente de la calidad para resolver el desequilibrio en el uso de consultas y aumentar la precisión en diversos conjuntos de datos.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

El artículo propone DLRMamba, un marco que combina un modelo de espacio de estado bidimensional de bajo rango y una estrategia de destilación consciente de la estructura para lograr una detección de objetos multiespectral eficiente y precisa en dispositivos de borde con recursos limitados.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Este trabajo presenta ESM-YOLO+, una red ligera de fusión visible-infrarrojo que utiliza un módulo de fusión de atención mejorada con máscaras y una representación estructural durante el entrenamiento para lograr una detección precisa de objetivos pequeños en imágenes de teledetección, superando a los modelos base con una reducción significativa de parámetros y complejidad computacional.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

El artículo presenta HIERAMP, un método que mejora la destilación de conjuntos de datos mediante la amplificación de semántica jerárquica utilizando el modelo autoregresivo de visión (VAR) para guiar la síntesis de datos hacia regiones y estructuras discriminativas en diferentes niveles de escala.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Este estudio presenta una tubería analítica que utiliza segmentación 3D y aprendizaje automático para extraer características de invasión perineural y linfovascular en cáncer de próstata, demostrando que estas métricas tridimensionales superan a las bidimensionales en la predicción de la recurrencia bioquímica a 5 años.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Este estudio presenta viCT, un método que actualiza secuencialmente las tomografías computarizadas preoperatorias durante la cirugía endoscópica de senos paranasales mediante reconstrucciones 3D derivadas de video endoscópico monocular, permitiendo visualizar los límites de resección en evolución con una precisión submilimétrica sin necesidad de hardware adicional.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

El artículo presenta SurgCUT3R, un marco sistemático que adapta modelos de reconstrucción 3D unificados al dominio quirúrgico mediante una tubería de generación de datos, una estrategia de supervisión híbrida y un marco de inferencia jerárquica para lograr una estimación de pose robusta y eficiente en videos endoscópicos largos.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Este trabajo presenta un marco de transporte óptimo condicional no balanceado (CUOT) y un modelo generativo (CUOTM) que mitigan la sensibilidad a los valores atípicos inherente a los métodos tradicionales mediante la relajación de las restricciones de coincidencia de distribuciones, logrando así una mayor robustez y eficiencia en tareas de modelado generativo condicional.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

El artículo presenta T2SGrid, un marco innovador que mejora la localización temporal en videos reformulando la comprensión temporal como una tarea espacial mediante la organización de clips de video en una cuadrícula 2D estructurada para superar las limitaciones de los enfoques existentes.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Este artículo presenta un enfoque para la recuperación de formas basada en imágenes que utiliza codificadores prealineados de imágenes y nubes de puntos, junto con una pérdida de contraste duro multimodal, para lograr un rendimiento superior y capacidades de recuperación cero disparos sin necesidad de síntesis de vistas ni reentrenamiento específico.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Los autores proponen un marco de razonamiento multimodal perceptivo que mejora la comprensión espacial en imágenes monoculares para la conducción autónoma, representando los objetos mediante tokens de referencia visual en lugar de coordenadas textuales y utilizando un conjunto de datos de cadena de pensamiento multimodal, logrando así un rendimiento superior en el benchmark SURDS.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Este trabajo presenta ADAS-TO, el primer conjunto de datos naturalista a gran escala centrado en las transiciones de sistemas ADAS a control manual, que incluye más de 15.000 clips sincronizados de video y telemetría para caracterizar empíricamente las intervenciones humanas y demostrar que el análisis visual puede identificar señales de advertencia de seguridad críticas hasta 3 segundos antes de la toma de control.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

El artículo presenta MipSLAM, un marco de SLAM basado en 3DGS que utiliza un algoritmo de anti-aliasing elíptico adaptativo y una optimización de grafos de poses sensible al espectro para lograr síntesis de vistas novedosas de alta fidelidad y estimación de poses robusta sin aliasing.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

← Anterior Siguiente →