cs.CV artículos | Gist.Science

B $^3$ -Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates

El artículo presenta B $^3$ -Seg, un método rápido y sin entrenamiento para la segmentación interactiva de 3DGS que utiliza actualizaciones bayesianas Beta-Bernoulli y ganancia de información analítica para lograr una selección óptima de vistas sin necesidad de cámaras predefinidas ni etiquetas de referencia.

Hiromichi Kamata, Samuel Arthur Munro, Fuminori Homma2026-02-20💻 cs

BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning

El artículo presenta BadCLIP++, un marco unificado que supera los desafíos de sigilo y persistencia en los ataques de puerta trasera contra modelos de aprendizaje contrastivo multimodal mediante un micro-gatillo QR de fusión semántica y técnicas de estabilización de parámetros, logrando una tasa de éxito del 99,99% con una inyección de datos maliciosos de solo el 0,3% y manteniendo su eficacia frente a múltiples defensas y ajustes finos.

Siyuan Liang, Yongcheng Jing, Yingjie Wang + 3 more2026-02-20💻 cs

NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

El artículo presenta NRGS-SLAM, un sistema de SLAM monoculo no rígido para endoscopia basado en la representación 3D Gaussian Splatting que resuelve la ambigüedad entre el movimiento de la cámara y la deformación de los tejidos mediante un mapa de Gaussiana sensible a la deformación, logrando una estimación de pose más precisa y reconstrucciones de mayor calidad que los métodos actuales.

Jiwei Shan, Zeyu Cai, Yirui Li + 5 more2026-02-20💻 cs

Selective Training for Large Vision Language Models via Visual Information Gain

Este trabajo introduce la Ganancia de Información Visual (VIG), una métrica basada en la perplejidad que cuantifica la utilidad de la entrada visual para guiar un esquema de entrenamiento selectivo en Modelos Grandes de Visión y Lenguaje, mejorando así la fundamentación visual y reduciendo el sesgo lingüístico con menos datos de supervisión.

Seulbi Lee, Sangheum Hwang2026-02-20💻 cs

Texo: Formula Recognition within 20M Parameters

El artículo presenta Texo, un modelo minimalista de reconocimiento de fórmulas con solo 20 millones de parámetros que, gracias a un diseño eficiente y técnicas de destilación, alcanza un rendimiento comparable al de los modelos más avanzados reduciendo su tamaño hasta un 80% y permitiendo su ejecución en tiempo real en hardware de consumo.

Sicheng Mao2026-02-20🤖 cs.AI

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

El artículo presenta EntropyPrune, un marco de poda de tokens visuales para modelos de lenguaje grandes multimodales que utiliza la entropía matricial para identificar una capa de colapso de entropía y eliminar tokens redundantes de manera eficiente, logrando una reducción significativa de costos computacionales sin sacrificar el rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni + 6 more2026-02-20💻 cs

GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Este trabajo presenta GASS, un método que mejora la diversidad en la generación de imágenes a partir de texto mediante un muestreo esférico consciente de la geometría que controla explícitamente las variaciones dependientes e independientes del prompt en los incrustamientos de CLIP, logrando resultados diversos sin comprometer la fidelidad ni la alineación semántica.

Ye Zhu, Kaleb S. Newman, Johannes F. Lutzeyer + 3 more2026-02-20💻 cs

HiMAP: History-aware Map-occupancy Prediction with Fallback

HiMAP es un marco de predicción de trayectorias sin seguimiento que utiliza mapas de ocupación históricos para generar pronósticos precisos y robustos en vehículos autónomos, incluso cuando fallan los sistemas de rastreo de identidad.

Yiming Xu, Yi Yang, Hao Cheng + 1 more2026-02-20💻 cs

Inferring Height from Earth Embeddings: First insights using Google AlphaEarth

Este estudio demuestra que los *Earth Embeddings* de Google AlphaEarth, combinados con arquitecturas de redes neuronales convolucionales como U-Net++, permiten inferir con gran precisión la altura superficial regional, aunque persisten desafíos de generalización y sesgo al transferir los modelos a nuevas distribuciones de datos.

Alireza Hamoudzadeh, Valeria Belloni, Roberta Ravanelli2026-02-20💻 cs

A Multi-modal Detection System for Infrastructure-based Freight Signal Priority

Este artículo presenta y evalúa un sistema de detección multimodal basado en infraestructura que integra LiDAR y cámaras con seguimiento Kalman para monitorear con precisión el movimiento de vehículos de carga y habilitar estrategias efectivas de prioridad en semáforos.

Ziyan Zhang, Chuheng Wei, Xuanpeng Zhao + 6 more2026-02-20⚡ eess

Unified Latents (UL): How to train your latents

El artículo presenta Unified Latents (UL), un marco de entrenamiento que combina un prior de difusión y un modelo de difusión para generar representaciones latentes eficientes, logrando resultados de vanguardia en calidad de imagen y video con menor costo computacional.

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink + 1 more2026-02-20🤖 cs.LG

Physics Encoded Spatial and Temporal Generative Adversarial Network for Tropical Cyclone Image Super-resolution

Este trabajo propone PESTGAN, una red generativa adversarial que integra leyes físicas mediante un módulo PhyCell para mejorar la superresolución de imágenes de ciclones tropicales, logrando una mayor fidelidad en la reconstrucción de estructuras nubosas meteorológicamente plausibles en comparación con los métodos existentes.

Ruoyi Zhang, Jiawei Yuan, Lujia Ye + 2 more2026-02-20💻 cs

Attachment Anchors: A Novel Framework for Laparoscopic Grasping Point Prediction in Colorectal Surgery

Este trabajo presenta un nuevo marco basado en "anclajes de unión" que, al codificar las relaciones geométricas y mecánicas locales entre el tejido y sus anexos anatómicos en cirugías colorrectales, mejora significativamente la predicción de puntos de agarre en entornos quirúrgicos complejos y variables mediante el aprendizaje automático.

Dennis N. Schneider, Lars Wagner, Daniel Rueckert + 1 more2026-02-20💻 cs

The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound

Este estudio presenta un marco de aprendizaje profundo que extrae información pronóstica de videos de ultrasonido carotídeo para cuantificar el daño vascular y predecir eventos cardiovasculares y mortalidad con una precisión superior a los modelos tradicionales, demostrando el potencial de esta modalidad rutinaria para la evaluación de riesgos a gran escala.

Christoph Balada, Aida Romano-Martinez, Payal Varshney + 10 more2026-02-20🤖 cs.LG

Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Este trabajo propone un pipeline de generación de documentos falsificados de alta calidad, basado en aprendizaje contrastivo y redes auxiliares para la selección de recortes, que supera las limitaciones de los métodos anteriores y mejora significativamente el rendimiento de los modelos de detección de alteraciones en datos reales.

Mohamed Dhouib, Davide Buscaldi, Sonia Vanier + 1 more2026-02-20💻 cs

Polaffini: A feature-based approach for robust affine and polyaffine image registration

El artículo presenta Polaffini, un marco robusto y versátil para el registro de imágenes médicas que aprovecha modelos de segmentación profunda para generar puntos de referencia anatómicos y realizar transformaciones afines y poliafines precisas, superando a los métodos basados en intensidad en alineación estructural y ofreciendo una inicialización superior para registros no lineales posteriores.

Antoine Legouhy, Cosimo Campo, Ross Callaghan + 2 more2026-02-20💻 cs

Application and Evaluation of the Common Circles Method

Este artículo presenta una implementación práctica del método de círculos comunes, que incorpora restricciones de consistencia temporal para estimar de manera eficiente y estable el movimiento rotacional de tejidos biológicos submilimétricos en tomografía de difracción óptica.

Michael Quellmalz, Mia Kvåle Løvmo, Simon Moser + 2 more2026-02-20🔢 math

DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

El artículo presenta DRetHTR, un modelo de reconocimiento de texto manuscrito basado en redes retentivas que elimina la caché KV creciente de los Transformers para lograr una inferencia lineal más rápida y eficiente en memoria, manteniendo al mismo tiempo un estado del arte en precisión.

Changhun Kim, Martin Mayr, Thomas Gorges + 4 more2026-02-20💻 cs

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

SpectralGCD es un enfoque multimodal eficiente para el descubrimiento generalizado de categorías que utiliza similitudes imagen-concepto de CLIP y filtrado espectral para aprender representaciones semánticas robustas y alineadas, logrando un rendimiento superior al estado del arte con un costo computacional significativamente menor.

Lorenzo Caselli, Marco Mistretta, Simone Magistri + 1 more2026-02-20🤖 cs.AI

A High-Level Survey of Optical Remote Sensing

Este trabajo ofrece una visión general integral del campo de la teledetección óptica, abarcando sus capacidades, conjuntos de datos y metodologías clave para servir como guía fundamental a los investigadores que se inician en este ámbito.

Panagiotis Koletsis, Vasilis Efthymiou, Maria Vakalopoulou + 3 more2026-02-20🤖 cs.AI

← Anterior Siguiente →

cs.CV

B3^33-Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates