Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification

Este artículo presenta un marco de detección mejorado con profundidad que combina YOLOv8 y SAM2, junto con un pipeline de corrección geométrica de datos RGB-D, para identificar de manera fiable la insuficiencia de balasto en vías férreas, logrando un aumento significativo en la sensibilidad (de 0,49 a 0,80) y la puntuación F1 (superior a 0,80) en comparación con los modelos basados únicamente en RGB.

Shiyu Liu, Dylan Lester, Husnu Narman + 2 more2026-02-24⚡ eess

GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

Este estudio presenta GUIDE-US, un método de destilación de conocimiento no emparejado que permite a un modelo de micro-ultrasonido inferir la agresividad del cáncer de próstata emulando la representación de modelos de histopatología, mejorando así la detección de cáncer clínicamente significativo sin necesidad de biopsias ni emparejamiento de imágenes.

Emma Willis, Tarek Elghareb, Paul F. R. Wilson + 6 more2026-02-24🤖 cs.LG

TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

TokenTrace es un marco de marca de agua proactivo que permite la atribución robusta de múltiples conceptos en imágenes generadas por IA mediante la perturbación simultánea de las incrustaciones de texto y el ruido latente inicial, logrando así recuperar y verificar individualmente conceptos específicos como objetos y estilos sin comprometer la calidad visual.

Li Zhang, Shruti Agarwal, John Collomosse + 2 more2026-02-24💻 cs

A Markovian View of Iterative-Feedback Loops in Image Generative Models: Neural Resonance and Model Collapse

Este artículo demuestra que el colapso de modelos generativos provocado por bucles de retroalimentación iterativa con datos sintéticos puede entenderse como una "resonancia neuronal" que surge de la ergodicidad y la contracción direccional en el espacio latente, lo que permite clasificar estos comportamientos degenerados mediante un marco teórico basado en cadenas de Markov.

Vibhas Kumar Vats, David J. Crandall, Samuel Goree2026-02-24🤖 cs.LG

CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

El artículo presenta CREM, un marco unificado que mejora el rendimiento de recuperación multimodal mediante un diseño de prompts basado en compresión y una estrategia de entrenamiento que integra objetivos generativos y contrastivos, logrando así un estado del arte en tareas de recuperación sin sacrificar la capacidad de generación del modelo.

Lihao Liu, Yan Wang, Biao Yang + 10 more2026-02-24💻 cs