cs.CV artículos | Gist.Science

Automated Re-Identification of Holstein-Friesian Cattle in Dense Crowds

Este artículo presenta un nuevo pipeline de detección-segmentación-identificación que, combinado con aprendizaje contrastivo no supervisado y un nuevo conjunto de datos de granjas lecheras, logra una precisión del 98,93% en la detección y del 94,82% en la reidentificación de vacas Holstein-Friesian en multitudes densas, superando significativamente a los métodos actuales.

Phoenix Yu, Tilo Burghardt, Andrew W Dowsey + 1 more2026-02-19💻 cs

Non-Contact Physiological Monitoring in Pediatric Intensive Care Units via Adaptive Masking and Self-Supervised Learning

Este trabajo presenta un marco de aprendizaje auto-supervisado basado en VisionMamba y un mecanismo de enmascaramiento adaptativo que, mediante una estrategia curricular y destilación de conocimiento, logra estimar con alta precisión la frecuencia cardíaca en unidades de cuidados intensivos pediátricos sin contacto, superando significativamente a los métodos existentes al reducir el error medio absoluto a 3.2 lpm.

Mohamed Khalil Ben Salah, Philippe Jouvet, Rita Noumeir2026-02-19💻 cs

LAND: A Longitudinal Analysis of Neuromorphic Datasets

Este artículo presenta una revisión longitudinal de más de 423 conjuntos de datos neuromórficos que identifica problemas críticos como la falta de estandarización, dificultades de acceso y el auge de datos sintéticos, proponiendo al mismo tiempo el concepto de metadatos para mitigar la necesidad de más datos y reducir sesgos en la investigación.

Gregory Cohen, Alexandre Marcireau2026-02-19💻 cs

Automated Assessment of Kidney Ureteroscopy Exploration for Training

Este trabajo presenta un marco de localización de cámara basado en video que evalúa automáticamente la exploración de un riñón fantasma mediante la comparación con una reconstrucción de referencia, permitiendo una formación fuera del quirófano sin necesidad de supervisión experta.

Fangjie Li, Nicholas Kavoussi, Charan Mohan + 2 more2026-02-19⚡ eess

SAM 3D Body: Robust Full-Body Human Mesh Recovery

El artículo presenta SAM 3D Body, un modelo de código abierto que utiliza la nueva representación de malla Momentum Human Rig (MHR) y un enfoque basado en prompts para lograr un estado del arte en la recuperación de mallas humanas 3D completas a partir de una sola imagen, superando a métodos anteriores en generalización y precisión en condiciones diversas.

Xitong Yang, Devansh Kukreja, Don Pinkus + 11 more2026-02-19💻 cs

MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval

MedProbCLIP es un marco de aprendizaje probabilístico que adapta modelos de visión y lenguaje para mejorar la fiabilidad y la seguridad en la recuperación de radiografías y sus informes clínicos mediante la representación de incertidumbre y correspondencias muchos-a-muchos, superando a los métodos deterministas en precisión, calibración y robustez.

Ahmad Elallaf, Yu Zhang, Yuktha Priya Masupalli + 4 more2026-02-19🤖 cs.AI

CHAI: CacHe Attention Inference for text2video

El trabajo CHAI introduce un mecanismo de atención de caché que reutiliza latentes entre inferencias relacionadas semánticamente para acelerar la generación de video texto-a-video hasta 3,35 veces sin comprometer la calidad, permitiendo generar resultados de alta fidelidad con tan solo 8 pasos de denoising.

Joel Mathew Cherian, Ashutosh Muralidhara Bharadwaj, Vima Gupta + 1 more2026-02-19🤖 cs.LG

IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models

El artículo presenta IRIS, un enfoque sin entrenamiento que utiliza datos de seguimiento ocular en tiempo real para resolver ambigüedades en preguntas abiertas sobre imágenes, logrando duplicar la precisión de los modelos de visión y lenguaje grandes al identificar que las fijaciones cercanas al inicio de la pregunta son las más informativas.

Parsa Madinei, Srijita Karmakar, Russell Cohen Hoffing + 2 more2026-02-19💻 cs

Evaluating Demographic Misrepresentation in Image-to-Image Portrait Editing

Este trabajo revela que los editores de imágenes por instrucciones presentan sesgos demográficos sistemáticos, como la "borradura suave" y la "sustitución por estereotipos", que afectan desproporcionadamente a grupos minoritarios, y demuestra que el uso de restricciones en el prompt puede mitigar estos fallos sin necesidad de actualizar el modelo.

Huichan Seo, Minki Hong, Sieun Choi + 2 more2026-02-19💻 cs

Graph neural network for colliding particles with an application to sea ice floe modeling

Este artículo presenta un modelo basado en Redes Neuronales de Grafos (CN) que aprovecha la estructura natural del hielo marino para simular de manera más eficiente y precisa la dinámica de colisiones de los floes, integrando técnicas de asimilación de datos para mejorar los pronósticos en zonas de hielo marginal.

Ruibiao Zhu2026-02-19🤖 cs.AI

DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling

DataCube es una plataforma inteligente que automatiza el procesamiento y la recuperación de videos mediante perfiles semánticos de lenguaje natural, permitiendo a los usuarios construir conjuntos de datos personalizados y sistemas de búsqueda sobre repositorios masivos o privados.

Yiming Ju, Hanyu Zhao, Quanyue Ma + 5 more2026-02-19💻 cs

EasyControlEdge: A Foundation-Model Fine-Tuning for Edge Detection

El artículo presenta EasyControlEdge, un enfoque que adapta modelos fundacionales de generación de imágenes para la detección de bordes mediante una pérdida especializada en el espacio de píxeles y una guía condicional, logrando así mapas de bordes nítidos y eficientes en datos que superan a los métodos actuales en diversas tareas de visión por computadora.

Hiroki Nakamura, Hiroto Iino, Masashi Okada + 1 more2026-02-19💻 cs

HyPCA-Net: Advancing Multimodal Fusion in Medical Image Analysis

El artículo presenta HyPCA-Net, una red de fusión multimodal eficiente y robusta que supera a los métodos existentes en diversas tareas de análisis médico mediante bloques de atención híbridos, logrando mejoras significativas en rendimiento y reducciones sustanciales en costos computacionales.

J. Dhar, M. K. Pandey, D. Chakladar + 4 more2026-02-19💻 cs

Breaking the Sub-Millimeter Barrier: Eyeframe Acquisition from Color Images

Este trabajo presenta un nuevo enfoque basado en visión artificial que utiliza imágenes multivista de un sistema InVision para realizar el trazado de monturas de gafas con precisión submilimétrica, eliminando la necesidad de herramientas mecánicas especializadas y simplificando el flujo de trabajo de los optometristas.

Manel Guzmán, Antonio Agudo2026-02-19💻 cs

RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

RefineFormer3D es una arquitectura transformadora jerárquica ligera que combina mecanismos de atención cruzada y componentes eficientes para lograr una segmentación precisa y rápida de imágenes médicas 3D con una cantidad de parámetros significativamente reducida en comparación con los métodos actuales.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-02-19⚡ eess

A Self-Supervised Approach for Enhanced Feature Representations in Object Detection Tasks

Esta investigación presenta un enfoque de aprendizaje auto-supervisado que mejora las representaciones de características en tareas de detección de objetos, permitiendo que los modelos aprendan de manera más efectiva con menos datos etiquetados y superando a los extractores de características preentrenados en ImageNet.

Santiago C. Vilabella, Pablo Pérez-Núñez, Beatriz Remeseiro2026-02-19🤖 cs.AI

Guide-Guard: Off-Target Predicting in CRISPR Applications

El artículo presenta Guide-Guard, una solución basada en aprendizaje automático que predice el comportamiento fuera de objetivo en la edición genética CRISPR con un 84% de precisión, abordando los desafíos de seguridad a medida que avanza la tecnología.

Joseph Bingham, Netanel Arussy, Saman Zonouz2026-02-19🤖 cs.AI

Subtractive Modulative Network with Learnable Periodic Activations

El artículo presenta la Red Modulativa Sustractiva (SMN), una arquitectura de representación neuronal implícita eficiente en parámetros inspirada en la síntesis sustractiva que utiliza una capa de activación periódica aprendible y módulos de máscara modulativa para lograr un rendimiento superior en tareas de reconstrucción de imágenes y síntesis de vistas nuevas en NeRF 3D.

Tiou Wang, Zhuoqian Yang, Markus Flierl + 2 more2026-02-19🤖 cs.LG

SCAR: Satellite Imagery-Based Calibration for Aerial Recordings

El artículo presenta SCAR, un método de auto-calibración a largo plazo para sistemas visuales-inerciales aéreos que utiliza imágenes satelitales georreferenciadas como referencia global para corregir la degradación de parámetros intrínsecos y extrínsecos sin intervención manual, demostrando una precisión superior en diversas campañas aéreas en comparación con enfoques existentes.

Henry Hölzemann, Michael Schleiss2026-02-19💻 cs

Articulated 3D Scene Graphs for Open-World Mobile Manipulation

Este trabajo presenta MoMa-SG, un marco novedoso que construye grafos de escenas 3D semántico-kinemáticos para permitir la manipulación móvil de objetos articulados en entornos abiertos, combinando seguimiento de puntos, estimación de articulaciones y un nuevo conjunto de datos llamado Arti4D-Semantic.

Martin Büchner, Adrian Röfer, Tim Engelbracht + 5 more2026-02-19🤖 cs.AI

← Anterior Siguiente →