cs.CV artículos | Gist.Science

Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation

El artículo presenta DACo, un marco de agentes duales que desacopla la planificación estratégica global de la ejecución local mediante un "Comandante Global" y un "Operativo Local", logrando mejoras significativas en la navegación guiada por visión y lenguaje en entornos complejos y de largo alcance.

Kaiming Jin, Yuefan Wu, Shengqiong Wu + 3 more2026-02-24💻 cs

Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification

Este artículo presenta un marco de detección mejorado con profundidad que combina YOLOv8 y SAM2, junto con un pipeline de corrección geométrica de datos RGB-D, para identificar de manera fiable la insuficiencia de balasto en vías férreas, logrando un aumento significativo en la sensibilidad (de 0,49 a 0,80) y la puntuación F1 (superior a 0,80) en comparación con los modelos basados únicamente en RGB.

Shiyu Liu, Dylan Lester, Husnu Narman + 2 more2026-02-24⚡ eess

Face Presentation Attack Detection via Content-Adaptive Spatial Operators

Este artículo presenta CASO-PAD, un modelo ligero y de un solo fotograma que utiliza operadores espaciales adaptativos al contenido (involution) sobre MobileNetV3 para detectar ataques de presentación facial con alta precisión y sin necesidad de sensores auxiliares o secuencias temporales.

Shujaat Khan2026-02-24⚡ eess

Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

El artículo presenta Frame2Freq, una familia de adaptadores sensibles a la frecuencia que utilizan la Transformada Rápida de Fourier para capturar dinámicas temporales multiescala en modelos de visión preentrenados, logrando un rendimiento superior en tareas de reconocimiento de acciones finas en comparación con métodos anteriores.

Thinesh Thiyakesan Ponbagavathi, Constantin Seibold, Alina Roitberg2026-02-24💻 cs

A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

Este trabajo presenta Life-Bench, un nuevo benchmark multimodal basado en huellas digitales simuladas, y propone LifeGraph, un marco basado en gráficos de conocimiento, para abordar las limitaciones actuales en la personalización avanzada mediante modelos de lenguaje visuales.

Xia Hu, Honglei Zhuang, Brian Potetz + 4 more2026-02-24💻 cs

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

El artículo presenta MoBind, un marco de aprendizaje contrastivo jerárquico que alinea finamente señales IMU con secuencias de pose 2D mediante el filtrado de fondos irrelevantes y la descomposición del movimiento corporal, logrando un rendimiento superior en tareas de recuperación cruzada, sincronización temporal, localización y reconocimiento de acciones.

Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai2026-02-24💻 cs

GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

Este estudio presenta GUIDE-US, un método de destilación de conocimiento no emparejado que permite a un modelo de micro-ultrasonido inferir la agresividad del cáncer de próstata emulando la representación de modelos de histopatología, mejorando así la detección de cáncer clínicamente significativo sin necesidad de biopsias ni emparejamiento de imágenes.

Emma Willis, Tarek Elghareb, Paul F. R. Wilson + 6 more2026-02-24🤖 cs.LG

TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

TokenTrace es un marco de marca de agua proactivo que permite la atribución robusta de múltiples conceptos en imágenes generadas por IA mediante la perturbación simultánea de las incrustaciones de texto y el ruido latente inicial, logrando así recuperar y verificar individualmente conceptos específicos como objetos y estilos sin comprometer la calidad visual.

Li Zhang, Shruti Agarwal, John Collomosse + 2 more2026-02-24💻 cs

An interpretable framework using foundation models for fish sex identification

Este artículo presenta FishProtoNet, un marco de visión por computadora no invasivo e interpretable basado en modelos fundacionales que logra una identificación precisa del sexo del pez delta (Hypomesus transpacificus) en sus etapas de desove, aunque enfrenta desafíos en la etapa subadulta debido a las menores diferencias morfológicas.

Zheng Miao, Tien-Chieh Hung2026-02-24🤖 cs.AI

Towards Calibrating Prompt Tuning of Vision-Language Models

Este artículo propone un marco de calibración para el ajuste de prompts en modelos de visión-idioma que, mediante regularizadores de margen y coincidencia de momentos, mejora la fiabilidad predictiva y la incertidumbre sin comprometer la geometría del espacio de incrustaciones preentrenado ni la generalización.

Ashshak Sharifdeen, Fahad Shamshad, Muhammad Akhtar Munir + 6 more2026-02-24💻 cs

A Markovian View of Iterative-Feedback Loops in Image Generative Models: Neural Resonance and Model Collapse

Este artículo demuestra que el colapso de modelos generativos provocado por bucles de retroalimentación iterativa con datos sintéticos puede entenderse como una "resonancia neuronal" que surge de la ergodicidad y la contracción direccional en el espacio latente, lo que permite clasificar estos comportamientos degenerados mediante un marco teórico basado en cadenas de Markov.

Vibhas Kumar Vats, David J. Crandall, Samuel Goree2026-02-24🤖 cs.LG

OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

OpenVO es un marco innovador para la odometría visual en entornos abiertos que, al integrar dinámicas temporales y priores geométricos 3D, estima con precisión el movimiento ego en condiciones de cámaras no calibradas y frecuencias de observación variables, superando significativamente a los métodos actuales en benchmarks de conducción autónoma.

Phuc D. A. Nguyen, Anh N. Nhu, Ming C. Lin2026-02-24💻 cs

Direction-aware 3D Large Multimodal Models

Este trabajo presenta un nuevo paradigma para modelos 3D multimodales grandes conscientes de la dirección que introduce PoseRecover, un pipeline automático para recuperar poses egocéntricas, y PoseAlign, que alinea los datos de nubes de puntos con dichas poses, logrando mejoras significativas en tareas de razonamiento espacial sin necesidad de arquitecturas complejas.

Quan Liu, Weihao Xuan, Junjue Wang + 3 more2026-02-24💻 cs

L3DR: 3D-aware LiDAR Diffusion and Rectification

L3DR es un marco de difusión y rectificación de LiDAR consciente de la 3D que corrige artefactos de vista de rango y restaura la geometría local con alta fidelidad mediante una red de regresión residual y una pérdida de Welsch, logrando un rendimiento superior en múltiples conjuntos de datos.

Quan Liu, Xiaoqin Zhang, Ling Shao + 1 more2026-02-24💻 cs

Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference

Este trabajo propone un marco de reconocimiento de caracteres Kuzushiji guiado por restauración (RG-KCR) que aborda el desafío de la interferencia de sellos mediante un proceso de tres etapas, logrando mejoras significativas en la precisión de detección y clasificación en comparación con los métodos existentes.

Rui-Yang Ju, Kohei Yamashita, Hirotaka Kameko + 1 more2026-02-24💻 cs

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

El artículo presenta Ani3DHuman, un marco que combina animación basada en cinemática con priores de difusión de video y un nuevo método de muestreo estocástico auto-guiado para generar animaciones humanas 3D fotorrealistas que superan las limitaciones de calidad y pérdida de identidad de los métodos existentes.

Qi Sun, Can Wang, Jiaxiang Shang + 2 more2026-02-24🤖 cs.LG

CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

El artículo presenta CREM, un marco unificado que mejora el rendimiento de recuperación multimodal mediante un diseño de prompts basado en compresión y una estrategia de entrenamiento que integra objetivos generativos y contrastivos, logrando así un estado del arte en tareas de recuperación sin sacrificar la capacidad de generación del modelo.

Lihao Liu, Yan Wang, Biao Yang + 10 more2026-02-24💻 cs

Mapping Networks

Este artículo presenta las "Mapping Networks", un enfoque que reduce drásticamente la cantidad de parámetros entrenables y el sobreajuste al mapear el espacio de pesos de alta dimensión a un vector latente compacto, logrando un rendimiento comparable o superior en diversas tareas de visión y secuencia.

Lord Sen, Shyamapada Mukherjee2026-02-24💻 cs

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

El artículo presenta CaReFlow, un método que utiliza un flujo rectificado cíclico adaptativo para reducir la brecha modal mediante una estrategia de mapeo uno-a-muchos y alineación relajada, logrando una fusión multimodal más robusta y precisa en tareas de computación afectiva.

Sijie Mai, Shiqin Han2026-02-24🤖 cs.LG

Artefact-Aware Fungal Detection in Dermatophytosis: A Real-Time Transformer-Based Approach for KOH Microscopy

Este estudio presenta un enfoque basado en transformadores (RT-DETR) para la detección en tiempo real de dermatofitosis en microscopía KOH, que logra una precisión superior al distinguir estructuras fúngicas de artefactos y alcanzar una sensibilidad del 100% en el diagnóstico.

Rana Gursoy, Abdurrahim Yilmaz, Baris Kizilyaprak + 5 more2026-02-24🤖 cs.AI

← Anterior Siguiente →