cs.CV artículos | Gist.Science

Bridging Human Evaluation to Infrared and Visible Image Fusion

Este artículo presenta un marco de retroalimentación por refuerzo que, mediante la creación del primer conjunto de datos a gran escala con evaluaciones humanas y el uso de un modelo de recompensa especializado, optimiza la fusión de imágenes infrarrojas y visibles para alinear sus resultados con las preferencias estéticas humanas.

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements

El artículo presenta Yolo-Key-6D, un marco de trabajo de una sola etapa y extremo a extremo para la estimación de pose 6D monocular que mejora la precisión y la velocidad mediante la integración de una cabeza auxiliar para la detección de puntos clave y una regresión de rotación continua, logrando resultados competitivos en tiempo real en los conjuntos de datos LINEMOD y LINEMOD-Occluded.

Kemal Alperen Çetiner, Hazım Kemal Ekenel2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

El artículo presenta UniSync, un marco unificado que logra una sincronización labial de alta fidelidad y generalizable en diversos escenarios desafiantes mediante una estrategia de entrenamiento sin máscaras anclada a la pose y una inferencia de mezcla basada en máscaras, superando así las limitaciones de los métodos actuales y estableciendo un nuevo estándar de evaluación con el benchmark RealWorld-LipSync.

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

A novel network for classification of cuneiform tablet metadata

Este artículo presenta una nueva arquitectura de red neuronal inspirada en convoluciones que clasifica eficazmente los metadatos de tablillas cuneiformes al integrar información local y global en nubes de puntos de alta resolución, superando el rendimiento del estado del arte (Point-BERT) para abordar la escasez de expertos y datos anotados.

Frederik Hagelskjær2026-03-05🤖 cs.AI

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Este trabajo propone un marco de evaluación unificado y el método SURE+ para mejorar la fiabilidad de los clasificadores al abordar conjuntamente la detección de datos fuera de distribución y la predicción de fallos mediante métricas de doble puntuación.

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Este trabajo propone una arquitectura de seguimiento modular asíncrona (MATA) que combina transformadores con filtros de Kalman y compensación de movimiento para mejorar la robustez en UAVs, junto con un nuevo protocolo de evaluación y la métrica NT2F para cuantificar el rendimiento en sistemas embebidos.

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

Este artículo presenta FGAesthetics, una nueva base de datos de evaluación estética de imágenes de alta granularidad, y FGAesQ, un marco innovador que aprende puntuaciones estéticas discriminativas a partir de rangos relativos mediante técnicas como la tokenización preservadora de diferencias y la alineación asistida por texto comparativo, logrando así una evaluación precisa en escenarios de variaciones sutiles.

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Este artículo propone un método de inyección de n-gramas (NGI) en decodificadores Transformer que permite adaptar dinámicamente el modelo de lenguaje durante la inferencia para mitigar los sesgos causados por cambios en la distribución del lenguaje en el reconocimiento de texto manuscrito, sin necesidad de reentrenamiento con pares imagen-texto del dominio objetivo.

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

El artículo presenta DISC, un marco de mapeo semántico de conjunto abierto a gran escala que supera las limitaciones de los métodos actuales mediante una extracción de características densa y en una sola pasada basada en CLIP, logrando una precisión semántica superior y capacidades de tiempo real en entornos complejos.

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Este artículo presenta CMDR-IAD, un marco de aprendizaje no supervisado ligero y flexible que integra mapeo cruzado bidireccional 2D-3D y reconstrucción de doble rama para lograr una detección de anomalías industriales robusta y precisa, incluso en condiciones de ruido, texturas débiles o modalidades incompletas, superando el estado del arte en el benchmark MVTec 3D-AD.

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Este estudio retrospectivo demuestra que el uso de redes neuronales convolucionales, específicamente DenseNet121, es prometedor para la detección automática y la localización de artefactos de intensidad hiper e hipointensa en imágenes de resonancia magnética de mama con alto valor b mediante clasificación binaria y multiclase.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Spatial Causal Prediction in Video

Este trabajo introduce el paradigma de Predicción Causal Espacial (SCP) y el correspondiente SCP-Bench para evaluar la capacidad de los modelos de IA de inferir estados espaciales no observados, revelando brechas significativas con el rendimiento humano y proponiendo estrategias para mejorar la inteligencia causal espacial.

Yanguang Zhao, Jie Yang, Shengqiong Wu + 9 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

El artículo presenta RVN-Bench, un nuevo estándar de evaluación para la navegación visual reactiva en entornos interiores que prioriza la seguridad y la evitación de colisiones mediante el uso del simulador Habitat 2.0 y escenas de alta fidelidad.

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

Towards Generalized Multimodal Homography Estimation

Este trabajo propone un método de síntesis de datos de entrenamiento y una red neuronal diseñada para mejorar la generalización y la precisión en la estimación de homografías multimodales al generar pares de imágenes no alineados con diversas texturas y colores mientras preservan la información estructural.

Jinkun You, Jiaxin Cheng, Jie Zhang + 1 more2026-03-05🤖 cs.AI

Structural Action Transformer for 3D Dexterous Manipulation

Este artículo presenta el Structural Action Transformer (SAT), una nueva política de manipulación diestra en 3D que supera las limitaciones de los métodos existentes al reformular las acciones como secuencias estructurales desordenadas de trayectorias articulares, lo que permite un aprendizaje eficiente por imitación y una transferencia de habilidades efectiva entre diferentes cuerpos robóticos mediante el uso de un código de articulaciones encarnadas y un objetivo de flujo continuo.

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

El artículo presenta ProFound, un modelo fundacional de visión especializado en el dominio de la resonancia magnética multiparamétrica de la próstata, preentrenado mediante aprendizaje auto-supervisado en más de 22,000 volúmenes 3D, que demuestra un rendimiento superior o competitivo frente a los modelos de vanguardia en 11 tareas clínicas distintas.

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

El artículo presenta BLOCK, una pipeline de código abierto de dos etapas que utiliza un modelo multimodal grande y un modelo FLUX.2 fine-tuned con una metodología EvolveLoRA para generar skins de Minecraft perfectas en píxeles a partir de conceptos de personajes arbitrarios.

Hengquan Guo2026-03-05🤖 cs.AI

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

El artículo presenta UniRain, un marco unificado para la eliminación de lluvia en imágenes que combina una destilación de conjuntos de datos basada en generación aumentada por recuperación (RAG) y una estrategia de optimización reponderada multiobjetivo para lograr un rendimiento robusto y generalizable en diversas condiciones de lluvia diurnas y nocturnas.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

Este artículo presenta un nuevo método de preentrenamiento auto-supervisado que supera las limitaciones de anotación en el aprendizaje de representaciones de eventos visuales mediante la distilación de modelos fundacionales visuales y una pérdida de alineación estructural, logrando un rendimiento superior en benchmarks de tareas posteriores.

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

El artículo presenta Dual-Solver, un solucionador generalizado de EDOs para modelos de difusión que utiliza parámetros aprendibles para optimizar la interpolación entre tipos de predicción, la selección del dominio de integración y el ajuste de términos residuales, logrando así una mejora significativa en la calidad de generación de imágenes con un bajo número de evaluaciones de funciones.

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG

← Anterior Siguiente →