Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements

El artículo presenta Yolo-Key-6D, un marco de trabajo de una sola etapa y extremo a extremo para la estimación de pose 6D monocular que mejora la precisión y la velocidad mediante la integración de una cabeza auxiliar para la detección de puntos clave y una regresión de rotación continua, logrando resultados competitivos en tiempo real en los conjuntos de datos LINEMOD y LINEMOD-Occluded.

Kemal Alperen Çetiner, Hazım Kemal Ekenel2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

El artículo presenta UniSync, un marco unificado que logra una sincronización labial de alta fidelidad y generalizable en diversos escenarios desafiantes mediante una estrategia de entrenamiento sin máscaras anclada a la pose y una inferencia de mezcla basada en máscaras, superando así las limitaciones de los métodos actuales y estableciendo un nuevo estándar de evaluación con el benchmark RealWorld-LipSync.

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

Este artículo presenta FGAesthetics, una nueva base de datos de evaluación estética de imágenes de alta granularidad, y FGAesQ, un marco innovador que aprende puntuaciones estéticas discriminativas a partir de rangos relativos mediante técnicas como la tokenización preservadora de diferencias y la alineación asistida por texto comparativo, logrando así una evaluación precisa en escenarios de variaciones sutiles.

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Este artículo propone un método de inyección de n-gramas (NGI) en decodificadores Transformer que permite adaptar dinámicamente el modelo de lenguaje durante la inferencia para mitigar los sesgos causados por cambios en la distribución del lenguaje en el reconocimiento de texto manuscrito, sin necesidad de reentrenamiento con pares imagen-texto del dominio objetivo.

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Este artículo presenta CMDR-IAD, un marco de aprendizaje no supervisado ligero y flexible que integra mapeo cruzado bidireccional 2D-3D y reconstrucción de doble rama para lograr una detección de anomalías industriales robusta y precisa, incluso en condiciones de ruido, texturas débiles o modalidades incompletas, superando el estado del arte en el benchmark MVTec 3D-AD.

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Este estudio retrospectivo demuestra que el uso de redes neuronales convolucionales, específicamente DenseNet121, es prometedor para la detección automática y la localización de artefactos de intensidad hiper e hipointensa en imágenes de resonancia magnética de mama con alto valor b mediante clasificación binaria y multiclase.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Structural Action Transformer for 3D Dexterous Manipulation

Este artículo presenta el Structural Action Transformer (SAT), una nueva política de manipulación diestra en 3D que supera las limitaciones de los métodos existentes al reformular las acciones como secuencias estructurales desordenadas de trayectorias articulares, lo que permite un aprendizaje eficiente por imitación y una transferencia de habilidades efectiva entre diferentes cuerpos robóticos mediante el uso de un código de articulaciones encarnadas y un objetivo de flujo continuo.

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

El artículo presenta ProFound, un modelo fundacional de visión especializado en el dominio de la resonancia magnética multiparamétrica de la próstata, preentrenado mediante aprendizaje auto-supervisado en más de 22,000 volúmenes 3D, que demuestra un rendimiento superior o competitivo frente a los modelos de vanguardia en 11 tareas clínicas distintas.

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

El artículo presenta UniRain, un marco unificado para la eliminación de lluvia en imágenes que combina una destilación de conjuntos de datos basada en generación aumentada por recuperación (RAG) y una estrategia de optimización reponderada multiobjetivo para lograr un rendimiento robusto y generalizable en diversas condiciones de lluvia diurnas y nocturnas.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

El artículo presenta Dual-Solver, un solucionador generalizado de EDOs para modelos de difusión que utiliza parámetros aprendibles para optimizar la interpolación entre tipos de predicción, la selección del dominio de integración y el ajuste de términos residuales, logrando así una mejora significativa en la calidad de generación de imágenes con un bajo número de evaluaciones de funciones.

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG