MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

El artículo presenta MomentMix, una técnica de aumento de datos que combina ForegroundMix y BackgroundMix, junto con un Decodificador Consciente de la Longitud (Length-Aware Decoder) basado en DETR, para mejorar significativamente la recuperación de momentos breves en videos y superar el estado del arte en conjuntos de datos como QVHighlights, TACoS y Charades-STA.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

El artículo presenta RelaCtrl, un marco de generación controlada eficiente que optimiza la integración de señales de control en los Transformadores de Difusión mediante la evaluación de la relevancia de cada capa y el uso de un mezclador de barajado bidimensional, logrando un rendimiento superior con solo el 15% de los parámetros y la complejidad computacional de métodos existentes como PixArt-delta.

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

UniFuture: A 4D Driving World Model for Future Generation and Perception

El artículo presenta UniFuture, un modelo unificado de mundo 4D para la conducción autónoma que genera secuencias futuras de imágenes y mapas de profundidad geométricamente consistentes mediante un esquema de compartición de latentes duales y un mecanismo de interacción multiescala, superando así las limitaciones de los modelos existentes que tratan por separado la apariencia y la geometría.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs

Reflectance Prediction-based Knowledge Distillation for Robust 3D Object Detection in Compressed Point Clouds

Este artículo propone un marco de detección de objetos 3D basado en la destilación de conocimiento con predicción de reflectancia (RPKD) que, al descartar la reflectancia durante la transmisión comprimida y reconstruirla mediante un módulo de predicción geométrica, mejora la robustez y precisión de la detección en sistemas de percepción colaborativa con ancho de banda limitado.

Hao Jing, Anhong Wang, Yifan Zhang + 2 more2026-02-27💻 cs

LinGuinE: Longitudinal Guidance Estimation for Volumetric Tumour Segmentation

El artículo presenta LinGuinE, un marco de trabajo en PyTorch que combina registro de imágenes y segmentación guiada para lograr un seguimiento de lesiones y una segmentación volumétrica precisa en estudios longitudinales de tumores a partir de una sola indicación del radiólogo, sin necesidad de entrenamiento en datos longitudinales y logrando un rendimiento superior al estado del arte.

Nadine Garibli, Mayank Patwari, Bence Csiba + 2 more2026-02-27⚡ eess

Human-Guided Shade Artifact Suppression in CBCT-to-MDCT Translation via Schrödinger Bridge with Conditional Diffusion

Este trabajo presenta un marco novedoso basado en el Puente de Schrödinger y difusión condicional guiada por retroalimentación humana binaria para la traducción de imágenes CBCT a MDCT, que elimina eficazmente los artefactos de sombreado preservando la fidelidad anatómica y superando a los métodos anteriores con solo 10 pasos de muestreo.

Sung Ho Kang, Hyun-Cheol Park2026-02-27💻 cs

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

Este trabajo aborda el desafío de la escasez de datos en la segmentación de imágenes médicas proponiendo un marco basado en la intercambiabilidad en lugar de la independencia e identidad distribuida (i.i.d.), el cual controla las discrepancias de características entre fondos y primeros planos para mitigar los desplazamientos de distribución y lograr un rendimiento superior al estado del arte en múltiples conjuntos de datos.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

LayerT2V: A Unified Multi-Layer Video Generation Framework

El artículo presenta LayerT2V, un marco unificado de generación de video que, aprovechando la compresión de los modelos actuales y un nuevo conjunto de datos llamado VidLayer, produce en una sola inferencia videos completos junto con sus capas de fondo y primer plano correspondientes, garantizando una coherencia semántica y temporal superior para flujos de trabajo profesionales.

Guangzhao Li, Kangrui Cen, Baixuan Zhao + 5 more2026-02-27🤖 cs.AI