Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

El modelo Crab+^{+} aborda el problema de la transferencia negativa en la comprensión unificada de escenas audio-visuales mediante un conjunto de datos de instrucción con razonamiento explícito y un mecanismo de LoRA interactivo que coordina dinámicamente las tareas heterogéneas, logrando así un rendimiento superior en la mayoría de las tareas en comparación con los enfoques de entrenamiento único.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Este trabajo presenta un marco de regulación de la atención durante la inferencia que utiliza máscaras anatómicas y guías patológicas para generar radiografías de tórax contrafactuales con cambios patológicos precisos y una consistencia anatómica preservada, resolviendo así los problemas de distorsión estructural y expresión inestable de las lesiones en los métodos de difusión existentes.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Este artículo presenta HBRB-BoW, un algoritmo de entrenamiento de vocabulario visual jerárquico que integra flujos de valores reales para preservar la fidelidad de los descriptores y mejorar la precisión del reconocimiento de lugares en ORB-SLAM, superando las limitaciones de pérdida de información inherentes a los métodos binarios tradicionales.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Este artículo presenta el modelo LISTA-Transformer, que integra la codificación dispersa basada en el algoritmo LISTA con el mecanismo de atención de los Transformers para superar las limitaciones de las redes convolucionales y los modelos Transformer existentes en la extracción de características locales y globales, logrando una tasa de reconocimiento de fallos del 98,5% en el conjunto de datos CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Este trabajo presenta un marco de entrenamiento aumentado que aplica degradaciones artificiales diversas a un subconjunto de individuos para mejorar significativamente la robustez y precisión del re-identificación de animales individuales en imágenes degradadas, estableciendo además nuevos benchmarks y recursos públicos para la investigación en este campo.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

El artículo presenta PlaneCycle, un operador libre de entrenamiento y adaptadores que permite elevar modelos fundacionales 2D preentrenados a representaciones 3D volumétricas mediante la distribución cíclica de la agregación espacial en planos ortogonales, logrando un rendimiento competitivo en tareas de clasificación y segmentación 3D sin modificar la arquitectura original ni requerir reentrenamiento.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Este trabajo presenta una perspectiva basada en la verosimilitud para la agregación de densidades mediante medias generalizadas, demostrando teórica y empíricamente que solo el rango de orden r[0,1]r \in [0,1] garantiza mejoras sistemáticas sobre las distribuciones individuales, lo que justifica el uso predominante de la agregación lineal y geométrica en ensambles profundos.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

El artículo presenta Real5-OmniDocBench, el primer benchmark que reconstruye físicamente de forma completa y controlada todo el conjunto de datos OmniDocBench v1.5 en cinco escenarios del mundo real, permitiendo por primera vez un análisis riguroso de las causas de degradación en el rendimiento de los modelos de visión-lingüística para la interpretación de documentos.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

El artículo propone DiverseDiT, un marco innovador que mejora el aprendizaje de representaciones en los Transformadores de Difusión al fomentar explícitamente la diversidad de características entre bloques mediante conexiones residuales largas y una pérdida de diversidad, logrando así un rendimiento superior y una convergencia acelerada en diversas configuraciones.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

El artículo presenta ViterbiPlanNet, un marco innovador que integra explícitamente el conocimiento procedimental mediante una capa de Viterbi diferenciable para lograr una planificación de instrucciones en videos más eficiente en muestras y robusta, superando el estado del arte con significativamente menos parámetros que los enfoques basados en grandes modelos.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Este estudio multicéntrico evalúa la aplicabilidad de métodos de aprendizaje profundo que utilizan datos secuenciales e información temporal para mejorar la precisión en la detección y segmentación de pólipos en tiempo real durante las colonoscopias, abordando así los desafíos de las tasas de detección fallida en la práctica clínica.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

El artículo presenta CubeComposer, un modelo de difusión autoregresivo espaciotemporal innovador que genera nativamente videos 360° de 4K a partir de videos en perspectiva, superando las limitaciones de resolución y eficiencia de los métodos existentes mediante una estrategia de descomposición en cubemap y mecanismos de gestión de contexto optimizados.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI