cs.CV artículos | Gist.Science

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

El modelo Crab $^{+}$ aborda el problema de la transferencia negativa en la comprensión unificada de escenas audio-visuales mediante un conjunto de datos de instrucción con razonamiento explícito y un mecanismo de LoRA interactivo que coordina dinámicamente las tareas heterogéneas, logrando así un rendimiento superior en la mayoría de las tareas en comparación con los enfoques de entrenamiento único.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Este trabajo presenta un marco de regulación de la atención durante la inferencia que utiliza máscaras anatómicas y guías patológicas para generar radiografías de tórax contrafactuales con cambios patológicos precisos y una consistencia anatómica preservada, resolviendo así los problemas de distorsión estructural y expresión inestable de las lesiones en los métodos de difusión existentes.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Este artículo presenta HBRB-BoW, un algoritmo de entrenamiento de vocabulario visual jerárquico que integra flujos de valores reales para preservar la fidelidad de los descriptores y mejorar la precisión del reconocimiento de lugares en ORB-SLAM, superando las limitaciones de pérdida de información inherentes a los métodos binarios tradicionales.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Este artículo presenta el modelo LISTA-Transformer, que integra la codificación dispersa basada en el algoritmo LISTA con el mecanismo de atención de los Transformers para superar las limitaciones de las redes convolucionales y los modelos Transformer existentes en la extracción de características locales y globales, logrando una tasa de reconocimiento de fallos del 98,5% en el conjunto de datos CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Este trabajo presenta un marco de entrenamiento aumentado que aplica degradaciones artificiales diversas a un subconjunto de individuos para mejorar significativamente la robustez y precisión del re-identificación de animales individuales en imágenes degradadas, estableciendo además nuevos benchmarks y recursos públicos para la investigación en este campo.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

El artículo presenta PlaneCycle, un operador libre de entrenamiento y adaptadores que permite elevar modelos fundacionales 2D preentrenados a representaciones 3D volumétricas mediante la distribución cíclica de la agregación espacial en planos ortogonales, logrando un rendimiento competitivo en tareas de clasificación y segmentación 3D sin modificar la arquitectura original ni requerir reentrenamiento.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Este trabajo presenta una perspectiva basada en la verosimilitud para la agregación de densidades mediante medias generalizadas, demostrando teórica y empíricamente que solo el rango de orden $r \in [0,1]$ garantiza mejoras sistemáticas sobre las distribuciones individuales, lo que justifica el uso predominante de la agregación lineal y geométrica en ensambles profundos.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

El artículo presenta Real5-OmniDocBench, el primer benchmark que reconstruye físicamente de forma completa y controlada todo el conjunto de datos OmniDocBench v1.5 en cinco escenarios del mundo real, permitiendo por primera vez un análisis riguroso de las causas de degradación en el rendimiento de los modelos de visión-lingüística para la interpretación de documentos.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

Este trabajo propone un enfoque basado en un autoencoder variacional especializado que utiliza estimación de densidad no paramétrica por vecinos más cercanos para eliminar dependencias de variables sensibles en los datos, superando a métodos existentes en la preservación de la utilidad mientras garantiza la independencia.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

El artículo propone DiverseDiT, un marco innovador que mejora el aprendizaje de representaciones en los Transformadores de Difusión al fomentar explícitamente la diversidad de características entre bloques mediante conexiones residuales largas y una pérdida de diversidad, logrando así un rendimiento superior y una convergencia acelerada en diversas configuraciones.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

El artículo presenta DeNuC, un método que desacopla la detección y clasificación de núcleos en imágenes de patología para superar las limitaciones de los modelos fundacionales actuales, logrando un rendimiento superior con una eficiencia computacional significativamente mayor.

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

El artículo presenta EmbodiedSplat, un método de alimentación directa en línea que permite la reconstrucción 3D y la comprensión semántica de vocabulario abierto de escenas en tiempo real mediante la vinculación eficiente de incrustaciones CLIP a gaussianas 3D y la incorporación de priores geométricos.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Este artículo presenta una arquitectura neuronal equivariante que mejora la robustez ante variaciones de color al elevar las transformaciones de saturación y luminosidad de líneas reales a círculos (una doble cobertura), resolviendo así las distorsiones de métodos anteriores y logrando un mejor rendimiento en tareas de clasificación y diagnóstico médico.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

El artículo presenta ViterbiPlanNet, un marco innovador que integra explícitamente el conocimiento procedimental mediante una capa de Viterbi diferenciable para lograr una planificación de instrucciones en videos más eficiente en muestras y robusta, superando el estado del arte con significativamente menos parámetros que los enfoques basados en grandes modelos.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

El artículo presenta SSR, un marco de compresión genérico que utiliza descripciones textuales y vectores de características de imágenes mínimas para reducir significativamente la huella de memoria y ancho de banda de los mapas robóticos sin sacrificar la fidelidad en tareas de localización.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Este estudio multicéntrico evalúa la aplicabilidad de métodos de aprendizaje profundo que utilizan datos secuenciales e información temporal para mejorar la precisión en la detección y segmentación de pólipos en tiempo real durante las colonoscopias, abordando así los desafíos de las tasas de detección fallida en la práctica clínica.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

El artículo presenta CubeComposer, un modelo de difusión autoregresivo espaciotemporal innovador que genera nativamente videos 360° de 4K a partir de videos en perspectiva, superando las limitaciones de resolución y eficiencia de los métodos existentes mediante una estrategia de descomposición en cubemap y mecanismos de gestión de contexto optimizados.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

El artículo presenta MMFA, un nuevo método no supervisado que logra una animación facial realista y controlable mediante el aprendizaje de representaciones auto-supervisadas para desacoplar la identidad del movimiento y permitir la interpolación de expresiones faciales.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

El artículo presenta PromptAvatar, un marco basado en modelos de difusión duales y un nuevo conjunto de datos multimodales a gran escala que genera avatares 3D de alta fidelidad a partir de texto o imágenes en menos de 10 segundos, superando las limitaciones de control semántico y velocidad de los métodos existentes.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

El estudio CRESTomics presenta un nuevo modelo de clasificación aditiva basado en núcleos que, al analizar imágenes de ultrasonido de placas carotídeas del ensayo CREST-2, permite identificar de manera precisa e interpretable marcadores de radiómica asociados con el riesgo clínico de ictus.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

← Anterior Siguiente →

cs.CV

Crab+^{+}+: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation