cs.CV artículos | Gist.Science

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

El artículo presenta PromptGate, un marco de aprendizaje activo federado que utiliza un modelo de lenguaje visual dinámico con optimización de contexto específico por clase para purificar conjuntos de datos abiertos y mejorar la eficiencia de la anotación en entornos médicos distribuidos sin comprometer la privacidad de los pacientes.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

El artículo propone ACD-U, un marco de aprendizaje asimétrico que combina dos arquitecturas distintas (CLIP y CNN) con un mecanismo de olvido selectivo para corregir activamente errores de selección y lograr un rendimiento superior en entornos con etiquetas ruidosas.

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Este estudio evalúa sistemáticamente las visualizaciones de clase y los atlas de activación en modelos de transformers para patología computacional, demostrando que, aunque estas técnicas revelan estructuras morfológicas coherentes en tareas de clasificación de tejidos, su interpretabilidad disminuye en subclases oncológicas complejas debido a la ambigüedad intrínseca de los datos.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

El artículo presenta FreeFly-Thinking, un marco de navegación visión-lenguaje de extremo a extremo para drones que utiliza el razonamiento de cadena de pensamiento y una estrategia de entrenamiento en dos etapas para mejorar la navegación autónoma en complejos entornos urbanos exteriores.

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

FastSTAR es un marco de aceleración sin entrenamiento que utiliza poda de tokens espaciotemporales y actualizaciones parciales para mitigar la explosión de tokens en la síntesis de video autoregresiva, logrando una velocidad de hasta 2.01 veces mayor con una degradación de rendimiento inferior al 1%.

Sungwoong Yune, Suheon Jeong, Joo-Young Kim2026-03-10💻 cs

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

Este artículo presenta SPCP, un método que mejora la detección de datos fuera de distribución al fomentar patrones de contribución de parámetros más densos y orientados a los límites durante el entrenamiento, evitando así las predicciones excesivamente confiables causadas por la dependencia de unos pocos parámetros dominantes.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

El artículo presenta VINO, un marco de aprendizaje auto-supervisado que utiliza un cuello de botella de información estructural y un proceso de destilación asimétrica para desvincular los objetos del contexto en videos densos, logrando representaciones centradas en el objeto que superan a los métodos anteriores en tareas de descubrimiento no supervisado.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

LightMedSeg es una arquitectura de segmentación médica 3D ligera y eficiente que integra priores anatómicos y mecanismos de modulación adaptativa para lograr una precisión comparable a los modelos basados en transformadores, pero con una fracción de los parámetros y costos computacionales.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

El artículo presenta BATDiff, un modelo de difusión no supervisado que utiliza una transformada wavelet bivariate `a trous` para proporcionar orientación estructurada entre escalas y generar reconstrucciones de superresolución más nítidas y coherentes que los métodos existentes.

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

El artículo presenta HY-WU, un marco de adaptación basado en memoria funcional que genera actualizaciones de pesos específicas para cada instancia en tiempo real, evitando el sobrescritura de parámetros compartidos y permitiendo un aprendizaje continuo y una personalización instantánea sin necesidad de optimización durante la inferencia.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

El artículo presenta FabricGen, un marco de trabajo integral que genera materiales de tela tejida de alta calidad a partir de descripciones textuales mediante la descomposición de la tarea en la síntesis de texturas macroscópicas con modelos de difusión y la creación de geometrías microscópicas realistas impulsada por un modelo de lenguaje especializado (WeavingLLM) que diseña patrones de tejido acordes a los principios de la industria.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

El artículo presenta PresentBench, un nuevo benchmark basado en rúbricas detalladas y preguntas binarias para evaluar de manera precisa y alineada con preferencias humanas la generación automática de diapositivas, revelando que NotebookLM supera significativamente a otros métodos existentes.

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

El artículo presenta LEPA, una arquitectura que predice directamente las incrustaciones transformadas mediante aumentos geométricos para resolver las discrepancias espaciales en los modelos fundacionales de teledetección, superando significativamente la precisión de la interpolación estándar en latente.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

El artículo presenta los Mapas de Flujo Variacionales (VFMs), un marco que permite la generación condicional de imágenes de alta calidad en un solo paso mediante el aprendizaje de una distribución de ruido inicial adaptada a la observación, superando así las limitaciones de los modelos iterativos tradicionales.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

Este trabajo presenta BD-VITON, un nuevo conjunto de datos centrado en prendas tradicionales de Bangladesh como el saree y el panjabi, diseñado para abordar las limitaciones de generalización cultural de los sistemas actuales de prueba virtual de ropa y establecer líneas base robustas mediante la evaluación de modelos avanzados.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

El artículo presenta MAviS, un asistente conversacional multimodal especializado en especies aviares que se basa en un nuevo dataset y un benchmark para superar las limitaciones de los modelos existentes en la comprensión fina y la respuesta a preguntas sobre aves, logrando resultados de vanguardia en aplicaciones ecológicas.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Este artículo propone un método que combina entrenamiento adversarial con un bloque de suavizado de mapas de características para generar mapas de saliencia más estables, dispersos y confiables, demostrando mediante análisis teóricos, experimentos y un estudio humano que la calidad de las explicaciones depende críticamente del procedimiento de entrenamiento.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

El artículo presenta StructSAM, un marco de fusión y recuperación de tokens que preserva la estructura y el espectro para optimizar los modelos Segment Anything (SAM) mediante la reducción de costos computacionales sin sacrificar significativamente la precisión en la segmentación de bordes.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

El artículo presenta Faster-HEAL, un marco de percepción colaborativa ligero y que preserva la privacidad, diseñado para alinear características de vehículos autónomos heterogéneos mediante prompts visuales de bajo rango y fusión piramidal, logrando así un rendimiento superior con una reducción del 94% en parámetros entrenables en comparación con los métodos existentes.

Armin Maleki, Hayder Radha2026-03-10💻 cs

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Este artículo presenta un marco ligero basado en gemelos digitales para el seguimiento de vehículos y la predicción de colisiones en sistemas de transporte inteligentes, el cual utiliza únicamente detección de objetos y mapas de ruta precalculados para lograr una alta precisión en la predicción de colisiones con bajo costo computacional adecuado para dispositivos de borde.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

← Anterior Siguiente →