cs.CV artículos | Gist.Science

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Este trabajo demuestra que la destilación asimétrica de un modelo Vision Transformer masivo a redes CNN de capacidad restringida provoca un colapso dimensional severo que reduce la dimensión intrínseca de ~88 a ~16, lo que genera una fragilidad crítica ante el ruido que solo las arquitecturas extremadamente pequeñas pueden mitigar mediante un efecto de filtrado de paso bajo.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Este artículo presenta gRef-CW, el primer conjunto de datos para la localización visual generalizada en agricultura que incluye expresiones negativas, y propone Weed-VG, un marco modular diseñado para superar las limitaciones de los modelos actuales al localizar instancias de cultivos y malezas en condiciones de campo complejas.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Este artículo presenta SIQA, un nuevo marco de evaluación para imágenes científicas que, a diferencia de los métodos tradicionales centrados en la percepción, mide tanto la validez y completitud del conocimiento científico como la claridad cognitiva, revelando mediante un benchmark y protocolos específicos que los modelos multimodales actuales muestran una mayor alineación en la puntuación que en la comprensión real del contenido científico.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Este artículo propone un marco de MLLM consciente de la cámara que, al inyectar parámetros intrínsecos, aplicar aumentación de datos específica y destilar priores geométricos, supera las limitaciones de generalización de los enfoques basados únicamente en RGB para lograr una inteligencia espacial robusta y transferible entre diferentes cámaras.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Este estudio demuestra que la regresión cuantílica conformalizada mejora la fiabilidad de las predicciones de erupciones solares al proporcionar intervalos de confianza con mayor cobertura y longitudes más favorables en comparación con otros métodos de aprendizaje profundo.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

El artículo presenta UWPD, un nuevo paradigma para la detección universal de marcas de agua invisibles que, mediante el modelo FSNet y el conjunto de datos UniFreq-100K, identifica la presencia de marcas de agua sin necesidad de conocer el algoritmo de incrustación específico, superando las limitaciones de los métodos actuales que dependen de conocimientos previos.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Este artículo introduce HERO, un marco unificado para la localización temporal de oraciones en videos bajo configuración de vocabulario abierto, junto con los primeros benchmarks dedicados (Charades-OV y ActivityNet-OV), demostrando una superior capacidad de generalización frente a los métodos existentes mediante el refinamiento jerárquico de embeddings y la alineación multimodal.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Este artículo presenta un marco de aprendizaje profundo con atención multiplicativa externa que integra mapas de biomarcadores vasculares, como la tortuosidad y la pérdida de capilares derivados de la angiografía por tomografía de coherencia óptica (OCTA), para mejorar la detección de la degeneración macular asociada a la edad (DMAE) mediante el enfoque en regiones fisiológicamente relevantes.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Este artículo presenta un marco eficiente para el entrenamiento descentralizado de modelos de difusión heterogéneos que, al combinar objetivos de entrenamiento mixtos (DDPM y Flow Matching) y una arquitectura optimizada, reduce drásticamente los requisitos de cómputo y datos mientras mejora la calidad y diversidad de las imágenes generadas en comparación con enfoques anteriores homogéneos.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

El artículo presenta ButterflyViT, un método que logra una compresión de memoria de 354 veces para Vision Transformers con Mezclas de Expertos en dispositivos de borde, reemplazando el almacenamiento redundante de expertos independientes por una parametrización geométrica basada en un sustrato compartido y rotaciones aprendidas, lo que permite escalar sub-linealmente el número de expertos sin pérdida significativa de precisión.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

El artículo presenta XMACNet, una red neuronal convolucional ligera y explicable que fusiona imágenes RGB e índices de vegetación mediante atención automática para clasificar enfermedades en chiles con alta precisión, superando a modelos existentes y facilitando su implementación en dispositivos de borde.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

El artículo presenta EarthBridge, un marco de traducción de alta fidelidad que combina modelos de puente difusivo y aprendizaje contrastivo para lograr una conversión precisa entre imágenes aéreas de sensores EO, IR y SAR, obteniendo el segundo lugar en el desafío MAVIC-T.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

El artículo presenta HiDE, un marco de modelado de entropía basado en diccionarios jerárquicos para la compresión de imágenes aprendida que mejora la eficiencia de codificación al explotar priores externos estructurados y un estimador de parámetros contextual, logrando ahorros significativos en la tasa de bits en comparación con el estado del arte.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Este artículo presenta un modelo híbrido de aprendizaje automático que combina las arquitecturas VGG-19, Efficient-Net y ResNet50 con un clasificador Bi-LSTM para lograr una detección temprana de parálisis cerebral en imágenes de resonancia magnética cerebral con una precisión del 98,83%, superando a los modelos individuales preentrenados.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

El estudio revela que la calidad del anclaje visual paso a paso en modelos visión-lingüísticos de largo horizonte es un indicador predictivo clave de su capacidad de generalización fuera de distribución, superando a la precisión final tradicional como medida de fiabilidad.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Este artículo presenta MotionBits, un concepto y método de segmentación sin aprendizaje que define unidades de movimiento basadas en equivalencia cinemática espacial, junto con el benchmark MoRiBo, logrando un rendimiento superior al estado del arte en la segmentación de cuerpos rígidos para tareas de razonamiento y manipulación robótica.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Este artículo presenta el marco "Perturbed Gaussian Ensemble", un método de selección activa de vistas diseñado para la reconstrucción tomográfica con 3DGS que identifica primitivas gaussianas inciertas mediante escalado estocástico de densidad para seleccionar proyecciones que maximicen la varianza estructural, mejorando así la fidelidad de la reconstrucción en tomografía computarizada de vistas escasas.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

An Extended Topological Model For High-Contrast Optical Flow

Este artículo presenta un modelo topológico extendido basado en haces de círculos que explica las limitaciones del modelo de toro anterior y revela que los parches de flujo óptico de alto contraste se concentran principalmente cerca de círculos correspondientes a bordes de escalón binario en lugar de en el toro, lo cual es crucial para tareas de visión por computadora como la segmentación y el seguimiento.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

El artículo presenta ColonSplat, un marco de *Gaussian Splatting* dinámico que supera las limitaciones de los métodos actuales al reconstruir con precisión el movimiento peristáltico y la consistencia geométrica global en colonoscopias, respaldado por un nuevo conjunto de datos sintéticos llamado DynamicColon.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

El artículo presenta IGLU, una nueva función de activación paramétrica basada en una mezcla de escalas de puertas GELU que utiliza una distribución de cola pesada (Cauchy) para garantizar gradientes no nulos y mejorar la robustez en datos desbalanceados, junto con una aproximación computacionalmente eficiente (IGLU-Approx) que logra un rendimiento competitivo o superior al de ReLU y GELU en tareas de visión y lenguaje con menor costo computacional.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

← Anterior Siguiente →

cs.CV