cs.CV artículos | Gist.Science

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

El artículo presenta PathoScribe, un marco unificado impulsado por modelos de lenguaje grandes que transforma los archivos de patología estáticos en una biblioteca viva y razonable, permitiendo la recuperación semántica, la construcción automatizada de cohortes y la integración clínica con una precisión y eficiencia significativamente superiores a los métodos tradicionales.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

El artículo presenta BiCLIP, un marco sencillo y eficiente que mejora la adaptación de dominios en modelos de visión y lenguaje mediante una transformación geométrica canónica aprendida a partir de pocas muestras, logrando resultados de vanguardia en múltiples benchmarks.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Este artículo presenta el primer benchmark de aprendizaje continuo sin ejemplos para la segmentación audio-visual, junto con el modelo ATLAS que utiliza condicionamiento guiado por audio y anclaje de bajo rango para mitigar el olvido catastrófico en entornos dinámicos.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

El artículo presenta SVG-EAR, un método libre de parámetros que mejora la generación de video dispersa mediante una compensación lineal basada en centroides y un enrutamiento consciente del error, logrando aceleraciones de hasta 1.93× sin sacrificar la calidad de la generación.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

El artículo presenta SurgCalib, un marco de calibración mano-ojo automático y sin marcadores para el robot quirúrgico da Vinci que utiliza la representación por Splatting Gaussiano para refinar la estimación de la pose del instrumento quirúrgico, superando las limitaciones de las mediciones cinemáticas imprecisas y evitando la necesidad de patrones fiduciales que comprometan la esterilidad.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS es un método plug-and-play que acelera el entrenamiento de 3DGS en un 23,1% reduciendo el tiempo de la fase de post-densificación mediante un mecanismo adaptativo que omite selectivamente las retropropagaciones redundantes sin comprometer la calidad de reconstrucción.

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Este trabajo propone un marco de autenticación basado en difusión que utiliza la firma de la impresora para distinguir eficazmente los patrones de detección de copias genuinos de los falsificados, superando a los métodos tradicionales y anteriores enfoques de aprendizaje profundo.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

El artículo propone Normalized Flow Matching (NFM), un método que mejora el entrenamiento de modelos generadores de flujo mediante la destilación de acoplamientos adaptativos de modelos de flujo normalizado preentrenados, logrando un rendimiento superior tanto a los flujos entrenados con acoplamientos independientes u óptimos como al propio modelo docente.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Este trabajo propone una medida de planitud exacta y arquitectónicamente fiel para redes neuronales convolucionales, derivada de una expresión en forma cerrada del trazo de la Hessiana, que permite estimar con mayor precisión el rendimiento de generalización y guiar decisiones de diseño y entrenamiento.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

El artículo presenta WS-Net, un marco de desmezcla hiperespectral basado en aprendizaje profundo que combina modelado de espacio de estados y atención a señales débiles para mejorar significativamente la estimación de abundancia de endmemberes de baja intensidad en condiciones de ruido y señales dominantes.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

El artículo presenta SpectralDiff, un marco de difusión estructurado espectralmente que elimina las manchas de lluvia de imágenes individuales mediante perturbaciones espectrales dirigidas y una arquitectura U-Net de producto completo, logrando un rendimiento competitivo con mayor eficiencia computacional.

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Este estudio propone un marco de trabajo mejorado basado en YOLOv8 que combina la detección de fuego y humo con el análisis de proximidad a objetos circundantes para generar una evaluación cuantitativa de riesgos y alertas prioritarias en sitios de ingeniería.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

El artículo presenta GST-VLA, un modelo de visión-lenguaje-acción que mejora la percepción geométrica y el razonamiento espacial mediante un tokenizador de Gaussiana 3D y un proceso de pensamiento encadenado consciente de la profundidad, logrando un rendimiento superior en tareas de manipulación robótica.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

OmniEdit es un marco de trabajo sin entrenamiento que aborda la sincronización labial y la edición audio-visual mediante la reformulación del proceso de edición para eliminar el ajuste supervisado, reduciendo así la sobrecarga computacional y los requisitos de datos.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Este artículo presenta un marco para la generación de videos físicamente plausibles que aborda la progresión causal mediante dos módulos clave: el razonamiento de cadenas de eventos impulsado por la física y la instrucción cruzada multimodal consciente de las transiciones, logrando así una superioridad en benchmarks como PhyGenBench y VideoPhy.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudio diagnostica sistemáticamente la brecha de rendimiento entre el texto y las imágenes en modelos multimodales, identificando que las imágenes de texto amplifican errores de lectura y cálculo, y propone un método de auto-distilación que utiliza trazas de razonamiento en texto puro para cerrar esta brecha y mejorar significativamente la precisión en tareas visuales.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

El artículo presenta MedKCO, un método de preentrenamiento visión-idioma médico que supera las limitaciones cognitivas actuales mediante una orquestación basada en el conocimiento que organiza los datos en un currículo de dos niveles y utiliza una pérdida de contraste asimétrica auto-pasiva para mejorar las representaciones de características y el rendimiento en tareas posteriores.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Este trabajo propone un marco de factorización de movimiento sin entrenamiento que descompone la generación de video composicional en tres categorías (inmovilidad, movimiento rígido y no rígido) mediante un enfoque de planificación previa a la generación, permitiendo la síntesis de múltiples instancias con apariencia y movimiento diversos de manera agnóstica al modelo.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Este artículo presenta un marco basado en transformadores para la recuperación de casos de cáncer de piel mediante consultas compuestas de imagen y texto, que logra mejoras sobre el estado del arte al alinear jerárquicamente representaciones globales y locales mediante un mecanismo de atención espacial y un ponderamiento convexo informado clínicamente.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

El artículo presenta VIVID-Med, un marco innovador que utiliza un modelo de lenguaje grande (LLM) congelado como maestro semántico estructurado para preentrenar transformadores de visión (ViT) médicos, logrando un rendimiento superior en diversas tareas de análisis de imágenes médicas con una fracción de los datos necesarios y eliminando la necesidad de depender del LLM en la fase de despliegue.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

← Anterior Siguiente →