cs.CV artículos | Gist.Science

Exploring 3D Dataset Pruning

Este trabajo aborda el desafío de la poda de conjuntos de datos 3D, caracterizados por distribuciones de clases de cola larga que generan conflictos entre métricas de evaluación, proponiendo un método de selección de subconjuntos consciente de la representación y supervisión invariante al prior que optimiza simultáneamente la precisión global y media mediante cuotas de retención por clase.

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

El artículo presenta RC-GeoCP, el primer marco de percepción colaborativa que fusiona imágenes y radar 4D mediante un consenso geométrico para corregir desalineaciones, optimizar la comunicación y lograr una representación global coherente con un rendimiento superior y menor sobrecarga de datos.

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

El artículo presenta SCVM, un marco de visión modulado por memoria cruzada que controla la evolución de las representaciones visuales mediante estados de memoria recursivos y modulación de retroalimentación para preservar detalles finos y alinear semánticamente las características con el modelo de lenguaje sin necesidad de ajuste fino.

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

El artículo presenta HistoSelect, un marco de razonamiento para imágenes de diapositivas completas que imita el proceso de exploración humana mediante una recuperación guiada por preguntas y consciente del tejido, logrando una mayor eficiencia y precisión al reducir el uso de tokens visuales en un 70% mientras mejora la exactitud en tareas de preguntas y respuestas de patología.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

Este trabajo propone un marco innovador que utiliza una red neuronal U-Net de doble canal en el espacio k para reconstruir directamente imágenes de resonancia magnética de bajo campo submuestreadas, logrando una superresolución y calidad de imagen superiores a los métodos espaciales tradicionales y comparables a las adquisiciones completas.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

Este trabajo propone el marco MoLRE, que combina expertos de bajo rango y enrutamiento suave para especializar modelos fundacionales en la detección de hallazgos en TC craneal, logrando mejoras consistentes en el rendimiento sin necesidad de supervisión explícita de patologías.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

El artículo presenta CoLC, un marco de percepción colaborativa eficiente en comunicación que utiliza muestreo de puntos consciente del fondo y reconstrucción de LiDAR para superar las limitaciones de ancho de banda y mantener un alto rendimiento en la detección de objetos.

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

El método SCOUT propone un enfoque de autoaprendizaje sin datos externos que aprovecha la similitud no local espacial y las propiedades conjugadas del dominio de proyección para generar pseudo-etiquetas, logrando una reconstrucción rápida y de alta fidelidad de imágenes de tomografía computarizada espectral en regímenes de datos ultra bajos.

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

El artículo presenta STMI, un marco de aprendizaje multimodal para la reidentificación de objetos que integra modulación de características guiada por segmentación, reasignación de tokens semánticos e interacción hipergráfica entre modalidades para superar las limitaciones de filtrado y fusión existentes.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

TokenSplat es un marco de reconstrucción feed-forward que logra una estimación de pose y una reconstrucción 3D de alta fidelidad a partir de imágenes multivista sin pose, mediante un módulo de predicción de Gaussians alineado con tokens y un decodificador asimétrico que separa eficazmente las señales de cámara de la semántica de la escena.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

Towards Universal Khmer Text Recognition

Este artículo presenta un marco universal de reconocimiento de texto en camboyano (UKTR) que utiliza una técnica de selección adaptativa de características consciente de la modalidad para superar la escasez de datos y lograr un rendimiento superior en diversas modalidades, acompañándolo del primer benchmark integral para la comunidad.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Este artículo presenta el primer estudio integral sobre la detección de la disposición de documentos en escenas para el idioma jemer, introduciendo un nuevo marco que incluye un conjunto de datos de entrenamiento, una herramienta de aumento de datos y modelos basados en YOLO con cajas delimitadoras orientadas para abordar los desafíos específicos de la escritura jemer y la falta de datos anotados.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

IU: Imperceptible Universal Backdoor Attack

Este trabajo presenta un ataque de puerta trasera universal imperceptible que utiliza redes de convolución gráfica para generar perturbaciones específicas por clase, logrando altas tasas de éxito en múltiples objetivos con una tasa de envenenamiento mínima y manteniendo la invisibilidad visual frente a las defensas actuales.

Hsin Lin, Yan-Lun Chen, Ren-Hung Hwang + 1 more2026-03-03🤖 cs.LG

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Este artículo presenta un sistema de reconstrucción para paredes internas de tuberías industriales que utiliza endoscopios y técnicas de ensamblaje de imágenes panorámicas para convertir el video en vistas planas detalladas, mejorando significativamente la eficiencia y precisión en la detección de defectos en comparación con los métodos tradicionales.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

Este trabajo propone un marco de aprendizaje anti-colapso de características que fomenta la diversidad de perspectivas en la detección de imágenes generadas, evitando la dependencia de un único rastro de falsificación y mejorando significativamente la generalización ante mecanismos generativos no vistos.

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

UniHM presenta el primer marco unificado para la manipulación hábil de manos robóticas guiada por comandos de lenguaje libre, que utiliza un tokenizador compartido para generalizar entre diferentes morfologías, un modelo de acción visión-lenguaje entrenado solo con datos de interacción humano-objeto y un módulo de refinamiento dinámico guiado por física para generar secuencias de manipulación realistas y físicamente viables.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

Stroke outcome and evolution prediction from CT brain using a spatiotemporal diffusion autoencoder

Este estudio presenta un autoencoder difusivo espacio-temporal auto-supervisado que, al analizar imágenes de tomografía computarizada y el tiempo desde el inicio del ictus, logra predecir con mayor precisión la evolución y el resultado funcional de los pacientes en comparación con métodos existentes.

Adam Marcus, Paul Bentley, Daniel Rueckert2026-03-03🤖 cs.AI

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

Este artículo presenta el programa de rotación total constante (TORS), un método de muestreo acelerado sin entrenamiento que, inspirado en las fórmulas de Frenet-Serret, optimiza la calidad de las imágenes generadas por modelos de difusión en solo 10 pasos mediante una variación geométrica uniforme a lo largo de la trayectoria de muestreo.

Zhenyu Zhou, Defang Chen, Siwei Lyu + 2 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

El artículo presenta DUCX, un marco de auditoría sistemática que descompone la injusticia en agentes médicos de rayos X al identificar fuentes específicas de sesgo demográfico en la exposición, transición y razonamiento de las herramientas, demostrando que las disparidades intermedias no son predecibles mediante evaluaciones de extremo a extremo y subrayando la necesidad de un desesgo a nivel de proceso para garantizar la equidad clínica.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

Los autores proponen el Espacio de Alineación Funcional Neural (NFAS), un marco de representación basado en el cerebro que utiliza la descomposición de modos dinámicos para caracterizar la evolución dinámica de las representaciones en redes neuronales artificiales, revelando una organización estructurada y convergencia intermodal alineada con sistemas corticales biológicos.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

← Anterior Siguiente →