cs.CV artículos | Gist.Science

UNICBench: UNIfied Counting Benchmark for MLLM

El artículo presenta UNICBench, un conjunto de datos y herramienta de evaluación unificada que permite medir rigurosamente la capacidad de conteo de 45 modelos de lenguaje multimodales de última generación en imágenes, documentos y audio, revelando brechas significativas en tareas de razonamiento complejo.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

Este artículo presenta un nuevo benchmark centrado en los datos, junto con un conjunto de datos público y dos técnicas innovadoras que superan a los métodos existentes para identificar, cuantificar y clasificar el ruido en las etiquetas de segmentación semántica de imágenes de teledetección.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

IdGlow es un marco de dos etapas basado en modelos de difusión Flow Matching que resuelve el dilema estabilidad-plasticidad en la generación de imágenes multi-persona mediante programación de timesteps adaptativa, síntesis de prompts impulsada por VLM y optimización directa de preferencias (DPO), logrando así una armonización coherente de múltiples identidades con alta fidelidad facial y calidad estética.

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

El artículo presenta CodeAlign, un marco de alineación eficiente y libre de co-ocurrencia que supera el aislamiento de modalidades en la percepción colaborativa heterogénea mediante la traducción de características a un espacio de código compartido, logrando un rendimiento superior con una reducción significativa de parámetros y carga de comunicación.

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Este artículo presenta DynaSpec, el primer conjunto de datos de imágenes hiperespectrales dinámicas de alta calidad, junto con el modelo PG-SVRT y un prototipo de benchmark, para superar las limitaciones de consistencia temporal y fidelidad espectral en la reconstrucción de video mediante imágenes espectrales compresivas.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

Este trabajo aborda el desafío de la poda de conjuntos de datos 3D, caracterizados por distribuciones de clases de cola larga que generan conflictos entre métricas de evaluación, proponiendo un método de selección de subconjuntos consciente de la representación y supervisión invariante al prior que optimiza simultáneamente la precisión global y media mediante cuotas de retención por clase.

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

El artículo presenta RC-GeoCP, el primer marco de percepción colaborativa que fusiona imágenes y radar 4D mediante un consenso geométrico para corregir desalineaciones, optimizar la comunicación y lograr una representación global coherente con un rendimiento superior y menor sobrecarga de datos.

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

El artículo presenta SCVM, un marco de visión modulado por memoria cruzada que controla la evolución de las representaciones visuales mediante estados de memoria recursivos y modulación de retroalimentación para preservar detalles finos y alinear semánticamente las características con el modelo de lenguaje sin necesidad de ajuste fino.

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

El artículo presenta HistoSelect, un marco de razonamiento para imágenes de diapositivas completas que imita el proceso de exploración humana mediante una recuperación guiada por preguntas y consciente del tejido, logrando una mayor eficiencia y precisión al reducir el uso de tokens visuales en un 70% mientras mejora la exactitud en tareas de preguntas y respuestas de patología.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

Este trabajo propone un marco innovador que utiliza una red neuronal U-Net de doble canal en el espacio k para reconstruir directamente imágenes de resonancia magnética de bajo campo submuestreadas, logrando una superresolución y calidad de imagen superiores a los métodos espaciales tradicionales y comparables a las adquisiciones completas.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

Este trabajo propone el marco MoLRE, que combina expertos de bajo rango y enrutamiento suave para especializar modelos fundacionales en la detección de hallazgos en TC craneal, logrando mejoras consistentes en el rendimiento sin necesidad de supervisión explícita de patologías.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

El artículo presenta CoLC, un marco de percepción colaborativa eficiente en comunicación que utiliza muestreo de puntos consciente del fondo y reconstrucción de LiDAR para superar las limitaciones de ancho de banda y mantener un alto rendimiento en la detección de objetos.

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

El método SCOUT propone un enfoque de autoaprendizaje sin datos externos que aprovecha la similitud no local espacial y las propiedades conjugadas del dominio de proyección para generar pseudo-etiquetas, logrando una reconstrucción rápida y de alta fidelidad de imágenes de tomografía computarizada espectral en regímenes de datos ultra bajos.

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

El artículo presenta STMI, un marco de aprendizaje multimodal para la reidentificación de objetos que integra modulación de características guiada por segmentación, reasignación de tokens semánticos e interacción hipergráfica entre modalidades para superar las limitaciones de filtrado y fusión existentes.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

TokenSplat es un marco de reconstrucción feed-forward que logra una estimación de pose y una reconstrucción 3D de alta fidelidad a partir de imágenes multivista sin pose, mediante un módulo de predicción de Gaussians alineado con tokens y un decodificador asimétrico que separa eficazmente las señales de cámara de la semántica de la escena.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

Towards Universal Khmer Text Recognition

Este artículo presenta un marco universal de reconocimiento de texto en camboyano (UKTR) que utiliza una técnica de selección adaptativa de características consciente de la modalidad para superar la escasez de datos y lograr un rendimiento superior en diversas modalidades, acompañándolo del primer benchmark integral para la comunidad.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Este artículo presenta el primer estudio integral sobre la detección de la disposición de documentos en escenas para el idioma jemer, introduciendo un nuevo marco que incluye un conjunto de datos de entrenamiento, una herramienta de aumento de datos y modelos basados en YOLO con cajas delimitadoras orientadas para abordar los desafíos específicos de la escritura jemer y la falta de datos anotados.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

IU: Imperceptible Universal Backdoor Attack

Este trabajo presenta un ataque de puerta trasera universal imperceptible que utiliza redes de convolución gráfica para generar perturbaciones específicas por clase, logrando altas tasas de éxito en múltiples objetivos con una tasa de envenenamiento mínima y manteniendo la invisibilidad visual frente a las defensas actuales.

Hsin Lin, Yan-Lun Chen, Ren-Hung Hwang + 1 more2026-03-03🤖 cs.LG

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Este artículo presenta un sistema de reconstrucción para paredes internas de tuberías industriales que utiliza endoscopios y técnicas de ensamblaje de imágenes panorámicas para convertir el video en vistas planas detalladas, mejorando significativamente la eficiencia y precisión en la detección de defectos en comparación con los métodos tradicionales.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

Este trabajo propone un marco de aprendizaje anti-colapso de características que fomenta la diversidad de perspectivas en la detección de imágenes generadas, evitando la dependencia de un único rastro de falsificación y mejorando significativamente la generalización ante mecanismos generativos no vistos.

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

← Anterior Siguiente →