cs.CV artículos | Gist.Science

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

El artículo presenta CoLC, un marco de percepción colaborativa eficiente en comunicación que utiliza muestreo de puntos consciente del fondo y reconstrucción de LiDAR para superar las limitaciones de ancho de banda y mantener un alto rendimiento en la detección de objetos.

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

El método SCOUT propone un enfoque de autoaprendizaje sin datos externos que aprovecha la similitud no local espacial y las propiedades conjugadas del dominio de proyección para generar pseudo-etiquetas, logrando una reconstrucción rápida y de alta fidelidad de imágenes de tomografía computarizada espectral en regímenes de datos ultra bajos.

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

El artículo presenta STMI, un marco de aprendizaje multimodal para la reidentificación de objetos que integra modulación de características guiada por segmentación, reasignación de tokens semánticos e interacción hipergráfica entre modalidades para superar las limitaciones de filtrado y fusión existentes.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

TokenSplat es un marco de reconstrucción feed-forward que logra una estimación de pose y una reconstrucción 3D de alta fidelidad a partir de imágenes multivista sin pose, mediante un módulo de predicción de Gaussians alineado con tokens y un decodificador asimétrico que separa eficazmente las señales de cámara de la semántica de la escena.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

Towards Universal Khmer Text Recognition

Este artículo presenta un marco universal de reconocimiento de texto en camboyano (UKTR) que utiliza una técnica de selección adaptativa de características consciente de la modalidad para superar la escasez de datos y lograr un rendimiento superior en diversas modalidades, acompañándolo del primer benchmark integral para la comunidad.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Este artículo presenta el primer estudio integral sobre la detección de la disposición de documentos en escenas para el idioma jemer, introduciendo un nuevo marco que incluye un conjunto de datos de entrenamiento, una herramienta de aumento de datos y modelos basados en YOLO con cajas delimitadoras orientadas para abordar los desafíos específicos de la escritura jemer y la falta de datos anotados.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

IU: Imperceptible Universal Backdoor Attack

Este trabajo presenta un ataque de puerta trasera universal imperceptible que utiliza redes de convolución gráfica para generar perturbaciones específicas por clase, logrando altas tasas de éxito en múltiples objetivos con una tasa de envenenamiento mínima y manteniendo la invisibilidad visual frente a las defensas actuales.

Hsin Lin, Yan-Lun Chen, Ren-Hung Hwang + 1 more2026-03-03🤖 cs.LG

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Este artículo presenta un sistema de reconstrucción para paredes internas de tuberías industriales que utiliza endoscopios y técnicas de ensamblaje de imágenes panorámicas para convertir el video en vistas planas detalladas, mejorando significativamente la eficiencia y precisión en la detección de defectos en comparación con los métodos tradicionales.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

Este trabajo propone un marco de aprendizaje anti-colapso de características que fomenta la diversidad de perspectivas en la detección de imágenes generadas, evitando la dependencia de un único rastro de falsificación y mejorando significativamente la generalización ante mecanismos generativos no vistos.

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

UniHM presenta el primer marco unificado para la manipulación hábil de manos robóticas guiada por comandos de lenguaje libre, que utiliza un tokenizador compartido para generalizar entre diferentes morfologías, un modelo de acción visión-lenguaje entrenado solo con datos de interacción humano-objeto y un módulo de refinamiento dinámico guiado por física para generar secuencias de manipulación realistas y físicamente viables.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

Stroke outcome and evolution prediction from CT brain using a spatiotemporal diffusion autoencoder

Este estudio presenta un autoencoder difusivo espacio-temporal auto-supervisado que, al analizar imágenes de tomografía computarizada y el tiempo desde el inicio del ictus, logra predecir con mayor precisión la evolución y el resultado funcional de los pacientes en comparación con métodos existentes.

Adam Marcus, Paul Bentley, Daniel Rueckert2026-03-03🤖 cs.AI

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

Este artículo presenta el programa de rotación total constante (TORS), un método de muestreo acelerado sin entrenamiento que, inspirado en las fórmulas de Frenet-Serret, optimiza la calidad de las imágenes generadas por modelos de difusión en solo 10 pasos mediante una variación geométrica uniforme a lo largo de la trayectoria de muestreo.

Zhenyu Zhou, Defang Chen, Siwei Lyu + 2 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

El artículo presenta DUCX, un marco de auditoría sistemática que descompone la injusticia en agentes médicos de rayos X al identificar fuentes específicas de sesgo demográfico en la exposición, transición y razonamiento de las herramientas, demostrando que las disparidades intermedias no son predecibles mediante evaluaciones de extremo a extremo y subrayando la necesidad de un desesgo a nivel de proceso para garantizar la equidad clínica.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

Los autores proponen el Espacio de Alineación Funcional Neural (NFAS), un marco de representación basado en el cerebro que utiliza la descomposición de modos dinámicos para caracterizar la evolución dinámica de las representaciones en redes neuronales artificiales, revelando una organización estructurada y convergencia intermodal alineada con sistemas corticales biológicos.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

Efficient Conformal Volumetry for Template-Based Segmentation

El artículo presenta ConVOLT, un marco de predicción conforme que mejora la cuantificación de incertidumbre en la segmentación basada en plantillas al calibrar factores de escala volumétrica utilizando características del campo de deformación, logrando así intervalos más precisos que los métodos tradicionales en el espacio de salida.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03🧬 q-bio

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

NERFIFY es un marco multiagente que automatiza la conversión de artículos de investigación sobre NeRF en plugins ejecutables para Nerfstudio, logrando una calidad visual comparable a la de expertos humanos y reduciendo el tiempo de implementación de semanas a minutos mediante innovaciones específicas del dominio como gramáticas formales, síntesis de código basada en grafos y retroalimentación visual.

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs

COMBAT: Conditional World Models for Behavioral Agent Training

El artículo presenta COMBAT, un modelo de mundo basado en difusión que, entrenado únicamente con datos de un solo jugador en el juego Tekken 3, logra simular en tiempo real a un oponente reactivo y sofisticado sin necesidad de etiquetas explícitas para su política de comportamiento.

Anmol Agarwal, Pranay Meshram, Sumer Singh + 5 more2026-03-03💻 cs

MME: Mixture of Mesh Experts with Random Walk Transformer Gating

Este artículo presenta MME, un marco de mezcla de expertos que utiliza un mecanismo de enrutamiento basado en caminatas aleatorias y atención para especializar modelos en diferentes clases de mallas, logrando resultados de vanguardia en clasificación, recuperación y segmentación semántica.

Amir Belder, Ayellet Tal2026-03-03💻 cs

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

El artículo presenta UHDPromer, un transformador eficiente impulsado por discriminación neuronal que utiliza priores de discriminación neuronal para mejorar la representación de características de baja resolución y lograr un rendimiento de vanguardia en tareas de restauración y mejora de imágenes de ultra alta definición.

Cong Wang, Jinshan Pan, Liyan Wang + 2 more2026-03-03💻 cs

PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture

El artículo presenta PPC-MT, un marco innovador para la completación de nubes de puntos que combina arquitecturas híbridas de Mamba y Transformer con una estrategia de reconstrucción paralela guiada por PCA para lograr un equilibrio superior entre eficiencia computacional y fidelidad en la reconstrucción geométrica.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03🤖 cs.AI

← Anterior Siguiente →