cs.CV artículos | Gist.Science

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

Este artículo presenta el programa de rotación total constante (TORS), un método de muestreo acelerado sin entrenamiento que, inspirado en las fórmulas de Frenet-Serret, optimiza la calidad de las imágenes generadas por modelos de difusión en solo 10 pasos mediante una variación geométrica uniforme a lo largo de la trayectoria de muestreo.

Zhenyu Zhou, Defang Chen, Siwei Lyu + 2 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

El artículo presenta DUCX, un marco de auditoría sistemática que descompone la injusticia en agentes médicos de rayos X al identificar fuentes específicas de sesgo demográfico en la exposición, transición y razonamiento de las herramientas, demostrando que las disparidades intermedias no son predecibles mediante evaluaciones de extremo a extremo y subrayando la necesidad de un desesgo a nivel de proceso para garantizar la equidad clínica.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

Los autores proponen el Espacio de Alineación Funcional Neural (NFAS), un marco de representación basado en el cerebro que utiliza la descomposición de modos dinámicos para caracterizar la evolución dinámica de las representaciones en redes neuronales artificiales, revelando una organización estructurada y convergencia intermodal alineada con sistemas corticales biológicos.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

Efficient Conformal Volumetry for Template-Based Segmentation

El artículo presenta ConVOLT, un marco de predicción conforme que mejora la cuantificación de incertidumbre en la segmentación basada en plantillas al calibrar factores de escala volumétrica utilizando características del campo de deformación, logrando así intervalos más precisos que los métodos tradicionales en el espacio de salida.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03🧬 q-bio

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

NERFIFY es un marco multiagente que automatiza la conversión de artículos de investigación sobre NeRF en plugins ejecutables para Nerfstudio, logrando una calidad visual comparable a la de expertos humanos y reduciendo el tiempo de implementación de semanas a minutos mediante innovaciones específicas del dominio como gramáticas formales, síntesis de código basada en grafos y retroalimentación visual.

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs

COMBAT: Conditional World Models for Behavioral Agent Training

El artículo presenta COMBAT, un modelo de mundo basado en difusión que, entrenado únicamente con datos de un solo jugador en el juego Tekken 3, logra simular en tiempo real a un oponente reactivo y sofisticado sin necesidad de etiquetas explícitas para su política de comportamiento.

Anmol Agarwal, Pranay Meshram, Sumer Singh + 5 more2026-03-03💻 cs

MME: Mixture of Mesh Experts with Random Walk Transformer Gating

Este artículo presenta MME, un marco de mezcla de expertos que utiliza un mecanismo de enrutamiento basado en caminatas aleatorias y atención para especializar modelos en diferentes clases de mallas, logrando resultados de vanguardia en clasificación, recuperación y segmentación semántica.

Amir Belder, Ayellet Tal2026-03-03💻 cs

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

El artículo presenta UHDPromer, un transformador eficiente impulsado por discriminación neuronal que utiliza priores de discriminación neuronal para mejorar la representación de características de baja resolución y lograr un rendimiento de vanguardia en tareas de restauración y mejora de imágenes de ultra alta definición.

Cong Wang, Jinshan Pan, Liyan Wang + 2 more2026-03-03💻 cs

PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture

El artículo presenta PPC-MT, un marco innovador para la completación de nubes de puntos que combina arquitecturas híbridas de Mamba y Transformer con una estrategia de reconstrucción paralela guiada por PCA para lograr un equilibrio superior entre eficiencia computacional y fidelidad en la reconstrucción geométrica.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03🤖 cs.AI

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

Este trabajo presenta MMTA, un transformador temporal de alta resolución que utiliza mecanismos de atención de pertenencia múltiple para mejorar la precisión en la segmentación de micro-movimientos y transiciones rápidas en videos de rehabilitación, logrando un rendimiento superior en la evaluación de la recuperación motora tanto con datos de video como de sensores portátiles.

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos

El artículo presenta SMART, un marco de aprendizaje semi-supervisado basado en SAM3 que integra consistencia de movimiento y regularización de confianza progresiva para lograr una segmentación precisa de arterias coronarias en angiografías, superando desafíos como bordes borrosos y la escasez de datos anotados.

Yu Luo, Guangyu Wei, Yangfan Li + 2 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

Este trabajo presenta un marco inverso no lineal y ciego que unifica la recuperación de imágenes anatómicas, la síntesis de cine de alta resolución y la estimación de movimiento en la RMN con etiquetas, aprovechando la sinergia entre la física de resonancia magnética y los priores generativos profundos para superar las limitaciones de los métodos tradicionales.

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

El artículo presenta VEMamba, un marco eficiente para la reconstrucción isótropa de microscopía electrónica de volumen que utiliza un nuevo paradigma de reordenamiento de dependencias 3D y simulación de degradación realista para superar las limitaciones de resolución axial y lograr un rendimiento competitivo con bajo costo computacional.

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

El marco pySpatial permite a los modelos de lenguaje multimodal realizar razonamiento espacial cero-shot en 3D mediante la generación de código Python que integra herramientas de reconstrucción y visualización, superando significativamente a las bases de referencia existentes en benchmarks desafiantes y demostrando su eficacia en navegación robótica real.

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

El artículo presenta UD-SfPNet, una red neuronal que integra la eliminación de dispersión y la reconstrucción de normales 3D mediante polarización en un pipeline unificado para mejorar la precisión de la imagen óptica subacuática.

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

Este artículo presenta un algoritmo determinista jerárquico que extrae teselaciones exactas en cuadrículas planas finitas mediante la identificación de regiones rectangulares repetitivas, su normalización a formas representativas mínimas y la extracción de primos, logrando un rendimiento eficiente para patrones simples y abordando brechas en el análisis simbólico de estructuras discretas.

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

El artículo presenta VGGT-Det, un marco pionero para la detección 3D de objetos en interiores multivista sin geometría de sensores, que integra un codificador VGGT con mecanismos de generación de consultas guiadas por atención y agregación de características impulsada por consultas para aprovechar eficazmente los priores semánticos y geométricos internos, logrando un rendimiento superior en conjuntos de datos como ScanNet y ARKitScenes.

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

El artículo presenta DriveCode, un nuevo método de codificación numérica que representa los números como embebidos dedicados en lugar de tokens de texto, mejorando así la precisión numérica y la eficiencia en la predicción de trayectorias y la generación de señales de control para sistemas de conducción autónoma basados en modelos de lenguaje grande.

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

El estudio revela que los modelos de lenguaje visuales actuales subestiman y diagnostican incorrectamente los errores matemáticos en estudiantes con dificultades, lo que limita su utilidad en aplicaciones educativas a pesar de su capacidad para resolver problemas.

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

Este artículo presenta Beyond8Bits, un extenso conjunto de datos subjetivos de videos HDR generados por usuarios, y HDR-Q, el primer modelo de lenguaje multimodal diseñado para evaluar la calidad de estos videos mediante un codificador de visión específico y una optimización de política que mejora significativamente el rendimiento en comparación con los métodos existentes.

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

← Anterior Siguiente →