cs.CV artículos | Gist.Science

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

El marco pySpatial permite a los modelos de lenguaje multimodal realizar razonamiento espacial cero-shot en 3D mediante la generación de código Python que integra herramientas de reconstrucción y visualización, superando significativamente a las bases de referencia existentes en benchmarks desafiantes y demostrando su eficacia en navegación robótica real.

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

El artículo presenta UD-SfPNet, una red neuronal que integra la eliminación de dispersión y la reconstrucción de normales 3D mediante polarización en un pipeline unificado para mejorar la precisión de la imagen óptica subacuática.

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

Este artículo presenta un algoritmo determinista jerárquico que extrae teselaciones exactas en cuadrículas planas finitas mediante la identificación de regiones rectangulares repetitivas, su normalización a formas representativas mínimas y la extracción de primos, logrando un rendimiento eficiente para patrones simples y abordando brechas en el análisis simbólico de estructuras discretas.

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

El artículo presenta VGGT-Det, un marco pionero para la detección 3D de objetos en interiores multivista sin geometría de sensores, que integra un codificador VGGT con mecanismos de generación de consultas guiadas por atención y agregación de características impulsada por consultas para aprovechar eficazmente los priores semánticos y geométricos internos, logrando un rendimiento superior en conjuntos de datos como ScanNet y ARKitScenes.

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

El artículo presenta DriveCode, un nuevo método de codificación numérica que representa los números como embebidos dedicados en lugar de tokens de texto, mejorando así la precisión numérica y la eficiencia en la predicción de trayectorias y la generación de señales de control para sistemas de conducción autónoma basados en modelos de lenguaje grande.

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

El estudio revela que los modelos de lenguaje visuales actuales subestiman y diagnostican incorrectamente los errores matemáticos en estudiantes con dificultades, lo que limita su utilidad en aplicaciones educativas a pesar de su capacidad para resolver problemas.

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

Este artículo presenta Beyond8Bits, un extenso conjunto de datos subjetivos de videos HDR generados por usuarios, y HDR-Q, el primer modelo de lenguaje multimodal diseñado para evaluar la calidad de estos videos mediante un codificador de visión específico y una optimización de política que mejora significativamente el rendimiento en comparación con los métodos existentes.

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

StegoNGP: 3D Cryptographic Steganography using Instant-NGP

El artículo presenta StegoNGP, un método de esteganografía criptográfica 3D que utiliza la codificación hash de Instant-NGP para ocultar indetectablemente una escena completa dentro de los pesos de un único modelo, logrando alta capacidad y robustez sin modificar la arquitectura ni los parámetros.

Wenxiang Jiang, Yujun Lan, Shuo Zhao + 3 more2026-03-03💻 cs

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

El artículo demuestra que el uso de un acotamiento de margen en el aprendizaje contrastivo Forward-Forward infla significativamente la varianza del entrenamiento en conjuntos de datos con alta densidad de pares positivos y dificultad moderada, como CIFAR-10, debido a la saturación de gradientes, un efecto que puede eliminarse sin costo en la precisión media mediante una formulación alternativa de resta de margen.

Joshua Steier2026-03-03🤖 cs.LG

Decoupling Motion and Geometry in 4D Gaussian Splatting

El artículo presenta VeGaS, un marco innovador de 4D Gaussian Splatting que desacopla el movimiento de la geometría mediante una matriz de cizallamiento galileana y una red de deformación geométrica para lograr una reconstrucción de escenas dinámicas de alta fidelidad con un rendimiento superior al estado del arte.

Yi Zhang, Yulei Kang, Jian-Fang Hu2026-03-03💻 cs

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

El artículo presenta EraseAnything++, un marco unificado que utiliza optimización multiobjetivo y cirugía de gradientes implícita para eliminar conceptos no deseados de modelos de flujo rectificado tanto para imágenes como para video, logrando un equilibrio superior entre la eficacia de la eliminación y la preservación de la calidad generativa.

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

Este trabajo propone un marco de pre-entrenamiento supervisado sintético que integra lógica anatómica mediante una biblioteca de formas realistas y una estrategia de colocación secuencial estructuralmente consciente, superando significativamente a los métodos actuales de aprendizaje auto-supervisado y basados en primitivas matemáticas en tareas de segmentación médica al garantizar la viabilidad fisiológica y la privacidad de los datos.

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

Este artículo presenta EFS, un módulo de selección de cuadros basado en eventos y libre de entrenamiento que mejora significativamente la comprensión de videos largos en modelos LVLM al dividir el video en segmentos semánticos y seleccionar cuadros clave relevantes para la consulta, logrando así ganancias sustanciales en benchmarks desafiantes.

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

Este artículo presenta un marco de síntesis espacialmente desacoplado inspirado en la física que resuelve el conflicto de aliasing de bordes en el aprendizaje supervisado basado en fórmulas, permitiendo la generación de texturas sintéticas realistas sin comprometer la precisión de los límites anatómicos y logrando un rendimiento superior en transformers médicos 3D.

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

Este artículo presenta una encuesta técnica exhaustiva sobre los modelos fundacionales en teledetección, explorando su evolución desde enfoques unimodales hacia multimodales, clasificando las metodologías existentes y ofreciendo una guía práctica para que los investigadores, especialmente los principiantes, comprendan y apliquen estos modelos en diversas tareas del campo.

Danfeng Hong, Chenyu Li, Xuyang Li + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

El artículo presenta MLRecon, un marco robusto de reconstrucción 3D de ultrasonido sin marcadores que utiliza una cámara RGB-D comercial y modelos de visión fundacional para lograr un seguimiento de pose preciso y libre de deriva, superando las limitaciones de costo y complejidad de los métodos existentes.

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

El artículo presenta GeodesicNVS, un marco de Flujo de Emparejamiento Geodésico de Densidad de Probabilidad que mejora la síntesis de nuevas vistas al aprender transformaciones deterministas acopladas y restringir las trayectorias de flujo a regiones de alta densidad del manifold de datos, logrando así una mayor coherencia geométrica y consistencia entre vistas en comparación con los modelos basados en difusión.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 5 more2026-03-03💻 cs

Implementation of Licensed Plate Detection and Noise Removal in Image Processing

El documento presenta la implementación de un sistema de reconocimiento de matrículas con eliminación de ruido, destacando su creciente demanda en Malasia debido al aumento del parque automotor y su versatilidad para aplicaciones en peajes, control de tráfico, aplicación de la ley y otros campos especializados.

Yiquan Gao2026-03-03⚡ eess

RaUF: Learning the Spatial Uncertainty Field of Radar

El artículo presenta RaUF, un marco de aprendizaje de campo de incertidumbre espacial que mejora la fiabilidad de la detección en radares de onda milimétrica mediante un modelo probabilístico anisotrópico y un mecanismo de atención de dominio bidireccional para resolver ambigüedades y suprimir reflexiones espurias.

Shengpeng Wang, Kuangyu Wang, Wei Wang2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Este trabajo propone CAFE, un método de codificación de frecuencia consciente del contenido que combina características de Fourier y Chebyshev para superar el sesgo espectral de las Representaciones Neuronales Implícitas, permitiendo una síntesis eficiente y selectiva de frecuencias que mejora significativamente la representación de detalles de alta frecuencia.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

← Anterior Siguiente →