cs.CV artículos | Gist.Science

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

Este artículo presenta un marco de síntesis espacialmente desacoplado inspirado en la física que resuelve el conflicto de aliasing de bordes en el aprendizaje supervisado basado en fórmulas, permitiendo la generación de texturas sintéticas realistas sin comprometer la precisión de los límites anatómicos y logrando un rendimiento superior en transformers médicos 3D.

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

Este artículo presenta una encuesta técnica exhaustiva sobre los modelos fundacionales en teledetección, explorando su evolución desde enfoques unimodales hacia multimodales, clasificando las metodologías existentes y ofreciendo una guía práctica para que los investigadores, especialmente los principiantes, comprendan y apliquen estos modelos en diversas tareas del campo.

Danfeng Hong, Chenyu Li, Xuyang Li + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

El artículo presenta MLRecon, un marco robusto de reconstrucción 3D de ultrasonido sin marcadores que utiliza una cámara RGB-D comercial y modelos de visión fundacional para lograr un seguimiento de pose preciso y libre de deriva, superando las limitaciones de costo y complejidad de los métodos existentes.

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

El artículo presenta GeodesicNVS, un marco de Flujo de Emparejamiento Geodésico de Densidad de Probabilidad que mejora la síntesis de nuevas vistas al aprender transformaciones deterministas acopladas y restringir las trayectorias de flujo a regiones de alta densidad del manifold de datos, logrando así una mayor coherencia geométrica y consistencia entre vistas en comparación con los modelos basados en difusión.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 5 more2026-03-03💻 cs

Implementation of Licensed Plate Detection and Noise Removal in Image Processing

El documento presenta la implementación de un sistema de reconocimiento de matrículas con eliminación de ruido, destacando su creciente demanda en Malasia debido al aumento del parque automotor y su versatilidad para aplicaciones en peajes, control de tráfico, aplicación de la ley y otros campos especializados.

Yiquan Gao2026-03-03⚡ eess

RaUF: Learning the Spatial Uncertainty Field of Radar

El artículo presenta RaUF, un marco de aprendizaje de campo de incertidumbre espacial que mejora la fiabilidad de la detección en radares de onda milimétrica mediante un modelo probabilístico anisotrópico y un mecanismo de atención de dominio bidireccional para resolver ambigüedades y suprimir reflexiones espurias.

Shengpeng Wang, Kuangyu Wang, Wei Wang2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Este trabajo propone CAFE, un método de codificación de frecuencia consciente del contenido que combina características de Fourier y Chebyshev para superar el sesgo espectral de las Representaciones Neuronales Implícitas, permitiendo una síntesis eficiente y selectiva de frecuencias que mejora significativamente la representación de detalles de alta frecuencia.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

Vision-Language Feature Alignment for Road Anomaly Segmentation

El artículo presenta VL-Anomaly, un marco de segmentación de anomalías en carreteras que utiliza la alineación de características visión-idioma y estrategias de inferencia multi-fuente para reducir las falsas alarmas en fondos semánticamente normales y mejorar la detección de obstáculos desconocidos, logrando un rendimiento superior en conjuntos de datos de referencia.

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network

Este artículo presenta SMR-Net, un algoritmo de detección de objetos basado en redes de atención y características multiescala que, junto con un sensor dedicado, supera significativamente a los métodos tradicionales en precisión y robustez para la localización de enganches en ensamblajes robóticos automatizados.

Kuanxu Hou2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

Este artículo presenta TAR-FAS, un marco de razonamiento potenciado por herramientas que utiliza un paradigma de cadena de pensamiento con herramientas visuales y el algoritmo DT-GRPO para superar las limitaciones de los métodos actuales de detección de suplantación facial, logrando un estado del arte en generalización cruzada mediante la investigación adaptativa de patrones visuales sutiles.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

El artículo presenta MM-DeepResearch, un agente de investigación multimodal que supera los desafíos de escasez de datos, falta de trayectorias efectivas y altos costos mediante la propuesta de Hyper-Search para generar datos, DR-TTS para optimizar expertos de herramientas de búsqueda y un motor de búsqueda offline para el aprendizaje por refuerzo.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

El artículo presenta ELF-VLA, un marco que supera el estancamiento de los modelos VLA en la conducción autónoma al incorporar retroalimentación diagnóstica explícita sobre los fallos para guiar el aprendizaje por refuerzo y lograr un rendimiento superior en el benchmark NAVSIM.

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

El artículo presenta LLaDA-o, un modelo de difusión omni multimodal basado en un marco de mezcla de difusión (MoD) que combina la comprensión de texto y la generación visual mediante una arquitectura compartida eficiente y una estrategia de adaptación de longitud, logrando un rendimiento de vanguardia en benchmarks de comprensión y generación multimodal.

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

El artículo presenta SHIELD8-UAV, una implementación de hardware secuencial de 8 bits para un acelerador de CNN 1D que, mediante cuantización adaptable y poda estructurada, logra una detección acústica de UAVs precisa y de bajo consumo energético en el borde sin depender de un paralelismo masivo.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

El artículo presenta A3Point, un marco de aprendizaje latente adaptativo que mejora la segmentación semántica de nubes de puntos LiDAR bajo condiciones climáticas adversas mediante la decouplación de la confusión semántica y el desplazamiento semántico para optimizar el uso de diversas aumentaciones.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Este trabajo presenta MCMR, un nuevo benchmark a gran escala diseñado para evaluar la recuperación multimodal de alta precisión bajo múltiples condiciones interdependientes, demostrando que los reordenadores basados en modelos de lenguaje multimodal mejoran significativamente la coincidencia fina al verificar explícitamente la consistencia entre la consulta y los candidatos.

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Este trabajo introduce AesEval-Bench, un marco integral que incluye un benchmark, una evaluación sistemática de modelos de lenguaje visuales y un conjunto de datos de entrenamiento, para establecer la primera metodología estructurada que permite a las IA evaluar la calidad estética del diseño gráfico con un nivel de detalle comparable al humano.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

El artículo presenta V-SONAR, un espacio de incrustación unificado visión-idioma que alinea un codificador visual con el espacio SONAR existente, y V-LCM, un modelo de concepto grande multimodal que, mediante ajuste de instrucciones en latencia, supera a los modelos de vanguardia en tareas de visión e idioma, especialmente en 61 de 62 idiomas de recursos variados.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

Este artículo presenta DP-RGMI, un marco que analiza la geometría de las representaciones en imágenes médicas bajo privacidad diferencial para descomponer la pérdida de utilidad en deformaciones geométricas y brechas de aprovechamiento, revelando que la privacidad altera la anisotropía de los rasgos más que colapsarlos uniformemente.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

El artículo presenta StrokeDiff, un marco basado en difusión con regularización suave que permite la generación eficiente de pinceladas realistas para pinturas al óleo a partir de un conjunto de datos reducido, logrando además un control preciso mediante condicionamiento basado en curvas de Bézier.

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

← Anterior Siguiente →