cs.CV artículos | Gist.Science

FireRed-OCR Technical Report

FireRed-OCR es un marco sistemático que transforma modelos VLM generales en expertos de OCR estructural mediante una fábrica de datos "Geometría + Semántica" y una estrategia de entrenamiento progresivo de tres etapas, logrando un rendimiento superior al estado del arte en el análisis de documentos complejos.

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

Este trabajo presenta Tiny-DroNeRF, un modelo de campos neuronales de radiación optimizado para microcontroladores de ultra bajo consumo en nano-drones que, combinado con un esquema de aprendizaje federado, permite la reconstrucción 3D densa en entornos con recursos extremadamente limitados reduciendo la huella de memoria en un 96% con una mínima pérdida de precisión.

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Este trabajo presenta un método de predicción de trayectorias de drones basado exclusivamente en cámaras de eventos que extrae la velocidad de rotación de las hélices de los datos crudos y la integra en un filtro de Kalman consciente de las RPM, logrando una precisión superior a los enfoques basados en aprendizaje y a los filtros de Kalman convencionales sin necesidad de imágenes RGB ni datos de entrenamiento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este trabajo propone un prior estructural tridimensional libre de entrenamiento llamado Campo de Uniones 3D (3D FoJ) que, al optimizar uniones de cuñas para representar volúmenes, logra una eliminación de ruido superior y la preservación de bordes nítidos en problemas inversos volumétricos de baja relación señal-ruido sin riesgo de alucinaciones.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artículo propone y evalúa una nueva metodología de aumento de datos llamada C2GMA, que utiliza CycleGANs para generar imágenes interpoladas de dominio no visible a partir de imágenes visibles, logrando una mejora significativa en la clasificación de imágenes de Radar de Apertura Sintética (SAR) al superar las estrategias tradicionales.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

El artículo presenta Dite-HRNet, una red de alta resolución ligera y dinámica que incorpora convolución de división dinámica y modelado de contexto adaptativo para capturar eficientemente interacciones a larga distancia y dependencias espaciales, logrando un rendimiento superior en la estimación de la pose humana en los conjuntos de datos COCO y MPII.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving

El artículo presenta CO^3, un método de aprendizaje no supervisado que combina el aprendizaje contrastivo cooperativo entre sensores LiDAR vehiculares e infraestructurales con la predicción del contexto de la forma para generar representaciones 3D superiores en escenarios de conducción autónoma al aire libre.

Runjian Chen, Yao Mu, Runsen Xu + 5 more2026-03-02💻 cs

A Fault Detection Scheme Utilizing Convolutional Neural Network for PV Solar Panels with High Accuracy

Este artículo propone un esquema de detección de fallos para paneles solares fotovoltaicos basado en una red neuronal convolucional (CNN) entrenada que clasifica las imágenes de las células en normales o defectuosas, logrando una precisión del 91,1 % en clasificación binaria y superando a estudios anteriores.

Maryam Paparimoghadamborazjani, Amin Kazemi2026-03-02🤖 cs.LG

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Este trabajo aborda el problema de la sobreoptimización de recompensas en la alineación de modelos de difusión proponiendo TDPO-R, un algoritmo que mitiga este fenómeno al explotar el sesgo inductivo temporal inherente y regularizar el sesgo de primacía mediante el reinicio de neuronas activas en el modelo crítico.

Ziyi Zhang, Sen Zhang, Yibing Zhan + 3 more2026-03-02🤖 cs.LG

Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

El artículo presenta Uni-ISP, un pipeline innovador que unifica el aprendizaje de procesadores de señal de imagen (ISP) para diversas cámaras móviles mediante incrustaciones específicas del dispositivo y un esquema de entrenamiento especial, logrando mayor precisión, adaptabilidad y habilitando nuevas aplicaciones, todo respaldado por un nuevo conjunto de datos real de 4K llamado FiveCam.

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

El artículo presenta R2GenCSR, un marco eficiente para la generación de informes radiológicos que utiliza Mamba como columna vertebral visual de complejidad lineal y recupera información contextual de muestras relacionadas para potenciar la capacidad de los modelos de lenguaje grande (LLM) en la creación de informes médicos de alta calidad.

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

Este artículo presenta Shuffle Mamba, un marco novedoso para la fusión de imágenes multimodales que introduce una estrategia de escaneo aleatorio inspirada en Bayes para eliminar los sesgos de las estrategias fijas, garantizando así un campo receptivo global imparcial y una interacción robusta entre modalidades.

Ke Cao, Xuanhua He, Tao Hu + 3 more2026-03-02💻 cs

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Este trabajo presenta el primer método para el olvido de etiquetas en el Aprendizaje Federado Vertical, que utiliza una mezcla de variedades a nivel de representación y optimización basada en gradientes para eliminar eficazmente la información de las etiquetas sensibles sin revelar datos ni comprometer el rendimiento en los datos retenidos.

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

Este artículo presenta Stereo-Talker, un sistema novedoso de síntesis de video 3D impulsado por audio que genera videos de personas parlantes fotorrealistas y con sincronización labial precisa mediante un enfoque de dos etapas que integra priores de modelos de lenguaje grande para la diversidad de gestos y un mecanismo de mezcla de expertos (MoE) guiado para mejorar la estabilidad de la renderización y el control continuo de la vista.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

Este artículo presenta SDPO, un nuevo marco de aprendizaje por refuerzo que alinea modelos de difusión de pocos pasos con objetivos específicos mediante un muestreo de trayectorias de doble estado y un aprendizaje de diferencias de recompensa densas para lograr actualizaciones de política más frecuentes y granulares.

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

El paper presenta TREND, un método de aprendizaje no supervisado de representaciones 3D para percepción LiDAR que, a diferencia de enfoques previos, aprovecha la secuencia temporal mediante un esquema de incrustación recurrente y un campo neuronal temporal para predecir observaciones futuras y mejorar significativamente tareas de detección de objetos.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

El artículo presenta CLAP, un método de pre-entrenamiento no supervisado que combina muestreo de curvatura y aprendizaje de prototipos para aprender representaciones 3D fusionadas de imágenes y nubes de puntos, logrando mejoras significativas en tareas de percepción 3D en comparación con los métodos anteriores.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

Este artículo presenta GenVidBench, el conjunto de datos más grande hasta la fecha para la detección de videos generados por IA, el cual incluye 6,78 millones de videos creados por 11 generadores de vanguardia y diseñado con estrategias de origen y generador cruzados para facilitar el desarrollo de modelos de detección generalizados y efectivos.

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

Este artículo propone un método de constancia de color multi-iluminante que utiliza una red neuronal convolucional de tres ramas para estimar mapas de iluminación a múltiples escalas y fusionarlos mediante un módulo de atención, logrando un rendimiento superior al estado del arte al abordar las limitaciones de los enfoques existentes que ignoran el impacto de las escalas de la imagen.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

El artículo presenta DSV, un método que acelera el entrenamiento de modelos DiT para video mediante la explotación de la dispersión dinámica de la atención mediante aproximación de bajo rango y paralelismo de contexto híbrido, logrando un aumento de hasta 3,02 veces en el rendimiento sin sacrificar la calidad.

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

← Anterior Siguiente →