Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

El artículo presenta Uni-ISP, un pipeline innovador que unifica el aprendizaje de procesadores de señal de imagen (ISP) para diversas cámaras móviles mediante incrustaciones específicas del dispositivo y un esquema de entrenamiento especial, logrando mayor precisión, adaptabilidad y habilitando nuevas aplicaciones, todo respaldado por un nuevo conjunto de datos real de 4K llamado FiveCam.

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

El artículo presenta R2GenCSR, un marco eficiente para la generación de informes radiológicos que utiliza Mamba como columna vertebral visual de complejidad lineal y recupera información contextual de muestras relacionadas para potenciar la capacidad de los modelos de lenguaje grande (LLM) en la creación de informes médicos de alta calidad.

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Este trabajo presenta el primer método para el olvido de etiquetas en el Aprendizaje Federado Vertical, que utiliza una mezcla de variedades a nivel de representación y optimización basada en gradientes para eliminar eficazmente la información de las etiquetas sensibles sin revelar datos ni comprometer el rendimiento en los datos retenidos.

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

Este artículo presenta Stereo-Talker, un sistema novedoso de síntesis de video 3D impulsado por audio que genera videos de personas parlantes fotorrealistas y con sincronización labial precisa mediante un enfoque de dos etapas que integra priores de modelos de lenguaje grande para la diversidad de gestos y un mecanismo de mezcla de expertos (MoE) guiado para mejorar la estabilidad de la renderización y el control continuo de la vista.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

El paper presenta TREND, un método de aprendizaje no supervisado de representaciones 3D para percepción LiDAR que, a diferencia de enfoques previos, aprovecha la secuencia temporal mediante un esquema de incrustación recurrente y un campo neuronal temporal para predecir observaciones futuras y mejorar significativamente tareas de detección de objetos.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

El artículo presenta CLAP, un método de pre-entrenamiento no supervisado que combina muestreo de curvatura y aprendizaje de prototipos para aprender representaciones 3D fusionadas de imágenes y nubes de puntos, logrando mejoras significativas en tareas de percepción 3D en comparación con los métodos anteriores.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

Este artículo propone un método de constancia de color multi-iluminante que utiliza una red neuronal convolucional de tres ramas para estimar mapas de iluminación a múltiples escalas y fusionarlos mediante un módulo de atención, logrando un rendimiento superior al estado del arte al abordar las limitaciones de los enfoques existentes que ignoran el impacto de las escalas de la imagen.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

Este artículo presenta TextCrafter, un marco de generación de texto visual complejo que integra mecanismos de aislamiento y atención selectiva mediante aprendizaje por refuerzo para lograr un rendimiento superior en la generación de texto preciso y sin alucinaciones, superando a modelos industriales a pesar de utilizar recursos computacionales significativamente menores.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

FermatSyn es un nuevo método para la síntesis de imágenes médicas multimodales que combina un codificador basado en SAM2, un módulo de muestreo residual jerárquico y una estrategia de escaneo en espiral de Fermat dentro de una arquitectura Mamba bidireccional para lograr una consistencia anatómica global y detalles locales de alta fidelidad, superando a los métodos actuales en métricas de calidad y utilidad clínica.

Feng Yuan2026-03-02⚡ eess