Light of Normals: Unified Feature Representation for Universal Photometric Stereo

El artículo presenta LINO UniPS, un enfoque unificado para la estereofotometría universal que logra una representación de características desacoplada mediante tokens de registro de luz y atención entrelazada, preserva los detalles geométricos de alta frecuencia con una arquitectura de doble rama basada en wavelets, y se entrena en el nuevo dataset PS-Verse para alcanzar resultados de vanguardia.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Este artículo presenta un marco novedoso de cascada guiado por modelos de lenguaje visuales (VLM) que utiliza características derivadas del VLM como prompts explícitos para el modelo Segment Anything (SAM) y emplea la salida de segmentación como un prior espacial suave, logrando así una segmentación y clasificación más precisas y eficientes de objetos camuflados en escenarios de vocabulario abierto.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

El artículo presenta SUBARU, un enfoque práctico que reduce el consumo energético en dispositivos auditivos mediante el muestreo sub-Nyquist y baja resolución de bits, logrando una reconstrucción de audio de banda ancha y mejora de la voz en tiempo real con una eficiencia de potencia 3,31 veces superior.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

Autonomous Vision-Aided UAV Positioning for Obstacle-Aware Wireless Connectivity

Este artículo presenta VTOPA, un algoritmo de posicionamiento autónomo para UAVs que utiliza visión por computadora para optimizar la conectividad inalámbrica en entornos urbanos densos, logrando un aumento del 50% en el rendimiento agregado y una reducción del 50% en la latencia al garantizar enlaces de vista directa y adaptarse dinámicamente a la demanda de tráfico.

Kamran Shafafi, Manuel Ricardo, Rui Campos2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

El artículo presenta LD-RPS, un enfoque unificado y sin datos de entrenamiento para la restauración de imágenes que utiliza muestreo recurrente de posterior en un modelo de difusión latente preentrenado, potenciado por un modelo de comprensión multimodal para lograr resultados superiores a los métodos actuales en diversas degradaciones.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Este trabajo presenta hPGA-DP, una política de difusión híbrida que integra el Álgebra Geométrica Proyectiva (PGA) en su arquitectura para mejorar la eficiencia del entrenamiento y el rendimiento en tareas de manipulación robótica al incorporar sesgos inductivos geométricos que evitan que las redes aprendan conceptos espaciales desde cero.

Xiatao Sun, Yuxuan Wang, Shuo Yang, Yinxing Chen, Daniel Rakita2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artículo presenta MCULoRA, un nuevo enfoque de adaptación de bajo rango que desacopla dinámicamente las características de las combinaciones modales para resolver los conflictos de gradientes en el reconocimiento de emociones multimodal con datos incompletos, superando significativamente a los métodos existentes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

El artículo presenta π3π^3, una red neuronal feed-forward totalmente equivariante a la permutación que elimina la dependencia de una vista de referencia fija para lograr estimaciones de poses de cámara y reconstrucciones geométricas más precisas y robustas, superando el estado del arte en diversas tareas de geometría visual.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artículo propone un marco de aprendizaje profundo basado en Vision Transformer (ViT) que utiliza análisis de espacio de características y un índice de confianza para generar datos de entrenamiento débilmente supervisados a partir de imágenes Sentinel-2 y Formosat-5, mejorando así la segmentación de áreas afectadas por desastres para el producto EVAP de la Agencia Espacial de Taiwán en escenarios con escasa información de referencia.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Este artículo presenta C-Koordinator, una plataforma de código abierto desarrollada por Alibaba que utiliza modelos de predicción de interferencia basados en ciclos por instrucción (CPI) para gestionar eficazmente la co-localización de microservicios a gran escala, logrando una reducción significativa en la latencia de las aplicaciones al mitigar la competencia por recursos en entornos heterogéneos.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Este trabajo presenta un innovador sensor táctil de rodillo basado en visión neuromórfica que permite la inspección de superficies industriales a gran escala a alta velocidad (hasta 0,5 m/s) con una precisión de reconstrucción 3D superior a los métodos anteriores, reduciendo el error medio absoluto por debajo de 100 micras y acelerando el proceso 11 veces.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Dynamic Symbolic Execution for Semantic Difference Analysis of Component and Connector Architectures

Este artículo investiga la aplicación de la Ejecución Simbólica Dinámica para el análisis de diferencias semánticas en arquitecturas de componentes y conectores mediante modelos MontiArc, evaluando su eficacia y concluyendo que, aunque prometedor, el enfoque enfrenta limitaciones de escalabilidad en sistemas grandes.

Johanna Grahl, Bernhard Rumpe, Max Stachon, Sebastian Stüber2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

El artículo presenta MIDAR, un modelo sustituto de detección LiDAR que utiliza características de alto nivel de simuladores de tráfico microscópicos y una arquitectura de Graph Transformer para generar percepciones realistas con bajo costo computacional, superando las limitaciones de escalabilidad de los simuladores basados en motores de juego y mejorando aplicaciones de sistemas de transporte inteligentes.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Este artículo presenta TransUNet-GradCAM, un modelo híbrido que combina transformadores y U-Net para lograr una segmentación precisa y explicativa de úlceras diabéticas en los pies, demostrando un alto rendimiento y capacidad de generalización en múltiples conjuntos de datos clínicos externos.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

El artículo presenta S²Q-VDiT, un marco de cuantización post-entrenamiento para transformadores de difusión de video que utiliza selección de datos salientes y destilación de tokens dispersos para lograr un rendimiento sin pérdidas con una compresión de modelo de 3.9× y una aceleración de inferencia de 1.3×.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs