π3\pi^3: Permutation-Equivariant Visual Geometry Learning

El artículo presenta π3π^3, una red neuronal feed-forward totalmente equivariante a la permutación que elimina la dependencia de una vista de referencia fija para lograr estimaciones de poses de cámara y reconstrucciones geométricas más precisas y robustas, superando el estado del arte en diversas tareas de geometría visual.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artículo propone un marco de aprendizaje profundo basado en Vision Transformer (ViT) que utiliza análisis de espacio de características y un índice de confianza para generar datos de entrenamiento débilmente supervisados a partir de imágenes Sentinel-2 y Formosat-5, mejorando así la segmentación de áreas afectadas por desastres para el producto EVAP de la Agencia Espacial de Taiwán en escenarios con escasa información de referencia.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Este artículo presenta C-Koordinator, una plataforma de código abierto desarrollada por Alibaba que utiliza modelos de predicción de interferencia basados en ciclos por instrucción (CPI) para gestionar eficazmente la co-localización de microservicios a gran escala, logrando una reducción significativa en la latencia de las aplicaciones al mitigar la competencia por recursos en entornos heterogéneos.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Este trabajo presenta un innovador sensor táctil de rodillo basado en visión neuromórfica que permite la inspección de superficies industriales a gran escala a alta velocidad (hasta 0,5 m/s) con una precisión de reconstrucción 3D superior a los métodos anteriores, reduciendo el error medio absoluto por debajo de 100 micras y acelerando el proceso 11 veces.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Dynamic Symbolic Execution for Semantic Difference Analysis of Component and Connector Architectures

Este artículo investiga la aplicación de la Ejecución Simbólica Dinámica para el análisis de diferencias semánticas en arquitecturas de componentes y conectores mediante modelos MontiArc, evaluando su eficacia y concluyendo que, aunque prometedor, el enfoque enfrenta limitaciones de escalabilidad en sistemas grandes.

Johanna Grahl, Bernhard Rumpe, Max Stachon, Sebastian Stüber2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

El artículo presenta MIDAR, un modelo sustituto de detección LiDAR que utiliza características de alto nivel de simuladores de tráfico microscópicos y una arquitectura de Graph Transformer para generar percepciones realistas con bajo costo computacional, superando las limitaciones de escalabilidad de los simuladores basados en motores de juego y mejorando aplicaciones de sistemas de transporte inteligentes.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Este artículo presenta TransUNet-GradCAM, un modelo híbrido que combina transformadores y U-Net para lograr una segmentación precisa y explicativa de úlceras diabéticas en los pies, demostrando un alto rendimiento y capacidad de generalización en múltiples conjuntos de datos clínicos externos.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

El artículo presenta S²Q-VDiT, un marco de cuantización post-entrenamiento para transformadores de difusión de video que utiliza selección de datos salientes y destilación de tokens dispersos para lograr un rendimiento sin pérdidas con una compresión de modelo de 3.9× y una aceleración de inferencia de 1.3×.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

El artículo presenta SPEX, el primer modelo de lenguaje visual multimodal diseñado para la extracción de cobertura terrestre en imágenes de teledetección espectral, que aprovecha un nuevo conjunto de datos instruido (SPIE) y estrategias de entrenamiento avanzadas para superar a los métodos actuales y ofrecer explicaciones textuales interpretables.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Este trabajo presenta la primera evaluación de métodos de 3D Gaussian Splatting en imágenes de ojo de pez con campos de visión superiores a 180°, demostrando que un campo de 160° ofrece el mejor equilibrio y proponiendo una inicialización basada en profundidad mediante UniK3D que supera a los métodos tradicionales de SfM en escenarios distorsionados.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Este artículo presenta un marco unificado y semánticamente fundamentado para la adaptación de dominio en la segmentación de imágenes médicas, que mediante el aprendizaje de una variedad probabilística agnóstica al dominio logra resultados de vanguardia tanto en escenarios con acceso a datos de origen como sin ellos, eliminando la necesidad de estrategias explícitas de alineación cruzada.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

El artículo presenta Video-EM, un marco de memoria episódica sin entrenamiento que mejora la comprensión de videos largos mediante la construcción y refinamiento iterativo de una línea temporal de eventos coherentes, superando las limitaciones de las selecciones de fotogramas aisladas para permitir un razonamiento más preciso en modelos de lenguaje visual.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

El artículo presenta UniUGG, el primer marco unificado que integra la comprensión y generación de modalidades 3D mediante un LLM, un decodificador espacial basado en difusión latente y una estrategia de aprendizaje geométrico-semántico para mejorar la visualización espacial y la generación de escenas 3D.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

El artículo presenta UniCast, un marco multimodal eficiente en parámetros que mejora los modelos fundacionales de series temporales mediante la generación de prompts condicionados a la instancia y un enrutamiento dinámico de modalidades, logrando un rendimiento superior al adaptar las predicciones a contextos específicos de series temporales, visión y texto sin modificar el modelo base.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

El artículo presenta PhysGM, un marco de síntesis 4D feed-forward que, junto con el nuevo conjunto de datos PhysAssets, genera simulaciones físicas de alta fidelidad y renderizado 4D a partir de una sola imagen en un minuto, superando las limitaciones de optimización lenta y dependencia de múltiples vistas de los métodos anteriores.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artículo presenta un marco de estimación de poses humanas 3D basado en difusión que utiliza una estrategia de poda temporal jerárquica (HTP) para reducir drásticamente los costos computacionales y acelerar la inferencia sin sacrificar el rendimiento, logrando resultados de vanguardia en conjuntos de datos estándar.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

El artículo presenta PointSlice, un método innovador que convierte las nubes de puntos 3D en rebanadas 2D y utiliza una red de interacción de rebanadas para lograr un equilibrio superior entre precisión y eficiencia en la detección de objetos 3D, superando a los enfoques basados en pilares y voxel en velocidad y parámetros con una pérdida mínima de exactitud.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs