UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

El artículo presenta UniUGG, el primer marco unificado que integra la comprensión y generación de modalidades 3D mediante un LLM, un decodificador espacial basado en difusión latente y una estrategia de aprendizaje geométrico-semántico para mejorar la visualización espacial y la generación de escenas 3D.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

El artículo presenta UniCast, un marco multimodal eficiente en parámetros que mejora los modelos fundacionales de series temporales mediante la generación de prompts condicionados a la instancia y un enrutamiento dinámico de modalidades, logrando un rendimiento superior al adaptar las predicciones a contextos específicos de series temporales, visión y texto sin modificar el modelo base.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

El artículo presenta PhysGM, un marco de síntesis 4D feed-forward que, junto con el nuevo conjunto de datos PhysAssets, genera simulaciones físicas de alta fidelidad y renderizado 4D a partir de una sola imagen en un minuto, superando las limitaciones de optimización lenta y dependencia de múltiples vistas de los métodos anteriores.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artículo presenta un marco de estimación de poses humanas 3D basado en difusión que utiliza una estrategia de poda temporal jerárquica (HTP) para reducir drásticamente los costos computacionales y acelerar la inferencia sin sacrificar el rendimiento, logrando resultados de vanguardia en conjuntos de datos estándar.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

El artículo presenta PointSlice, un método innovador que convierte las nubes de puntos 3D en rebanadas 2D y utiliza una red de interacción de rebanadas para lograr un equilibrio superior entre precisión y eficiencia en la detección de objetos 3D, superando a los enfoques basados en pilares y voxel en velocidad y parámetros con una pérdida mínima de exactitud.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

El artículo presenta AmphiKey, un protocolo híbrido post-cuántico/tradicional diseñado para el cifrado de claves en redes eléctricas inteligentes que ofrece dos modos operativos (autenticado y deniable) para garantizar seguridad ante amenazas clásicas y cuánticas, con una evaluación de rendimiento que demuestra su eficiencia en dispositivos heterogéneos, desde servidores potentes hasta recursos limitados como Raspberry Pi.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Este artículo propone un nuevo marco de aprendizaje federado llamado MDM-MixMFL para la segmentación de imágenes de resonancia magnética (MRI) multimodales, el cual aborda la heterogeneidad de datos y modalidades entre hospitales mediante una estrategia de desacoplamiento modal y un mecanismo de memorización de prototipos para compensar la falta de modalidades en los clientes locales.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

El artículo presenta ActivePose, un sistema de estimación y seguimiento de pose 6D que combina modelos de lenguaje-visual con "imaginación robótica" para detectar y resolver ambigüedades en tiempo real mediante la selección activa de la mejor vista y el uso de políticas de difusión para mantener la visibilidad del objeto.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artículo presenta la Puntuación de Consenso Acumulativo (CCS), una métrica de evaluación libre de etiquetas y agnóstica al modelo que utiliza la consistencia espacial de las predicciones tras aumentos de datos para monitorear la fiabilidad de los detectores de objetos en entornos de despliegue sin necesidad de anotaciones de ground truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

El artículo presenta WHU-STree, un nuevo conjunto de datos de referencia multimodal y rico en anotaciones recopilado en dos ciudades que integra nubes de puntos y imágenes de alta resolución para superar las limitaciones de los conjuntos existentes y facilitar más de diez tareas de inventario de árboles urbanos, como la clasificación de especies y la segmentación individual.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Este trabajo propone un marco de aprendizaje por refuerzo asíncrono con un Módulo de Codificación Temporal que desacopla la percepción de baja frecuencia del control de alta frecuencia, permitiendo a los vehículos aéreos autónomos navegar de manera ágil y robusta en entornos complejos con una tasa de control de 100 Hz y una transferencia exitosa de simulación a realidad.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs