Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

El artículo presenta Video-EM, un marco de memoria episódica sin entrenamiento que mejora la comprensión de videos largos mediante la construcción y refinamiento iterativo de una línea temporal de eventos coherentes, superando las limitaciones de las selecciones de fotogramas aisladas para permitir un razonamiento más preciso en modelos de lenguaje visual.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

El artículo presenta UniUGG, el primer marco unificado que integra la comprensión y generación de modalidades 3D mediante un LLM, un decodificador espacial basado en difusión latente y una estrategia de aprendizaje geométrico-semántico para mejorar la visualización espacial y la generación de escenas 3D.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

El artículo presenta PhysGM, un marco de síntesis 4D feed-forward que, junto con el nuevo conjunto de datos PhysAssets, genera simulaciones físicas de alta fidelidad y renderizado 4D a partir de una sola imagen en un minuto, superando las limitaciones de optimización lenta y dependencia de múltiples vistas de los métodos anteriores.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artículo presenta un marco de estimación de poses humanas 3D basado en difusión que utiliza una estrategia de poda temporal jerárquica (HTP) para reducir drásticamente los costos computacionales y acelerar la inferencia sin sacrificar el rendimiento, logrando resultados de vanguardia en conjuntos de datos estándar.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

El artículo presenta PointSlice, un método innovador que convierte las nubes de puntos 3D en rebanadas 2D y utiliza una red de interacción de rebanadas para lograr un equilibrio superior entre precisión y eficiencia en la detección de objetos 3D, superando a los enfoques basados en pilares y voxel en velocidad y parámetros con una pérdida mínima de exactitud.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Este artículo propone un nuevo marco de aprendizaje federado llamado MDM-MixMFL para la segmentación de imágenes de resonancia magnética (MRI) multimodales, el cual aborda la heterogeneidad de datos y modalidades entre hospitales mediante una estrategia de desacoplamiento modal y un mecanismo de memorización de prototipos para compensar la falta de modalidades en los clientes locales.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artículo presenta la Puntuación de Consenso Acumulativo (CCS), una métrica de evaluación libre de etiquetas y agnóstica al modelo que utiliza la consistencia espacial de las predicciones tras aumentos de datos para monitorear la fiabilidad de los detectores de objetos en entornos de despliegue sin necesidad de anotaciones de ground truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

El artículo presenta WHU-STree, un nuevo conjunto de datos de referencia multimodal y rico en anotaciones recopilado en dos ciudades que integra nubes de puntos y imágenes de alta resolución para superar las limitaciones de los conjuntos existentes y facilitar más de diez tareas de inventario de árboles urbanos, como la clasificación de especies y la segmentación individual.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Este trabajo introduce el marco ORIC y el conjunto de datos ORIC-Bench para evaluar y mejorar la capacidad de los Modelos de Lenguaje y Visión Grandes (LVLM) para reconocer objetos en contextos incongruos, demostrando que la incongruencia contextual es una fuente clave de incertidumbre y proponiendo técnicas de ajuste fino para mitigar estos errores.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Quantized Visual Geometry Grounded Transformer

El artículo presenta QuantVGGT, el primer marco de cuantización post-entrenamiento diseñado específicamente para los Transformers de Geometría Visual (VGGT) a gran escala, que supera los desafíos de las distribuciones de activación de cola pesada y la inestabilidad en la selección de muestras mediante técnicas innovadoras como la cuantización de grano fino suavizada dual y el muestreo diverso filtrado por ruido, logrando una reducción de memoria de 3.7 veces y una aceleración de 2.5 veces en hardware real manteniendo una precisión de reconstrucción superior al 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

El artículo presenta GS-2M, un marco de optimización consciente de los materiales que utiliza 3D Gaussian Splatting para realizar una reconstrucción de mallas de alta fidelidad y resistente a superficies reflectantes mediante la optimización conjunta de atributos geométricos y una nueva estrategia de supervisión de rugosidad basada en variaciones fotométricas multivista, eliminando la necesidad de componentes neuronales complejos.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs