cs.CV artículos | Gist.Science

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

El artículo presenta Video-EM, un marco de memoria episódica sin entrenamiento que mejora la comprensión de videos largos mediante la construcción y refinamiento iterativo de una línea temporal de eventos coherentes, superando las limitaciones de las selecciones de fotogramas aisladas para permitir un razonamiento más preciso en modelos de lenguaje visual.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

El artículo presenta UniUGG, el primer marco unificado que integra la comprensión y generación de modalidades 3D mediante un LLM, un decodificador espacial basado en difusión latente y una estrategia de aprendizaje geométrico-semántico para mejorar la visualización espacial y la generación de escenas 3D.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

El artículo presenta PhysGM, un marco de síntesis 4D feed-forward que, junto con el nuevo conjunto de datos PhysAssets, genera simulaciones físicas de alta fidelidad y renderizado 4D a partir de una sola imagen en un minuto, superando las limitaciones de optimización lenta y dependencia de múltiples vistas de los métodos anteriores.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artículo presenta un marco de estimación de poses humanas 3D basado en difusión que utiliza una estrategia de poda temporal jerárquica (HTP) para reducir drásticamente los costos computacionales y acelerar la inferencia sin sacrificar el rendimiento, logrando resultados de vanguardia en conjuntos de datos estándar.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

El artículo presenta PointSlice, un método innovador que convierte las nubes de puntos 3D en rebanadas 2D y utiliza una red de interacción de rebanadas para lograr un equilibrio superior entre precisión y eficiencia en la detección de objetos 3D, superando a los enfoques basados en pilares y voxel en velocidad y parámetros con una pérdida mínima de exactitud.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Este artículo propone un nuevo marco de aprendizaje federado llamado MDM-MixMFL para la segmentación de imágenes de resonancia magnética (MRI) multimodales, el cual aborda la heterogeneidad de datos y modalidades entre hospitales mediante una estrategia de desacoplamiento modal y un mecanismo de memorización de prototipos para compensar la falta de modalidades en los clientes locales.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Este estudio presenta un sistema innovador basado en visión por computadora que clasifica la distracción y el deterioro de los conductores mediante la observación externa, utilizando detección de objetos y análisis de trayectoria para identificar comportamientos inseguros sin depender de la comunicación entre vehículos.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

El artículo presenta UltraUPConvNet, un marco universal eficiente computacionalmente basado en UPerNet y ConvNeXt que realiza simultáneamente la segmentación de tejidos y la predicción de enfermedades en imágenes de ultrasonido, logrando un rendimiento de vanguardia con menos sobrecarga computacional.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Traffic-MLLM es un marco de razonamiento multimodal para la conducción autónoma que, en lugar de recuperar casos explícitamente, aprende un espacio de casos estructurado mediante aprendizaje supervisado regularizado por curiosidad (basado en RND) para mejorar la adaptación a escenarios de tráfico complejos y de cola larga.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

El artículo presenta SAGA, un mecanismo de atención lineal que utiliza puertas adaptativas selectivas y una descomposición eficiente para mitigar la redundancia de características y las limitaciones de rango bajo, logrando así un rendimiento superior y una mayor eficiencia computacional en comparación con los métodos existentes.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artículo presenta la Puntuación de Consenso Acumulativo (CCS), una métrica de evaluación libre de etiquetas y agnóstica al modelo que utiliza la consistencia espacial de las predicciones tras aumentos de datos para monitorear la fiabilidad de los detectores de objetos en entornos de despliegue sin necesidad de anotaciones de ground truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

El artículo presenta WHU-STree, un nuevo conjunto de datos de referencia multimodal y rico en anotaciones recopilado en dos ciudades que integra nubes de puntos y imágenes de alta resolución para superar las limitaciones de los conjuntos existentes y facilitar más de diez tareas de inventario de árboles urbanos, como la clasificación de especies y la segmentación individual.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

El artículo presenta MICA, un asistente de coordinación multiagente basado en percepción y voz que utiliza fusión de pasos adaptativa y verificación de seguridad para ofrecer asistencia industrial confiable y privada en entornos con recursos limitados.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Este trabajo introduce el marco ORIC y el conjunto de datos ORIC-Bench para evaluar y mejorar la capacidad de los Modelos de Lenguaje y Visión Grandes (LVLM) para reconocer objetos en contextos incongruos, demostrando que la incongruencia contextual es una fuente clave de incertidumbre y proponiendo técnicas de ajuste fino para mitigar estos errores.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Este trabajo presenta un sistema de navegación visual de enseñanza y repetición basado en cámaras de eventos que utiliza correlación cruzada en el dominio de Fourier para lograr una latencia de procesamiento de 2,88 ms y una navegación autónoma precisa en más de 3000 metros bajo diversas condiciones de iluminación.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Este trabajo demuestra que, aunque los benchmarks actuales de video no evalúan adecuadamente la comprensión auditiva, integrar codificadores de voz en modelos modernos de video-LLM mejora significativamente el rendimiento en tareas que requieren razonamiento audio-visual, ofreciendo una solución escalable y de código abierto.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Este artículo presenta FINS, un marco ligero que reconstruye superficies implícitas y campos de distancia firmes a partir de una sola imagen en segundos, superando a los métodos actuales en velocidad y precisión para aplicaciones de generación de movimiento en robótica.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

El artículo presenta QuantVGGT, el primer marco de cuantización post-entrenamiento diseñado específicamente para los Transformers de Geometría Visual (VGGT) a gran escala, que supera los desafíos de las distribuciones de activación de cola pesada y la inestabilidad en la selección de muestras mediante técnicas innovadoras como la cuantización de grano fino suavizada dual y el muestreo diverso filtrado por ruido, logrando una reducción de memoria de 3.7 veces y una aceleración de 2.5 veces en hardware real manteniendo una precisión de reconstrucción superior al 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

El artículo presenta MATR, un transformador consciente del movimiento que mejora el seguimiento de múltiples objetos al predecir explícitamente los desplazamientos de los objetos para actualizar las consultas de rastro, logrando así resultados de vanguardia en diversos conjuntos de datos sin depender de datos externos.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

El artículo presenta GS-2M, un marco de optimización consciente de los materiales que utiliza 3D Gaussian Splatting para realizar una reconstrucción de mallas de alta fidelidad y resistente a superficies reflectantes mediante la optimización conjunta de atributos geométricos y una nueva estrategia de supervisión de rugosidad basada en variaciones fotométricas multivista, eliminando la necesidad de componentes neuronales complejos.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

← Anterior Siguiente →