cs artículos | Gist.Science

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

El artículo presenta UniUGG, el primer marco unificado que integra la comprensión y generación de modalidades 3D mediante un LLM, un decodificador espacial basado en difusión latente y una estrategia de aprendizaje geométrico-semántico para mejorar la visualización espacial y la generación de escenas 3D.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

El artículo presenta UniCast, un marco multimodal eficiente en parámetros que mejora los modelos fundacionales de series temporales mediante la generación de prompts condicionados a la instancia y un enrutamiento dinámico de modalidades, logrando un rendimiento superior al adaptar las predicciones a contextos específicos de series temporales, visión y texto sin modificar el modelo base.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

El artículo presenta PhysGM, un marco de síntesis 4D feed-forward que, junto con el nuevo conjunto de datos PhysAssets, genera simulaciones físicas de alta fidelidad y renderizado 4D a partir de una sola imagen en un minuto, superando las limitaciones de optimización lenta y dependencia de múltiples vistas de los métodos anteriores.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artículo presenta un marco de estimación de poses humanas 3D basado en difusión que utiliza una estrategia de poda temporal jerárquica (HTP) para reducir drásticamente los costos computacionales y acelerar la inferencia sin sacrificar el rendimiento, logrando resultados de vanguardia en conjuntos de datos estándar.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

El artículo presenta PointSlice, un método innovador que convierte las nubes de puntos 3D en rebanadas 2D y utiliza una red de interacción de rebanadas para lograr un equilibrio superior entre precisión y eficiencia en la detección de objetos 3D, superando a los enfoques basados en pilares y voxel en velocidad y parámetros con una pérdida mínima de exactitud.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

El artículo presenta AmphiKey, un protocolo híbrido post-cuántico/tradicional diseñado para el cifrado de claves en redes eléctricas inteligentes que ofrece dos modos operativos (autenticado y deniable) para garantizar seguridad ante amenazas clásicas y cuánticas, con una evaluación de rendimiento que demuestra su eficiencia en dispositivos heterogéneos, desde servidores potentes hasta recursos limitados como Raspberry Pi.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Este artículo propone un nuevo marco de aprendizaje federado llamado MDM-MixMFL para la segmentación de imágenes de resonancia magnética (MRI) multimodales, el cual aborda la heterogeneidad de datos y modalidades entre hospitales mediante una estrategia de desacoplamiento modal y un mecanismo de memorización de prototipos para compensar la falta de modalidades en los clientes locales.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

El artículo presenta UltraUPConvNet, un marco universal eficiente computacionalmente basado en UPerNet y ConvNeXt que realiza simultáneamente la segmentación de tejidos y la predicción de enfermedades en imágenes de ultrasonido, logrando un rendimiento de vanguardia con menos sobrecarga computacional.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Traffic-MLLM es un marco de razonamiento multimodal para la conducción autónoma que, en lugar de recuperar casos explícitamente, aprende un espacio de casos estructurado mediante aprendizaje supervisado regularizado por curiosidad (basado en RND) para mejorar la adaptación a escenarios de tráfico complejos y de cola larga.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

El artículo presenta ActivePose, un sistema de estimación y seguimiento de pose 6D que combina modelos de lenguaje-visual con "imaginación robótica" para detectar y resolver ambigüedades en tiempo real mediante la selección activa de la mejor vista y el uso de políticas de difusión para mantener la visibilidad del objeto.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Bio-inspired tail oscillation enables robot fast crawling on deformable granular terrains

Inspirándose en los mudskippers, este estudio demuestra que el oscilamiento activo de la cola de un robot reduce la resistencia del sustrato granular al fluidificarlo, aumentando su velocidad un 67% y ofreciendo principios de diseño para mejorar la locomoción en terrenos deformables.

Shipeng Liu, Meghana Sagare, Shubham Patil, Feifei Qian2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

El artículo presenta SAGA, un mecanismo de atención lineal que utiliza puertas adaptativas selectivas y una descomposición eficiente para mitigar la redundancia de características y las limitaciones de rango bajo, logrando así un rendimiento superior y una mayor eficiencia computacional en comparación con los métodos existentes.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artículo presenta la Puntuación de Consenso Acumulativo (CCS), una métrica de evaluación libre de etiquetas y agnóstica al modelo que utiliza la consistencia espacial de las predicciones tras aumentos de datos para monitorear la fiabilidad de los detectores de objetos en entornos de despliegue sin necesidad de anotaciones de ground truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

El artículo presenta WHU-STree, un nuevo conjunto de datos de referencia multimodal y rico en anotaciones recopilado en dos ciudades que integra nubes de puntos y imágenes de alta resolución para superar las limitaciones de los conjuntos existentes y facilitar más de diez tareas de inventario de árboles urbanos, como la clasificación de especies y la segmentación individual.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Este trabajo propone un marco de aprendizaje por refuerzo asíncrono con un Módulo de Codificación Temporal que desacopla la percepción de baja frecuencia del control de alta frecuencia, permitiendo a los vehículos aéreos autónomos navegar de manera ágil y robusta en entornos complejos con una tasa de control de 100 Hz y una transferencia exitosa de simulación a realidad.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

El artículo presenta GeoAware-VLA, un modelo que mejora la generalización a nuevas vistas de cámara en robots al integrar priores geométricos mediante un extractor de características preentrenado y congelado, logrando aumentos significativos en el rendimiento sin necesidad de datos 3D explícitos.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

Este estudio presenta el predictor OIPP y un nuevo conjunto de datos con 8.000 trayectorias para permitir que un robot cuadrúpedo prediga con precisión el punto de impacto de diversos objetos en vuelo, superando los desafíos de la aerodinámica inestable y la falta de datos públicos.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Este trabajo presenta LibriTTS-VI, el primer corpus público para el control de impresiones vocales numéricas, y propone métodos novedosos de entrenamiento desenredado y sin referencia que mitigan la fuga de impresiones y mejoran significativamente la precisión del control en la síntesis de voz.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

Este trabajo propone un marco de aprendizaje de habilidades basado en gráficos de escena que combina redes neuronales gráficas con aprendizaje por imitación difusivo y un planificador VLM para mejorar la robustez y la generalización composicional de robots generalistas en tareas de manipulación de largo horizonte.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

El artículo presenta DroFiT, una red de mejora de voz ligera diseñada para el procesamiento en tiempo real en drones, que combina transformadores de frecuencia, un codificador-decodificador híbrido y un TCN para eliminar eficazmente el ruido propio de los UAVs con bajos requisitos computacionales.

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

← Anterior Siguiente →