cs.LG artículos | Gist.Science

Continual uncertainty learning

Este estudio propone un marco de aprendizaje continuo basado en currículos que descompone problemas de control robusto con múltiples incertidumbres no lineales en tareas secuenciales, integrando un controlador basado en modelos para mejorar la eficiencia y evitar el olvido catastrófico, logrando así una transferencia exitosa de simulación a realidad en un controlador de vibración activa para trenes motrices automotrices.

Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara2026-03-11🤖 cs.AI

Breaking the Factorization Barrier in Diffusion Language Models

El artículo presenta Coupled Discrete Diffusion (CoDD), un marco híbrido que supera la barrera de factorización en los modelos de lenguaje difusivos al reemplazar las distribuciones de salida totalmente factorizadas con una capa de inferencia probabilística ligera, permitiendo así generar texto coherente y de alta calidad en pocos pasos sin los altos costos computacionales de los enfoques existentes.

Ian Li, Zilei Shao, Benjie Wang, Rose Yu, Guy Van den Broeck, Anji Liu2026-03-11🤖 cs.AI

Detecting Transportation Mode Using Dense Smartphone GPS Trajectories and Transformer Models

Este estudio presenta SpeedTransformer, un modelo basado en Transformers que utiliza únicamente datos de velocidad de trayectorias GPS densas para detectar modos de transporte, superando a modelos tradicionales como LSTM y demostrando alta precisión y flexibilidad en transferencias entre regiones y entornos complejos.

Yuandong Zhang, Othmane Echchabi, Tianshu Feng, Wenyi Zhang, Hsuai-Kai Liao, Charles Chang2026-03-11🤖 cs.LG

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Este trabajo estudia los procesos de decisión de Markov robustos no rectangulares bajo el criterio de recompensa promedio, demostrando que las políticas óptimas pueden caracterizarse mediante una representación minimax sin necesidad de rectangularidad, estableciendo la existencia de tales políticas bajo una suposición de comunicación débil e introduciendo un marco de valor transitorio que revela cómo la optimalidad en recompensa promedio puede ocultar un rendimiento temporal deficiente, lo que lleva a la construcción de una política basada en épocas que logra un valor transitorio de orden constante.

Shengbo Wang, Nian Si2026-03-11🤖 cs.LG

DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking

El artículo presenta DUEL, un marco que permite por primera vez el cálculo de verosimilitud exacta para modelos de difusión enmascarada mediante desenmascaramiento determinista, demostrando que estos modelos superan significativamente las estimaciones previas y cierran la brecha de perplejidad con los modelos autoregresivos.

Gilad Turok, Chris De Sa, Volodymyr Kuleshov2026-03-11🤖 cs.LG

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

El artículo presenta a \textsc{Gome}, un agente de ingeniería de aprendizaje automático que supera a los métodos tradicionales de búsqueda en árbol al operacionalizar la optimización basada en gradientes mediante el razonamiento estructurado, logrando un rendimiento superior a medida que aumenta la capacidad de razonamiento de los modelos.

Yifei Zhang, Xu Yang, Xiao Yang, Bowen Xian, Qizheng Li, Shikai Fang, Jingyuan Li, Jian Wang, Mingrui Xu, Weiqing Liu, Jiang Bian2026-03-11🤖 cs.AI

FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing

El artículo presenta FinTexTS, un nuevo conjunto de datos de series temporales financieras emparejadas con texto que utiliza un marco de emparejamiento semántico y multinivel para capturar las complejas interdependencias del mercado y mejorar la precisión en la predicción de precios de acciones.

Jaehoon Lee, Suhwan Park, Tae Yoon Lim, Seunghan Lee, Jun Seo, Dongwan Kang, Hwanil Choi, Minjae Kim, Sungdong Yoo, SoonYoung Lee, Yongjae Lee, Wonbin Ahn2026-03-11🤖 cs.AI

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Este artículo presenta dos técnicas de software, Escalamiento Consciente de Desbordamiento (OAS) y Escalamiento de Bloque Macro (MBS), que reducen significativamente el error de cuantización en el formato MXFP4, cerrando la brecha de precisión con NVFP4 a menos del 1% sin requerir cambios en el hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu Kim2026-03-11🤖 cs.AI

Equitable Multi-Task Learning for AI-RANs

Este artículo presenta el marco OWO-FMTL, un enfoque de aprendizaje multitarea en línea que garantiza equidad a largo plazo en las redes de acceso por radio habilitadas para IA mediante un mecanismo de actualización primal-dual ligero que equilibra la eficiencia y la justicia en entornos de recursos compartidos dinámicos.

Panayiotis Raptis, Fatih Aslan, George Iosifidis2026-03-11🤖 cs.LG

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

El paper presenta KernelCraft, el primer benchmark que demuestra cómo los agentes de IA pueden generar y optimizar automáticamente kernels de bajo nivel para aceleradores emergentes con nuevas arquitecturas de instrucciones, reduciendo significativamente el tiempo y la complejidad del desarrollo manual.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren Zhao2026-03-11🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

El documento presenta ALADIN, un marco de análisis para la inferencia en aceleradores de IA embebidos basado en scratchpad que evalúa las compensaciones entre precisión, latencia y uso de recursos en redes neuronales cuantizadas de precisión mixta sin necesidad de implementación física, utilizando un simulador preciso en ciclos para optimizar el diseño conjunto de hardware y software.

T. Baldi, D. Casini, A. Biondi2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Esta revisión analiza el panorama de los procesadores de IA de ultra bajo consumo, comparando arquitecturas heterogéneas, aceleradores neuronales y diseños en el sensor, y valida empíricamente el rendimiento de tres plataformas representativas (GAP9, STM32N6 e IMX500) para demostrar la superioridad de la computación en el sensor en términos de eficiencia energética y latencia.

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

Este artículo presenta una arquitectura de acelerador de CNN para FPGAs que, mediante la exploración del espacio de diseño y el procesamiento de múltiples píxeles, optimiza la utilización de recursos y la eficiencia energética al adaptar dinámicamente las implementaciones de hardware a las tasas de datos variables de las capas, permitiendo la ejecución eficiente de redes complejas en un solo chip.

Tobias Habermann, Martin Kumm2026-03-11🤖 cs.LG

Memory-Augmented Spiking Networks: Synergistic Integration of Complementary Mechanisms for Neuromorphic Vision

Este estudio demuestra que la integración equilibrada de mecanismos de memoria complementarios, como el aprendizaje contrastivo supervisado y las redes recurrentes jerárquicas, en redes de espigas neuronales (SNN) supera las compensaciones individuales para lograr un rendimiento óptimo en precisión, eficiencia energética y organización neuronal en tareas de visión neuromórfica.

Effiong Blessing, Chiung-Yi Tseng, Isaac Nkrumah, Junaid Rehman2026-03-11🤖 cs.LG

Hebbian-Oscillatory Co-Learning

El artículo presenta HOC-L, un marco dinámico unificado de dos escalas temporales que combina la geometría hiperbólica dispersa y la sincronización oscilatoria para lograr una plasticidad estructural guiada por la coherencia de fase, garantizando la convergencia teórica y una complejidad computacional eficiente.

Hasi Hays2026-03-11🤖 cs.LG

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

El artículo presenta Auralink SDC, una arquitectura que despliega agentes de IA especializados en el borde para gestionar infraestructura de carga de vehículos eléctricos, logrando una resolución autónoma del 78% de incidentes y una latencia de respuesta de menos de 50 ms mediante técnicas como la resolución autónoma calibrada por confianza y la orquestación jerárquica de múltiples agentes.

Mohammed Cherifi2026-03-11🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Este artículo presenta un marco de compresión para la Computación de Reservorio que utiliza un mecanismo de poda basado en sensibilidad para optimizar el equilibrio entre precisión, eficiencia de hardware y recursos en implementaciones de FPGA mediante la poda y cuantización de pesos.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco Platzner2026-03-11🤖 cs.AI

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

El documento presenta la familia AetherFloat, una arquitectura de punto flotante cuaternaria y sin escalado por bloques diseñada para aceleradores de IA que elimina la lógica de escalado dinámica, reduce significativamente el área y el consumo energético, y mejora el rendimiento mediante un manto explícito y un redondeo estocástico compartido.

Keita Morisaki2026-03-11🤖 cs.LG

Robust Parameter and State Estimation in Multiscale Neuronal Systems Using Physics-Informed Neural Networks

Este trabajo presenta un marco de redes neuronales informadas por física (PINN) que logra una estimación robusta de parámetros biofísicos y la reconstrucción de estados ocultos en modelos neuronales multiescala, superando las limitaciones de los métodos tradicionales al requerir solo observaciones parciales de voltaje y funcionar eficazmente incluso con estimaciones iniciales no informativas.

Changliang Wei, Yangyang Wang, Xueyu Zhu2026-03-11🤖 cs.LG

Permutation-Equivariant 2D State Space Models: Theory and Canonical Architecture for Multivariate Time Series

Este trabajo presenta el modelo VI 2D SSM, una arquitectura de espacio de estados bidimensional que garantiza la equivarianza a la permutación en series temporales multivariantes mediante una descomposición teórica en dinámicas locales e interacciones globales, eliminando dependencias secuenciales innecesarias y logrando un rendimiento superior en diversas tareas de predicción y clasificación.

Seungwoo Jeong, Heung-Il Suk2026-03-11🤖 cs.AI

← Anterior Siguiente →