cs.LG artículos | Gist.Science

The Coupling Within: Flow Matching via Distilled Normalizing Flows

El artículo propone Normalized Flow Matching (NFM), un método que mejora el entrenamiento de modelos generadores de flujo mediante la destilación de acoplamientos adaptativos de modelos de flujo normalizado preentrenados, logrando un rendimiento superior tanto a los flujos entrenados con acoplamientos independientes u óptimos como al propio modelo docente.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Este trabajo propone una medida de planitud exacta y arquitectónicamente fiel para redes neuronales convolucionales, derivada de una expresión en forma cerrada del trazo de la Hessiana, que permite estimar con mayor precisión el rendimiento de generalización y guiar decisiones de diseño y entrenamiento.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

When to Retrain after Drift: A Data-Only Test of Post-Drift Data Size Sufficiency

El artículo presenta CALIPER, un método agnóstico a modelos y detectores que utiliza únicamente datos para determinar cuándo la cantidad de información post-desplazamiento es suficiente para reentrenar un predictor de manera estable, cerrando así la brecha entre la detección de desplazamiento y la adaptación basada en datos en el aprendizaje en flujo.

Ren Fujiwara, Yasuko Matsubara, Yasushi Sakurai2026-03-11🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

El marco EPIC aborda los desafíos de la implementación centralizada del aprendizaje automático científico en entornos distribuidos mediante un enfoque de codificación local ligera y decodificación consciente de la física, logrando reducciones significativas en la latencia y el consumo de energía mientras mejora la fidelidad de reconstrucción en tareas como la inversión de onda completa.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei Yang2026-03-11🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

El marco SCALAR mejora la capacidad de los agentes LLM para ejecutar tareas complejas al acoplar bidireccionalmente la planificación simbólica con el aprendizaje por refuerzo profundo, permitiendo que el RL refina iterativamente las especificaciones de habilidades propuestas por el LLM y logrando un rendimiento superior en entornos como Craftax.

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara2026-03-11🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

El artículo presenta FlexServe, un sistema de inferencia de modelos de lenguaje grandes (LLM) para dispositivos móviles que utiliza el mecanismo de aislamiento flexible de recursos (Flex-Mem y Flex-NPU) dentro de ARM TrustZone para lograr un alto rendimiento y seguridad, superando significativamente a diseños anteriores en velocidad de generación de tokens y ejecución de flujos de trabajo multi-modelo.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin Xia2026-03-11🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

El artículo presenta a Sentinel, un agente de IA autónomo que supera a los clínicos individuales en la sensibilidad para detectar emergencias y priorizar alertas en la monitorización remota de pacientes, ofreciendo una solución escalable y de bajo costo que resuelve el problema de la sobrecarga de datos que limitó los ensayos clínicos anteriores.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

El artículo presenta Sim2Act, un marco robusto de aprendizaje de simulación a decisión que mejora la fiabilidad de las políticas en entornos críticos mediante un mecanismo de calibración adversarial y una estrategia de perturbación relativa a grupos para mitigar los errores de simulación sin sacrificar acciones de alto riesgo y recompensa.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

El artículo presenta "Quality over Quantity" (QoQ), un enfoque sistemático que utiliza funciones de influencia para curar automáticamente demostraciones de alta calidad en el aprendizaje robótico, mejorando el rendimiento de las políticas al priorizar la contribución de cada muestra a la reducción de la pérdida sobre demostraciones de validación.

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin Lee2026-03-11🤖 cs.LG

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

Este artículo propone un marco integrado de aprendizaje activo adaptativo que combina un modelo de degradación basado en procesos de Wiener con un esquema de muestreo en dos etapas para mejorar la precisión de las predicciones de fiabilidad en línea de la electrónica de satélites, reduciendo simultáneamente los requisitos de datos.

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying Ren2026-03-11🤖 cs.LG

Dynamic Multi-period Experts for Online Time Series Forecasting

El artículo presenta DynaME, un marco híbrido innovador para la predicción de series temporales en línea que aborda eficazmente la deriva de concepto al distinguir entre patrones recurrentes y emergentes, adaptándose dinámicamente mediante un comité de expertos especializados y un experto general estable.

Seungha Hong, Sukang Chae, Suyeon Kim, Sanghwan Jang, Hwanjo Yu2026-03-11🤖 cs.LG

Learning Adaptive LLM Decoding

Este trabajo propone el uso de adaptadores de decodificación ligeros entrenados con aprendizaje por refuerzo para seleccionar dinámicamente estrategias de muestreo adaptativas a nivel de secuencia y token, logrando mejoras significativas en la precisión de tareas matemáticas y de codificación bajo restricciones de recursos computacionales fijos.

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Este artículo verifica que los observadores persistentes en sustratos de hipergrafos causalmente invariantes satisfacen el Teorema del Buen Regulador de Conant-Ashby, demostrando que el descenso de gradiente natural es su regla de aprendizaje única y derivando un umbral cuántico-clásico específico para el parámetro de régimen en el marco de Vanchurin, aunque esta predicción depende fuertemente del modelo de convergencia elegido.

Max Zhuravlev2026-03-11🤖 cs.LG

Exclusive Self Attention

El artículo presenta la Atención Exclusiva (XSA), una modificación sencilla de la atención auto-referencial que mejora el rendimiento de los Transformers al restringir la atención a información ortogonal al propio token, logrando resultados superiores en tareas de modelado de lenguaje, especialmente a medida que aumenta la longitud de la secuencia.

Shuangfei Zhai2026-03-11🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

Este artículo propone un marco de computación en el borde vehicular semántico asistido por superficies inteligentes reconfigurables (RIS) que utiliza un esquema híbrido de optimización basado en PPO y programación lineal para reducir significativamente la latencia en entornos dinámicos, superando a métodos existentes como los algoritmos genéticos y QPSO.

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang Fan2026-03-11🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Este estudio demuestra que integrar puntuaciones de sentimiento derivadas de noticias en inglés y chino mediante un modelo LLM Qwen3 finetuneado mejora significativamente la precisión de las predicciones de precios del aluminio y la utilidad económica en mercados volátiles en comparación con los modelos tradicionales que solo utilizan datos tabulares.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Este artículo propone un marco unificado y una taxonomía para los modelos de mundo latentes en la conducción automatizada que organizan las representaciones latentes y los mecanismos internos, estableciendo directrices de evaluación y desafíos de investigación para lograr sistemas más robustos, generalizables y eficientes.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Este artículo demuestra que el entrenamiento sin enmascarado en aprendizaje por refuerzo suprime exponencialmente las acciones válidas en estados no visitados debido al compartimiento de parámetros, un problema que la clasificación de factibilidad permite resolver sin necesidad de máscaras de oráculo.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Este trabajo presenta un enfoque basado en datos para la predicción probabilística del factor de histéresis en baterías de vehículos eléctricos con ánodos de silicio-grafito, utilizando un marco de armonización de datos y modelos de aprendizaje profundo para mejorar la estimación del estado de carga considerando la incertidumbre y la eficiencia computacional.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

El artículo propone DCPO, un marco que desacopla los objetivos de razonamiento y calibración para resolver el conflicto de gradientes que causa una sobreconfianza excesiva en los modelos de lenguaje entrenados con recompensas verificables, logrando así preservar la precisión mientras mejora significativamente la fiabilidad de las predicciones.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

← Anterior Siguiente →