cs.LG artículos | Gist.Science

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Este trabajo presenta ToCoRL, un marco de aprendizaje por refuerzo que aprovecha la plasticidad conductual inherente de los modelos de lenguaje grandes mediante la generación condicional a tokens, permitiendo adaptar sus patrones de comportamiento (como cambiar del razonamiento paso a paso a respuestas directas) de manera estable y precisa sin degradar sus capacidades.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Este trabajo aborda la inestabilidad de la descomposición no lineal de valores en el aprendizaje por refuerzo multiagente fuera de línea proponiendo la normalización de valores invariante a la escala (SVN) y derivando una receta práctica que estabiliza el entrenamiento y desbloquea el potencial completo de este paradigma.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Geometrically Constrained Outlier Synthesis

El artículo presenta GCOS, un marco de regularización que sintetiza outliers virtuales en el espacio de características respetando la estructura del manifold de los datos, mejorando así la detección robusta de datos fuera de distribución y permitiendo inferencia conformal con garantías de error formal.

Daniil Karzanov, Marcin Detyniecki2026-03-10🤖 cs.LG

Meta-RL with Shared Representations Enables Fast Adaptation in Energy Systems

Este artículo presenta un nuevo marco de Aprendizaje por Refuerzo Meta (Meta-RL) que, mediante una arquitectura híbrida actor-crítico con optimización de dos niveles y representaciones compartidas, logra una adaptación rápida y eficiente en sistemas de gestión de energía, superando a los métodos convencionales en un conjunto de datos real de casi una década.

Théo Zangato, Aomar Osmani, Pegah Alizadeh2026-03-10🤖 cs.LG

SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

El artículo presenta SYNAPSE, un marco de análisis sin reentrenamiento que evalúa la robustez interna y la interpretabilidad de los modelos Transformer mediante la identificación de neuronas clave y la aplicación de intervenciones controladas, revelando patrones de redundancia funcional y vulnerabilidades estructurales.

Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán2026-03-10🤖 cs.LG

IronEngine: Towards General AI Assistant

El artículo presenta IronEngine, una plataforma de asistente de IA general que integra una arquitectura unificada de orquestación, gestión adaptativa de modelos y ejecución de herramientas para lograr una alta tasa de completitud en tareas heterogéneas mediante un pipeline de tres fases que separa la planificación de la ejecución.

Xi Mo2026-03-10🤖 cs.LG

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

El artículo presenta GRACE, un marco de aprendizaje incremental de clases que gestiona dinámicamente la capacidad del modelo mediante un ciclo de expansión, evaluación de saturación y compresión para lograr un rendimiento de vanguardia reduciendo la huella de memoria hasta en un 73% en comparación con los métodos puramente expansivos.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Este estudio prospectivo de viabilidad demuestra que un sistema de inteligencia artificial conversacional basado en modelos de lenguaje (AMIE) es seguro, bien aceptado por pacientes y médicos, y capaz de generar diagnósticos diferenciales de calidad comparable a la de los médicos de atención primaria en un entorno clínico real, aunque los médicos superaron a la IA en la practicidad y rentabilidad de los planes de tratamiento.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

El artículo presenta LycheeCluster, un método innovador de gestión de caché KV que utiliza fragmentación consciente de límites y un índice jerárquico recursivo para acelerar la inferencia de modelos de lenguaje grandes en contextos largos hasta en un 3,6 veces sin comprometer significativamente su rendimiento.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

El estudio revela que la capacidad de un agente de aprendizaje por refuerzo para detectar la degradación gradual de sus observaciones depende de un umbral crítico universal que surge de la interacción entre el nivel de ruido, el detector y la dinámica específica del entorno, lo que explica tanto la existencia de un punto de ruptura agudo como la imposibilidad de detectar ciertos patrones de deriva o fallos catastróficos antes de que ocurran.

Zhe Hong2026-03-10🤖 cs.LG

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Este artículo presenta un sistema de seguimiento de embarcaciones que fusiona datos de cámaras y LiDAR mediante un filtro de partículas con una política de selección de sensores adaptativa basada en la entropía, demostrando en un puerto real de Chipre que esta estrategia optimiza el equilibrio entre precisión y continuidad al activar dinámicamente el sensor más informativo según las condiciones ambientales.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

Data-Driven Priors for Uncertainty-Aware Deterioration Risk Prediction with Multimodal Data

Este trabajo presenta $\texttt{MedCertAIn}$ , un marco predictivo que utiliza datos clínicos multimodales y priores basados en datos para mejorar significativamente el rendimiento y la cuantificación de incertidumbre en la predicción de riesgos intrahospitalarios, superando a los métodos deterministas y bayesianos actuales.

L. Julián Lechuga López, Tim G. J. Rudner, Farah E. Shamout2026-03-10🤖 cs.LG

Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Este artículo propone un enfoque unificado para la generación eficiente de razonamiento en modelos de lenguaje mediante el Principio del Cuello de Botella de Información Condicional (CIB), que reformula el problema como una compresión con pérdidas para eliminar el relleno cognitivo sin sacrificar la lógica, superando las limitaciones de los métodos actuales de "forzamiento de presupuesto" mediante una función de objetivo de aprendizaje por refuerzo que prioriza la información semántica sobre el simple conteo de tokens.

Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi2026-03-10🤖 cs.LG

MUSA-PINN: Multi-scale Weak-form Physics-Informed Neural Networks for Fluid Flow in Complex Geometries

El artículo presenta MUSA-PINN, un método de redes neuronales informadas por física de forma débil multi-escala que reformula las leyes de conservación como integrales sobre volúmenes de control jerárquicos para resolver con mayor precisión y estabilidad el flujo de fluidos en geometrías complejas como las superficies mínimas periódicas triplemente (TPMS), superando las limitaciones de convergencia de los enfoques tradicionales.

Weizheng Zhang, Xunjie Xie, Hao Pan, Xiaowei Duan, Bingteng Sun, Qiang Du, Lin lu2026-03-10🤖 cs.LG

Integrating Lagrangian Neural Networks into the Dyna Framework for Reinforcement Learning

Este trabajo propone un marco de aprendizaje por refuerzo basado en modelos (MBRL) que integra redes neuronales lagrangianas dentro de la arquitectura Dyna para garantizar el cumplimiento de las leyes físicas y mejorar la precisión de las predicciones, demostrando que el uso de optimizadores basados en estimación de estado acelera la convergencia en comparación con los métodos basados en gradiente estocástico.

Shreya Das, Kundan Kumar, Muhammad Iqbal, Outi Savolainen, Dominik Baumann, Laura Ruotsalainen, Simo Särkkä2026-03-10🤖 cs.LG

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

El artículo presenta STRIDE, un marco de aprendizaje de dinámica robótica que combina redes neuronales lagrangianas para la mecánica conservadora y el emparejamiento de flujos condicionales para modelar interacciones estocásticas, logrando una mayor precisión en la predicción a largo plazo y de fuerzas de contacto en entornos inciertos.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

El artículo presenta X-AVDT, un detector de deepfakes robusto que aprovecha las señales de alineación audio-visual internas de los generadores obtenidas mediante inversión DDIM, junto con el nuevo conjunto de datos multimodal MMDF, para lograr un rendimiento superior y una mejor generalización frente a modelos de síntesis no vistos.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

NN-OpInf: an operator inference approach using structure-preserving composable neural networks

El artículo presenta NN-OpInf, un marco de inferencia de operadores no intrusivo que utiliza redes neuronales composables y preservadoras de estructura para lograr una reducción de orden más precisa y estable en sistemas dinámicos con no linealidades no polinómicas, superando a los métodos polinómicos tradicionales a costa de un mayor costo computacional.

Eric Parish, Anthony Gruber, Patrick Blonigan, Irina Tezaur2026-03-10🤖 cs.LG

Pareto-Optimal Anytime Algorithms via Bayesian Racing

El artículo presenta PolarBear, un marco basado en inferencia bayesiana y rankings que identifica el conjunto de Pareto de algoritmos de optimización en tiempo real sin necesidad de normalización ni conocer los óptimos, permitiendo una selección coherente bajo presupuestos computacionales inciertos.

Jonathan Wurth, Helena Stegherr, Neele Kemper, Michael Heider, Jörg Hähner2026-03-10🤖 cs.LG

Efficient Credal Prediction through Decalibration

Este trabajo propone un método eficiente de predicción credal basado en la recalibración y la descalibración que genera intervalos de probabilidad plausibles sin necesidad de reentrenar ensembles, permitiendo así la cuantificación de incertidumbre epistémica en modelos complejos como TabPFN y CLIP.

Paul Hofman, Timo Löhr, Maximilian Muschalik, Yusuf Sale, Eyke Hüllermeier2026-03-10🤖 cs.LG

← Anterior Siguiente →