cs.LG artículos | Gist.Science

Hindsight Credit Assignment for Long-Horizon LLM Agents

El documento presenta HCAPO, un marco innovador que integra la asignación de crédito retrospectiva mediante el propio LLM como crítico *post-hoc* para superar las limitaciones de los métodos sin valor en tareas de largo alcance, logrando mejoras significativas en benchmarks como WebShop y ALFWorld en comparación con GRPO.

Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li2026-03-11🤖 cs.AI

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

El artículo presenta una reducción generalizada que transforma funciones invariantes en espacios de producto bajo acciones de grupos transitivos en invariantes de un subgrupo de isotropía, permitiendo así extender los campos neuronales equivariantes a configuraciones geométricas heterogéneas sin restricciones estructurales.

Alejandro García-Castellanos, Gijs Bellaard, Remco Duits, Daniel Pelt, Erik J Bekkers2026-03-11🤖 cs.AI

On the Formal Limits of Alignment Verification

Este artículo demuestra que no es posible diseñar un procedimiento de verificación de alineación que sea simultáneamente sonoro, general y tratable, estableciendo un trilema fundamental que define los límites teóricos de la certificación formal de la seguridad en la IA.

Ayushi Agarwal2026-03-11🤖 cs.LG

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

El artículo presenta SPREAD, un marco de aprendizaje por imitación vitalicio que utiliza descomposición en valores singulares para preservar la geometría de las representaciones de tareas en subespacios de bajo rango, logrando así una transferencia de conocimiento estable y un rendimiento superior al estado del arte en el benchmark LIBERO.

Kaushik Roy, Giovanni D'urso, Nicholas Lawrance, Brendan Tidd, Peyman Moghadam2026-03-11🤖 cs.LG

Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

El artículo presenta Midicoth, un sistema de compresión sin pérdida que mejora la estimación de probabilidades en modelos adaptativos mediante una capa de denoising de micro-difusión basada en un árbol binario que corrige las distorsiones causadas por el suavizado de priores en contextos escasos.

Roberto Tacconelli2026-03-11🤖 cs.LG

Multi-level meta-reinforcement learning with skill-based curriculum

Este trabajo propone un marco de aprendizaje por refuerzo meta-multinivel que combina la compresión eficiente de procesos de decisión de Markov mediante jerarquías de habilidades con un aprendizaje curricular, logrando así reducir la complejidad de la búsqueda de políticas, facilitar la transferencia de habilidades entre tareas y niveles, y garantizar la consistencia teórica bajo suposiciones moderadas.

Sichen Yang (Johns Hopkins University), Mauro Maggioni (Johns Hopkins University)2026-03-11🤖 cs.AI

The Temporal Markov Transition Field

Este artículo introduce el Campo de Transición Markoviano Temporal (TMTF), una extensión del método MTF que divide la serie temporal en segmentos contiguos para estimar matrices de transición locales, preservando así la información sobre cuándo ocurren los cambios de régimen y evitando el promediado engañoso de dinámicas no estacionarias.

Michael Leznik2026-03-11🤖 cs.LG

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Este trabajo presenta SoftJAX y SoftTorch, bibliotecas de código abierto que unifican y facilitan el acceso a relajaciones suaves diferenciables para operaciones "duras" en JAX y PyTorch, permitiendo el uso de gradientes informativos en optimizaciones basadas en gradientes.

Anselm Paulus, A. René Geist, Vít Musil, Sebastian Hoffmann, Onur Beker, Georg Martius2026-03-11🤖 cs.LG

Are Expressive Encoders Necessary for Discrete Graph Generation?

El artículo presenta GenGNN, un marco modular de paso de mensajes que demuestra que los codificadores expresivos como los transformadores no son estrictamente necesarios para la generación de grafos discretos, ya que permite lograr una validez superior al 90% en conjuntos de datos complejos y un 99,49% en generación molecular con una velocidad de inferencia 2 a 5 veces mayor que las arquitecturas existentes.

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

El artículo presenta MASEval, un marco de evaluación agnóstico que demuestra que las decisiones de implementación del sistema (como la topología y la lógica de orquestación) impactan el rendimiento tanto como la elección del modelo, permitiendo así una comparación sistemática de componentes completos de sistemas multiagente.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models

Este artículo demuestra teórica y empíricamente que los modelos híbridos que combinan Transformers y modelos de espacio de estados superan a sus contrapartes no híbridas en tareas sintéticas y de aprendizaje, logrando una mayor eficiencia, generalización de longitud y robustez con significativamente menos parámetros.

John Cooper, Ilias Diakonikolas, Mingchen Ma, Frederic Sala2026-03-11🤖 cs.LG

APPLV: Adaptive Planner Parameter Learning from Vision-Language-Action Model

El artículo presenta \textsc{applv}, un enfoque que utiliza modelos de visión-lenguaje-acción para predecir dinámicamente los parámetros de planificadores clásicos, logrando así una navegación robótica más segura, precisa y generalizable en entornos altamente restringidos que los métodos existentes.

Yuanjie Lu, Beichen Wang, Zhengqi Wu, Yang Li, Xiaomin Lin, Chengzhi Mao, Xuesu Xiao2026-03-11🤖 cs.LG

Why Channel-Centric Models are not Enough to Predict End-to-End Performance in Private 5G: A Measurement Campaign and Case Study

Este estudio demuestra que los modelos centrados en el canal, como los simuladores de trazado de rayos, sobreestiman sistemáticamente el rendimiento de extremo a extremo en redes 5G privadas al ignorar la adaptación dinámica de las capas espaciales MIMO, mientras que un enfoque basado en datos mediante regresión de procesos gaussianos logra una predicción mucho más precisa al aprender directamente del rendimiento real del sistema.

Nils Jörgensen2026-03-11🤖 cs.LG

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Este artículo presenta FSbuHD, un nuevo modelo de selección de características para sistemas de información híbridos basado en la teoría de conjuntos difusos-rough que reformula el problema como una optimización utilizando distancias combinadas para superar las limitaciones de tiempo y ruido de los métodos tradicionales, demostrando su superioridad en modos normal y optimista mediante pruebas en conjuntos de datos UCI.

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

Este artículo presenta un marco ablativo integral para la predicción selectiva que introduce el método de apuestas informado por transferencia (TIB) para mejorar la cuantificación de incertidumbre en entornos con escasez de datos mediante el uso de perfiles de riesgo de dominios fuente, demostrando superioridad teórica y empírica sobre nueve familias de cotas existentes en múltiples benchmarks.

Abhinaba Basu2026-03-11🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

El artículo presenta FedLECC, una estrategia ligera de selección de clientes para el aprendizaje federado que agrupa a los dispositivos según la similitud de sus distribuciones de etiquetas y prioriza aquellos con mayor pérdida local, logrando así mejorar la precisión, reducir las rondas de comunicación y disminuir la sobrecarga en entornos con datos no IID.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti2026-03-11🤖 cs.AI

Quantifying Memorization and Privacy Risks in Genomic Language Models

Este artículo presenta un marco de evaluación de privacidad multi-vectorial diseñado para cuantificar y auditar los riesgos de memorización en modelos de lenguaje genómico, demostrando que estos sistemas pueden memorizar secuencias sensibles y que se requiere una auditoría combinada para evaluar dicha vulnerabilidad de manera integral.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman Ayday2026-03-11🤖 cs.LG

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Este artículo propone un enfoque totalmente diferenciable para descubrir boletos de lotería fuertes (SLT) mediante el uso de puertas de Bernoulli relajadas continuamente, lo que permite optimizar la esparsidad de redes neuronales sobreparametrizadas sin entrenamiento de pesos y lograr hasta un 90% de reducción de parámetros con mínima pérdida de precisión.

Itamar Tsayag, Ofir Lindenbaum2026-03-11🤖 cs.AI

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

El artículo presenta MedCBR, un marco de razonamiento basado en conceptos que integra guías clínicas y modelos de lenguaje-visión para mejorar la interpretabilidad y el rendimiento diagnóstico en imágenes médicas mediante la generación de narrativas clínicas estructuradas.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

Este artículo propone un marco de aprendizaje por refuerzo jerárquico asistido por gemelo digital que optimiza conjuntamente la política de ajuste de inclinación de antenas y la estrategia de recolección de datos en redes móviles, logrando reducir la latencia de recopilación de datos físicos hasta un 28,01% en comparación con métodos existentes.

Hanzhi Yu, Hasan Farooq, Julien Forgeat, Shruti Bothe, Kristijonas Cyras, Md Moin Uddin Chowdhury, Mingzhe Chen2026-03-11🤖 cs.LG

← Anterior Siguiente →