cs.LG artículos | Gist.Science

A Trust-Region Interior-Point Stochastic Sequential Quadratic Programming Method

Este artículo propone un método de programación cuadrática secuencial estocástica con región de confianza y punto interior (TR-IP-SSQP) para resolver problemas de optimización con función objetivo estocástica y restricciones deterministas, demostrando su convergencia casi segura y su rendimiento práctico mediante pruebas en conjuntos de datos estándar y regresión logística.

Yuchen Fang, Jihun Kim, Sen Na, James Demmel, Javad Lavaei2026-03-12🔢 math

Why Does It Look There? Structured Explanations for Image Classification

El artículo presenta I2X, un marco que transforma la interpretabilidad no estructurada en explicaciones estructuradas para revelar el proceso de inferencia de modelos de clasificación de imágenes y, al mismo tiempo, mejorar su precisión mediante la identificación y el ajuste dirigido de prototipos inciertos.

Jiarui Li, Zixiang Yin, Samuel J Landry, Zhengming Ding, Ramgopal R. Mettu2026-03-12🤖 cs.LG

One Adapter for All: Towards Unified Representation in Step-Imbalanced Class-Incremental Learning

El artículo presenta "One-A", un marco unificado para el aprendizaje incremental de clases que aborda el desequilibrio entre tareas mediante una fusión asimétrica de adaptadores, logrando un rendimiento competitivo con un coste de inferencia constante.

Xiaoyan Zhang, Jiangpeng He2026-03-12🤖 cs.LG

Intrinsic Numerical Robustness and Fault Tolerance in a Neuromorphic Algorithm for Scientific Computing

Este estudio demuestra que un algoritmo neuromórfico nativamente espigante para resolver ecuaciones diferenciales parciales posee una robustez intrínseca y tolerancia a fallos, manteniendo su precisión incluso con la eliminación de hasta el 32% de las neuronas y el 90% de las espigas, gracias a su inspiración cerebral.

Bradley H. Theilman, James B. Aimone2026-03-12🤖 cs.AI

SiMPO: Measure Matching for Online Diffusion Reinforcement Learning

El artículo presenta SiMPO, un marco unificado para el aprendizaje por refuerzo con políticas de difusión que generaliza los esquemas de reponderación mediante la coincidencia de medidas firmadas, permitiendo el uso de funciones de ponderación arbitrarias y la reponderación negativa para evitar acciones subóptimas y mejorar el rendimiento.

Haitong Ma, Chenxiao Gao, Tianyi Chen, Na Li, Bo Dai2026-03-12🤖 cs.LG

Bayesian Hierarchical Models and the Maximum Entropy Principle

Este artículo demuestra que, cuando la distribución previa condicional a los hiperparámetros es una distribución canónica de máxima entropía, la distribución marginal dependiente resultante también posee una propiedad de máxima entropía bajo una restricción diferente sobre la distribución marginal de una función de las cantidades desconocidas, aclarando así la información asumida al asignar un modelo jerárquico bayesiano.

Brendon J. Brewer2026-03-12📊 stat

Improving TabPFN's Synthetic Data Generation by Integrating Causal Structure

Este trabajo mejora la generación de datos tabulares sintéticos del modelo TabPFN integrando la estructura causal mediante condicionamiento basado en grafos acíclicos dirigidos (DAG) y grafos acíclicos dirigidos parcialmente completados (CPDAG), lo que elimina correlaciones espurias y preserva los efectos causales al alinear el orden de generación con las relaciones causales reales.

Davide Tugnoli, Andrea De Lorenzo, Marco Virgolin, Giovanni Cinà2026-03-12🤖 cs.LG

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Este artículo presenta el descubrimiento y la extracción de un algoritmo compacto y de alto rendimiento para el análisis hematopoyético a partir del modelo fundacional scGPT mediante interpretabilidad mecánica, logrando resultados superiores a métodos existentes con una eficiencia computacional y de parámetros significativamente mayor.

Ihor Kendiukhov2026-03-12🧬 q-bio

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

El artículo presenta DICE-RL, un marco de aprendizaje por refuerzo que refina políticas generativas preentrenadas mediante una contracción de distribución para lograr un dominio eficiente y estable de habilidades de manipulación robótica complejas tanto en simulación como en robots reales.

Zhanyi Sun, Shuran Song2026-03-12🤖 cs.LG

Estimating condition number with Graph Neural Networks

Este artículo propone un método rápido basado en redes neuronales de grafos para estimar el número de condición de matrices dispersas, el cual logra una aceleración significativa frente a los métodos tradicionales de Hager-Higham y Lanczos gracias a una ingeniería de características eficiente.

Erin Carson, Xinye Chen2026-03-12🤖 cs.LG

Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

El artículo demuestra que el ajuste fino supervisado (SFT) ponderado exponencialmente por recompensas es un método post-entrenamiento robusto, escalable y superior al RLHF para sistemas generativos de recomendación, ya que evita el fraude de recompensas, no requiere puntuaciones de propensión y ofrece garantías teóricas de mejora de la política bajo feedback ruidoso.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework

Este artículo presenta un marco convergente de Plug-and-Play basado en ADMM que integra un nuevo desruidor AC-DC para resolver la discrepancia de variedades y garantizar la convergencia en problemas inversos mediante modelos generativos basados en puntuación.

Rajesh Shrestha, Xiao Fu2026-03-12🤖 cs.LG

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

Este artículo propone el uso de la descomposición en valores singulares generalizada (GSVD) para comparar conjuntos de datos basándose en su geometría subyacente, derivando una "puntuación angular" interpretable que diagnostica si una muestra se explica mejor por uno u otro conjunto de datos o por ambos.

Eduarda de Souza Marques, Arthur Sobrinho Ferreira da Rocha, Joao Paixao, Heudson Mirandola, Daniel Sadoc Menasche2026-03-12🤖 cs.LG

Copula-ResLogit: A Deep-Copula Framework for Unobserved Confounding Effects

El estudio presenta Copula-ResLogit, un marco de modelado conjunto híbrido que combina redes neuronales residuales (ResNet) y modelos de cópula para detectar y mitigar los efectos de variables de confusión no observadas en el análisis de la demanda de transporte, demostrando su eficacia en la reducción de dependencias no causales en dos estudios de caso.

Kimia Kamal, Bilal Farooq2026-03-12🤖 cs.LG

MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

El artículo presenta MultiwayPAM, un nuevo método de agrupación tensorial diseñado para analizar las puntuaciones de evaluadores LLM, permitiendo identificar simultáneamente la pertenencia a grupos y los medoides en cada dimensión (preguntas, respondientes y evaluadores) para mitigar el costo computacional y revelar sesgos inherentes.

Chihiro Watanabe, Jingyu Sun2026-03-12📊 stat

Quantum entanglement provides a competitive advantage in adversarial games

Este estudio demuestra que el entrelazamiento cuántico proporciona una ventaja competitiva en juegos adversarios de suma cero, permitiendo a agentes híbridos entrenados en Pong superar a sus contrapartes separables y a redes neuronales clásicas al aprender representaciones estructurales distintas de las interacciones entre agentes.

Peiyong Wang, Kieran Hymas, James Quach2026-03-12⚛️ quant-ph

Hybrid Self-evolving Structured Memory for GUI Agents

El artículo presenta HyMEM, una memoria estructurada híbrida y autoevolutiva inspirada en el cerebro humano que combina nodos simbólicos discretos con incrustaciones continuas para mejorar significativamente el rendimiento de los agentes de GUI de código abierto, permitiéndoles igualar o superar a modelos propietarios avanzados.

Sibo Zhu, Wenyi Wu, Kun Zhou, Stephen Wang, Biwei Huang2026-03-12🤖 cs.AI

GaLoRA: Parameter-Efficient Graph-Aware LLMs for Node Classification

El artículo presenta GaLoRA, un marco eficiente en parámetros que integra información estructural en modelos de lenguaje grandes para lograr un rendimiento competitivo en la clasificación de nodos en grafos atribuidos a texto, utilizando solo el 0,24% de los parámetros necesarios para el ajuste fino completo.

Mayur Choudhary, Saptarshi Sengupta, Katerina Potika2026-03-12🤖 cs.LG

Regime-aware financial volatility forecasting via in-context learning

Este trabajo presenta un marco de aprendizaje en contexto que utiliza modelos de lenguaje grandes para predecir la volatilidad financiera adaptándose a diferentes regímenes de mercado mediante razonamiento contextual y muestreo condicional, superando a los métodos clásicos sin necesidad de ajuste de parámetros.

Saba Asaad, Shayan Mohajer Hamidi, Ali Bereyhi2026-03-12🤖 cs.LG

What do near-optimal learning rate schedules look like?

Este artículo presenta un procedimiento de búsqueda para identificar formas de programación de la tasa de aprendizaje casi óptimas, revelando que el calentamiento y la decadencia son características robustas esenciales, mientras que las familias de programas comunes no son óptimas y la forma ideal depende significativamente de hiperparámetros como la descomposición de pesos.

Hiroki Naganuma, Atish Agarwala, Priya Kasimbeg, George E. Dahl2026-03-12🤖 cs.LG

← Anterior Siguiente →