Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Este trabajo establece un límite de arrepentimiento bayesiano sublineal de orden O~(H3/2γT/HT)\widetilde{\mathcal{O}}(H^{3/2}\sqrt{\gamma_{T/H} T}) para el algoritmo de muestreo posterior con procesos gaussianos en control continuo con espacios de estado no acotados, resolviendo las limitaciones teóricas previas al demostrar que los estados visitados permanecen acotados con alta probabilidad y aplicando métodos de cadenas para lograr una dependencia óptima con la ganancia de información máxima.

Hamish Flynn, Joe Watson, Ingmar Posner, Jan PetersTue, 10 Ma🤖 cs.LG

Unifying On- and Off-Policy Variance Reduction Methods

Este artículo establece una equivalencia formal entre los métodos de reducción de varianza utilizados en experimentación en línea y evaluación fuera de política, demostrando que los estimadores de diferencias de medias son idénticos a los de puntuación de propensión inversa con control variado óptimo, y que los ajustes de regresión son estructuralmente equivalentes a la estimación doblemente robusta.

Olivier JeunenTue, 10 Ma🤖 cs.LG

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Este artículo presenta un nuevo algoritmo de optimización basado en el cálculo fraccional que utiliza integrales de Weyl ponderadas para reemplazar los gradientes instantáneos con una memoria histórica dinámica, logrando así una mejora significativa en la detección de fraudes financieros y diagnósticos médicos al mitigar el sobreajuste en conjuntos de datos desequilibrados.

Gustavo A. DorregoTue, 10 Ma🤖 cs.LG

Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

Este trabajo supera la barrera de sesgo en el aprendizaje por refuerzo multiobjetivo con escalarización cóncava mediante un algoritmo de gradiente de política natural equipado con un estimador Monte Carlo de múltiples niveles, logrando una complejidad de muestra óptima de O~(ϵ2)\widetilde{\mathcal{O}}(\epsilon^{-2}) y demostrando que, bajo suavidad de segundo orden, el sesgo de primer orden se cancela automáticamente.

Swetha Ganesh, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Este trabajo establece límites teóricos sobre el error de aproximación en la representación de estados para el aprendizaje por refuerzo, demostrando cómo la calidad de la representación basada en autovectores del Laplaciano depende de la conectividad algebraica del grafo de transiciones y proporcionando una descomposición del error que incluye la estimación de dichos autovectores.

Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo PapiniTue, 10 Ma🤖 cs.LG

Momentum SVGD-EM for Accelerated Maximum Marginal Likelihood Estimation

Este artículo presenta Momentum SVGD-EM, un método acelerado mediante la introducción de aceleración de Nesterov en los parámetros y en el espacio de medidas de probabilidad para optimizar la estimación de máxima verosimilitud marginal (MMLE) mediante el descenso de gradiente variacional de Stein (SVGD), logrando una convergencia más rápida en diversos escenarios de baja y alta dimensionalidad.

Adam Rozzio, Rafael Athanasiades, O. Deniz AkyildizTue, 10 Ma🤖 cs.LG

Learning Robust Treatment Rules for Censored Data

Este artículo propone dos criterios robustos y un algoritmo de diferencia de convexos para aprender reglas de tratamiento óptimas en datos de supervivencia censurados, enfocándose en maximizar el tiempo de supervivencia truncado y las probabilidades de supervivencia bufferizadas, con validación teórica y empírica que demuestra un rendimiento superior frente a métodos existentes.

Yifan Cui, Junyi Liu, Tao Shen, Zhengling Qi, Xi ChenThu, 12 Ma📊 stat

Losing dimensions: Geometric memorization in generative diffusion

El artículo propone una teoría de memorización geométrica que demuestra cómo los modelos de difusión experimentan un colapso suave en su capacidad de variación a medida que los datos escasean, condensándose gradualmente en configuraciones de baja energía que replican ejemplos específicos antes de alcanzar una copia exacta.

Beatrice Achilli, Enrico Ventura, Gianluigi Silvestri, Bao Pham, Gabriel Raya, Dmitry Krotov, Carlo Lucibello, Luca AmbrogioniThu, 12 Ma📊 stat

An Algorithm to perform Covariance-Adjusted Support Vector Classification in Non-Euclidean Spaces

Este estudio propone un algoritmo que ajusta la clasificación de máquinas de vectores de soporte (SVM) en espacios no euclidianos incorporando la covarianza de los datos mediante descomposición de Cholesky, demostrando que este enfoque supera el rendimiento de los métodos SVM tradicionales al reconocer que las condiciones de optimalidad de KKT y el principio de margen máximo son subóptimos fuera de los espacios euclidianos.

Satyajeet Sahoo, Jhareswar MaitiThu, 12 Ma📊 stat