stat.ML artículos | Gist.Science

ContextBench: Modifying Contexts for Targeted Latent Activation

El artículo presenta ContextBench, un marco de evaluación para la modificación de contextos que busca generar entradas lingüísticamente fluidas que activen características latentes específicas en modelos de lenguaje, demostrando que variantes mejoradas de la optimización de prompts evolutiva logran el mejor equilibrio entre eficacia de activación y fluidez.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac BloomMon, 09 Ma🤖 cs.AI

Iterative Quantum Feature Maps

El artículo presenta los Mapas de Características Cuánticas Iterativos (IQFMs), un marco híbrido cuántico-clásico que construye arquitecturas profundas conectando mapas de características cuánticos superficiales mediante pesos de aumento clásicos y aprendizaje contrastivo, logrando así un rendimiento superior en hardware ruidoso sin necesidad de optimizar parámetros cuánticos variacionales.

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka OshimaMon, 09 Ma⚛️ quant-ph

Learning the action for long-time-step simulations of molecular dynamics

Los autores proponen un método de aprendizaje automático que, al aprender el acción mecánica del sistema mediante mapas que preservan la estructura (simpécticos y reversibles en el tiempo), permite realizar simulaciones de dinámica molecular con pasos de tiempo largos sin los artefactos energéticos típicos de los predictores no estructurales.

Filippo Bigi, Johannes Spies, Michele CeriottiMon, 09 Ma🔬 cond-mat.mtrl-sci

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Este trabajo propone Kernel VICReg, un nuevo marco de aprendizaje auto-supervisado que traslada el objetivo VICReg a un Espacio de Hilbert de Núcleo Reproductor (RKHS) para capturar dependencias no lineales y mejorar el rendimiento en datos con estructuras complejas o muestras limitadas, superando a los métodos euclidianos tradicionales.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul FieguthMon, 09 Ma🤖 cs.LG

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Este artículo presenta la Expansión Atómica de Tensores (TACE), un modelo de aprendizaje automático que unifica la representación escalar y tensorial en el espacio cartesiano mediante tensores cartesianos irreducibles, eliminando la complejidad de los acoplamientos de momento angular y permitiendo el aprendizaje eficiente y universal de propiedades invariantes y equivariantes en diversos sistemas atómicos.

Zemin Xu, Wenbo Xie, P. HuMon, 09 Ma🔬 cond-mat.mtrl-sci

Learning Centre Partitions from Summaries

Este artículo presenta un algoritmo secuencial basado en pruebas de tipo Cochran y un método de remuestreo múltiple para agrupar centros en estudios multicéntricos, demostrando teóricamente y validando empíricamente su capacidad para recuperar la partición verdadera de heterogeneidad de parámetros a partir de estadísticas resumidas.

Zinsou Max Debaly, Jean-Francois Ethier, Michael H. Neumann, Félix Camirand-LemyreMon, 09 Ma🔢 math

Self-Speculative Masked Diffusions

El artículo presenta las "Self-Speculative Masked Diffusions", un nuevo modelo de difusión enmascarada para datos discretos que reduce a la mitad las evaluaciones de red neuronal necesarias para generar muestras de alta calidad en tareas como modelado de texto y secuencias de proteínas, mediante la implementación de un mecanismo de muestreo especulativo integrado que permite predicciones no factorizadas en una sola pasada.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud DoucetMon, 09 Ma🤖 cs.LG

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Este artículo demuestra teórica y empíricamente que inyectar información mediante un verificador externo de datos sintéticos (humano o modelo superior) previene el colapso del modelo durante el reentrenamiento iterativo, logrando mejoras a corto plazo que convergen a largo plazo hacia el "centro de conocimiento" del verificador.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng XuMon, 09 Ma🤖 cs.LG

CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering

El artículo propone CADM, una métrica de distancia adaptativa personalizada por clúster para el agrupamiento de datos categóricos y mixtos que considera las distintas distribuciones de atributos en cada grupo, logrando un rendimiento superior en múltiples conjuntos de datos.

Taixi Chen, Yiu-ming Cheung, Yiqun ZhangMon, 09 Ma🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

El artículo presenta DAISI, un algoritmo de filtrado escalable basado en modelos generativos que supera las limitaciones de los métodos clásicos de asimilación de datos al utilizar un prior generativo preentrenado combinado con pasos de muestreo inverso y guiado para manejar dinámicas complejas y observaciones no lineales sin necesidad de reentrenamiento.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik LindstenMon, 09 Ma🤖 cs.LG

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Este artículo propone un nuevo método de análisis de sensibilidad global basado en las curvas de Expectación Condicional Individual (ICE) para superar las limitaciones de los Gráficos de Dependencia Parcial (PDP) en la presencia de interacciones fuertes, demostrando mediante pruebas matemáticas y casos de estudio en ingeniería que esta aproximación ofrece una visión más rica y precisa de la importancia de las características en modelos de aprendizaje automático.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph MorlierMon, 09 Ma🤖 cs.AI

Learning Optimal Distributionally Robust Individualized Treatment Rules Integrating Multi-Source Data

Este artículo propone un método de reglas de tratamiento individualizado robusto (PDRO-ITR) que integra datos de múltiples fuentes para maximizar el valor de la política en el peor caso bajo desplazamiento posterior, demostrando mediante simulaciones y aplicaciones reales un rendimiento superior frente a enfoques existentes.

Wenhai Cui, Wen Su, Xingqiu ZhaoMon, 09 Ma🤖 cs.LG

Prediction-Powered Conditional Inference

Este artículo presenta un método de inferencia condicional que combina la localización basada en kernels con predicciones de aprendizaje automático para estimar funcionales condicionales en escenarios con pocos datos etiquetados, logrando intervalos de confianza más precisos sin sacrificar la validez estadística.

Yang Sui, Jin Zhou, Hua Zhou, Xiaowu DaiMon, 09 Ma🤖 cs.LG

Behavior-dLDS: A decomposed linear dynamical systems model for neural activity partially constrained by behavior

El artículo presenta behavior-dLDS, un modelo de sistemas dinámicos lineales descompuestos que permite disociar las dinámicas neuronales relacionadas con el comportamiento de las computaciones internas en grandes poblaciones de neuronas, demostrando su eficacia tanto en datos simulados como en grabaciones a gran escala de un pez cebra.

Eva Yezerets, En Yang, Misha B. Ahrens, Adam S. CharlesMon, 09 Ma🤖 cs.LG

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Este artículo demuestra que, mediante regresión de crestas con características aleatorias, un modelo fuerte entrenado con etiquetas imperfectas de un modelo débil puede superar sustancialmente las leyes de escalado de este último, alcanzando incluso tasas óptimas minimax independientemente del rendimiento del profesor.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco MondelliMon, 09 Ma🤖 cs.LG

Design Experiments to Compare Multi-armed Bandit Algorithms

Este artículo propone el diseño experimental de "Reproducción Artificial" (Artificial Replay) para comparar algoritmos de banditos multi-brazo, el cual reduce significativamente los costos de experimentación y la varianza del estimador al reutilizar las recompensas registradas de una política para evaluar otra, en lugar de ejecutar ambas de forma independiente.

Huiling Meng, Ningyuan Chen, Xuefeng GaoMon, 09 Ma🤖 cs.LG

Large deviation principles for convolutional Bayesian neural networks

Este artículo establece por primera vez un principio de desviación grande para redes neuronales convolucionales en el régimen de canales infinitos, demostrando dicho principio tanto para las matrices de covarianza condicional bajo una distribución previa gaussiana como para la distribución posterior condicionada a observaciones finitas.

Federico Bassetti, Vassili De Palma, Lucia LadelliMon, 09 Ma🔢 math

Agnostic learning in (almost) optimal time via Gaussian surface area

Este trabajo mejora el análisis de Klivans et al. demostrando que un grado de polinomio de $\tilde O(\Gamma^2 / \varepsilon^2)$ es suficiente para la aproximación $L_1$ bajo distribuciones gaussianas, lo que proporciona límites (casi) óptimos para el aprendizaje agnóstico de funciones umbral polinómicas en el modelo de consultas estadísticas.

Lucas Pesenti, Lucas Slot, Manuel WiedmerMon, 09 Ma🤖 cs.LG

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

El artículo demuestra que los gráficos de codificación predictiva (PCGs) constituyen un superconjunto matemático de las redes neuronales de alimentación hacia adelante, lo que fortalece su posición dentro del aprendizaje automático y resalta la importancia de la topología en las redes neuronales.

Björn van ZwolMon, 09 Ma🤖 cs.AI

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Este artículo demuestra que el flujo de gradiente en modelos de softmax con valores inherentemente impulsa la optimización hacia soluciones de baja entropía, ofreciendo un mecanismo teórico para explicar fenómenos empíricos en transformadores como los sumideros de atención y las activaciones masivas.

Aditya Varre, Mark Rofin, Nicolas FlammarionMon, 09 Ma🤖 cs.LG

← Anterior Siguiente →