cs.LG artículos | Gist.Science

Marginals Before Conditionals

El artículo demuestra que las redes neuronales aprenden primero la distribución marginal antes que la condicional completa, manteniéndose en un plateau de pérdida determinado por la ambigüedad del problema hasta que un mecanismo de enrutamiento interno y la dinámica del ruido de los gradientes facilitan una transición colectiva hacia la solución condicional óptima.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

Este artículo introduce las redes neuronales port-Hamiltonianas estocásticas (SPH-NNs), un modelo que garantiza la pasividad y la aproximación universal de sistemas dinámicos estocásticos mediante la parametrización de la Hamiltoniana con redes neuronales, demostrando superioridad en la precisión energética y la estabilidad a largo plazo frente a baselines tradicionales en osciladores no lineales.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

Este artículo presenta una teoría cuantitativa basada en desviaciones grandes para la fase de "catapulta" en el entrenamiento de redes neuronales mediante SGD, identificando un criterio explícito que determina cuándo se producen grandes picos de aplanamiento del NTK con alta probabilidad y cuándo su ocurrencia decae rápidamente.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

El artículo presenta "Amnesia", un ataque adversarial ligero que manipula las activaciones internas de los modelos de lenguaje grandes (LLM) de peso abierto para eludir sus mecanismos de seguridad y generar contenido dañino sin necesidad de entrenamiento adicional.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Este trabajo propone un marco de aprendizaje residual multi-etapa para mitigar el sesgo de aprendizaje de frecuencias en modelos cuánticos, demostrando mediante experimentos que esta técnica mejora significativamente la capacidad de los circuitos parametrizados para aproximar funciones con múltiples componentes espectrales.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

El artículo presenta Multi-Level Concept Splitting (MLCS) y Deep-HiCEMs, métodos que permiten descubrir y representar jerarquías de conceptos multinivel a partir de supervisión de alto nivel, superando las limitaciones de los modelos anteriores para lograr intervenciones interpretables y mejoras en el rendimiento.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

El artículo presenta KernelSkill, un marco de trabajo multiagente que mejora la optimización de kernels de GPU mediante el uso de habilidades de expertos guiadas por conocimiento y una arquitectura de memoria dual, logrando aceleraciones significativas y una tasa de éxito del 100% en comparación con métodos anteriores basados en LLM.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

El artículo presenta ES-dLLM, un marco de inferencia sin entrenamiento que acelera los modelos de difusión de lenguaje grande (dLLM) mediante el salto temprano de tokens en capas iniciales basado en la variación de representaciones intermedias y puntuaciones de confianza, logrando aceleraciones de hasta 16,8 veces sin comprometer la calidad de generación.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

Esta encuesta presenta la primera taxonomía unificada del Aprendizaje en el Espacio de Pesos (WSL), categorizando los métodos en comprensión, representación y generación de pesos para habilitar aplicaciones prácticas como la recuperación de modelos, el aprendizaje federado y la reconstrucción sin datos.

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

El artículo presenta Equivariant Asynchronous Diffusion (EAD), un modelo de difusión novedoso que combina horarios de desruido asíncronos y sincrónicos mediante un mecanismo de programación dinámica para superar las limitaciones de los métodos existentes y lograr un rendimiento superior en la generación de conformaciones moleculares 3D.

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

Este artículo presenta TS_Adam, una variante ligera del optimizador Adam que elimina la corrección de segundo orden para mejorar la adaptabilidad y el rendimiento en tareas de pronóstico de series temporales bajo distribuciones no estacionarias.

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

El artículo presenta CSRO, un marco innovador que sustituye los oráculos de aprendizaje por refuerzo tradicionales por modelos de lenguaje grandes para generar políticas multiagente interpretables y codificadas en código humano legible, logrando un rendimiento competitivo mientras facilita la comprensión y depuración de las estrategias.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Este trabajo presenta BlueDown, un nuevo método de post-procesamiento que mejora la precisión de las estimaciones del Censo de EE. UU. mediante una regresión de mínimos cuadrados generalizada jerárquica y operaciones algebraicas concisas, logrando así estimaciones más exactas y consistentes que el sistema actual TopDown mientras se mantienen las garantías de privacidad y las restricciones estructurales.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

El artículo propone un paradigma de "dispersión suave" basado en un proxy de bits significativos más altos integrado en una instrucción RISC-V personalizada que, al omitir multiplicaciones insignificantes, reduce drásticamente las operaciones MAC y el consumo de energía en redes neuronales convolucionales sin pérdida de precisión, superando significativamente a los métodos tradicionales de dispersión rígida.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

El artículo presenta CLIPO, un enfoque que integra aprendizaje contrastivo en la optimización de políticas para generalizar el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), mejorando así la robustez y la generalización de los modelos de lenguaje al corregir inconsistencias en los pasos intermedios del razonamiento que el RLVR tradicional ignora.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Este artículo demuestra que el fenómeno "Lost in the Middle", caracterizado por un rendimiento en forma de U en los modelos de lenguaje, es una propiedad geométrica inherente a la arquitectura de los transformadores causales que ya está presente en la inicialización antes de cualquier entrenamiento o codificación posicional, debido a la interacción entre el enmascaramiento causal y las conexiones residuales.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Este artículo propone un método de aprendizaje de diccionarios no supervisado para la agrupación de imágenes hiperespectrales que utiliza barycentros de Wasserstein desequilibrados para aprender una representación de baja dimensión, superando así las limitaciones de los enfoques anteriores al evitar el desequilibrio de los perfiles espectrales y mejorar la robustez frente a ruido y valores atípicos.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Este artículo presenta un operador neuronal integrado con un esquema numérico implícito que, al aprender la dinámica subyacente del espacio de estados a partir de datos limitados, predice con una precisión del 99,87% las curvas de respuesta de frecuencia de sistemas vibratorios sin necesidad de funciones de pérdida regularizadoras basadas en principios físicos.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

El artículo presenta "Mashup Learning", un método que acelera el ajuste fino de modelos de lenguaje al combinar checkpoints históricos relevantes mediante fusión de modelos, logrando una mayor precisión y una convergencia más rápida con menos pasos de entrenamiento en comparación con el entrenamiento desde cero.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

El artículo presenta ReMix, un nuevo método de enrutamiento basado en aprendizaje por refuerzo que utiliza pesos no aprendibles y un estimador de gradiente RLOO para garantizar que todas las LoRAs activas en un modelo de mezcla contribuyan equitativamente, superando así el desequilibrio de las técnicas existentes y logrando un rendimiento superior en la adaptación eficiente de modelos de lenguaje.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

← Anterior Siguiente →