cs.LG artículos | Gist.Science

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

El artículo presenta CSRO, un marco innovador que sustituye los oráculos de aprendizaje por refuerzo tradicionales por modelos de lenguaje grandes para generar políticas multiagente interpretables y codificadas en código humano legible, logrando un rendimiento competitivo mientras facilita la comprensión y depuración de las estrategias.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Este trabajo presenta BlueDown, un nuevo método de post-procesamiento que mejora la precisión de las estimaciones del Censo de EE. UU. mediante una regresión de mínimos cuadrados generalizada jerárquica y operaciones algebraicas concisas, logrando así estimaciones más exactas y consistentes que el sistema actual TopDown mientras se mantienen las garantías de privacidad y las restricciones estructurales.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

El artículo propone un paradigma de "dispersión suave" basado en un proxy de bits significativos más altos integrado en una instrucción RISC-V personalizada que, al omitir multiplicaciones insignificantes, reduce drásticamente las operaciones MAC y el consumo de energía en redes neuronales convolucionales sin pérdida de precisión, superando significativamente a los métodos tradicionales de dispersión rígida.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

El artículo presenta CLIPO, un enfoque que integra aprendizaje contrastivo en la optimización de políticas para generalizar el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), mejorando así la robustez y la generalización de los modelos de lenguaje al corregir inconsistencias en los pasos intermedios del razonamiento que el RLVR tradicional ignora.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Este artículo demuestra que el fenómeno "Lost in the Middle", caracterizado por un rendimiento en forma de U en los modelos de lenguaje, es una propiedad geométrica inherente a la arquitectura de los transformadores causales que ya está presente en la inicialización antes de cualquier entrenamiento o codificación posicional, debido a la interacción entre el enmascaramiento causal y las conexiones residuales.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Este artículo propone un método de aprendizaje de diccionarios no supervisado para la agrupación de imágenes hiperespectrales que utiliza barycentros de Wasserstein desequilibrados para aprender una representación de baja dimensión, superando así las limitaciones de los enfoques anteriores al evitar el desequilibrio de los perfiles espectrales y mejorar la robustez frente a ruido y valores atípicos.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Este artículo presenta un operador neuronal integrado con un esquema numérico implícito que, al aprender la dinámica subyacente del espacio de estados a partir de datos limitados, predice con una precisión del 99,87% las curvas de respuesta de frecuencia de sistemas vibratorios sin necesidad de funciones de pérdida regularizadoras basadas en principios físicos.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

El artículo presenta "Mashup Learning", un método que acelera el ajuste fino de modelos de lenguaje al combinar checkpoints históricos relevantes mediante fusión de modelos, logrando una mayor precisión y una convergencia más rápida con menos pasos de entrenamiento en comparación con el entrenamiento desde cero.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

El artículo presenta ReMix, un nuevo método de enrutamiento basado en aprendizaje por refuerzo que utiliza pesos no aprendibles y un estimador de gradiente RLOO para garantizar que todas las LoRAs activas en un modelo de mezcla contribuyan equitativamente, superando así el desequilibrio de las técnicas existentes y logrando un rendimiento superior en la adaptación eficiente de modelos de lenguaje.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

DT-BEHRT: Disease Trajectory-aware Transformer for Interpretable Patient Representation Learning

El artículo presenta DT-BEHRT, un modelo basado en transformadores que mejora la representación de pacientes mediante el aprendizaje de trayectorias de enfermedades específicas por órganos y un preentrenamiento semántico, logrando así un alto rendimiento predictivo y una mayor interpretabilidad clínica en los registros electrónicos de salud.

Deyi Li, Zijun Yao, Qi Xu, Muxuan Liang, Lingyao Li, Zijian Xu, Mei Liu2026-03-12🤖 cs.LG

Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent

Este artículo presenta un marco teórico unificado basado en el descenso de espejo estocástico regularizado que garantiza la estabilidad necesaria para inferencias estadísticas válidas en datos de bandaits adaptativos, ofreciendo simultáneamente garantías óptimas de arrepentimiento y robustez frente a corrupciones adversarias.

Budhaditya Halder, Ishan Sengupta, Koustav Chowdhury, Koulik Khamaru2026-03-12📊 stat

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

El artículo presenta ARCHE, un marco de compresión de imágenes aprendido de extremo a extremo que equilibra precisión y eficiencia computacional mediante un diseño convolucional unificado, logrando una eficiencia tasa-distorsión superior a los codecs tradicionales y modelos autoregresivos existentes sin depender de componentes recurrentes o basados en transformadores.

Sofia Iliopoulou, Dimitris Ampeliotis, Athanassios Skodras2026-03-12⚡ eess

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

El artículo presenta la Cancelación Adaptativa de Activaciones (AAC), un marco de inferencia en tiempo real que mitiga las alucinaciones en modelos de lenguaje grandes suprimiendo selectivamente las activaciones neuronales asociadas a errores fácticos sin requerir ajuste fino ni degradar la capacidad general del modelo.

Eric Yocam, Varghese Vaidyan, Gurcan Comert, Paris Kalathas, Yong Wang, Judith L. Mwakalonge2026-03-12💬 cs.CL

Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces

Este artículo propone el método de Promedio Dual Acelerado por Actor (Actor-Accelerated PDA), que utiliza una red neuronal para aproximar la selección de acciones en espacios continuos, logrando así una ejecución más rápida y un rendimiento superior al de PPO sin sacrificar las garantías teóricas de convergencia.

Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong2026-03-12🤖 cs.LG

Hybrid Hidden Markov Model for Modeling Equity Excess Growth Rate Dynamics: A Discrete-State Approach with Jump-Diffusion

Este artículo propone un modelo híbrido de Markov oculto que combina estados de mercado discretos definidos por cuantiles Laplace con un mecanismo de saltos de Poisson para generar series temporales financieras sintéticas que superan a los modelos existentes al preservar simultáneamente distribuciones de colas pesadas, agrupación de volatilidad y estructuras temporales realistas.

Abdulrahman Alswaidan, Jeffrey D. Varner2026-03-12💰 q-fin

Flexible Cutoff Learning: Optimizing Machine Learning Potentials After Training

Este artículo presenta el Aprendizaje de Corte Flexible (FCL), un método que entrena potenciales interatómicos de aprendizaje automático con radios de corte ajustables después del entrenamiento, permitiendo optimizar el equilibrio entre precisión y costo computacional para aplicaciones específicas sin necesidad de reentrenar el modelo.

Rick Oerder (Institute for Numerical Simulation, University of Bonn, Fraunhofer Institute for Algorithms and Scientific Computing SCAI), Jan Hamaekers (Fraunhofer Institute for Algorithms and Scientific Computing SCAI)2026-03-12🔬 cond-mat.mtrl-sci

FusionNet: a frame interpolation network for 4D heart models

El artículo presenta FusionNet, una red neuronal que mejora la resolución temporal de las imágenes de resonancia magnética cardíaca mediante la interpolación de marcos para generar modelos cardíacos 4D precisos y reducir el tiempo de exploración.

Chujie Chang, Shoko Miyauchi, Ken'ichi Morooka, Ryo Kurazume, Oscar Martinez Mozos2026-03-12🤖 cs.LG

SDSR: A Spectral Divide-and-Conquer Approach for Species Tree Reconstruction

El artículo presenta SDSR, un método escalable basado en la teoría espectral de grafos que utiliza un enfoque de dividir y conquistar para reconstruir árboles filogenéticos de especies, logrando una reducción significativa en el tiempo de ejecución sin comprometer la precisión en comparación con los métodos tradicionales aplicados a datos completos.

Ortal Reshef (Hebrew University of Jerusalem), Ofer Glassman (Weizmann Institute of Science), Or Zuk (Hebrew University of Jerusalem), Yariv Aizenbud (Tel Aviv University), Boaz Nadler (Weizmann Institute of Science), Ariel Jaffe (Hebrew University of Jerusalem)2026-03-12🧬 q-bio

A Diffusion Analysis of Policy Gradient for Stochastic Bandits

Este artículo estudia una aproximación por difusión de tiempo continuo del gradiente de política para banditos estocásticos, demostrando que con una tasa de aprendizaje adecuada se logra un arrepentimiento logarítmico, mientras que se construye un caso donde una tasa inadecuada conduce a un arrepentimiento lineal.

Tor Lattimore2026-03-12📊 stat

Rethinking the Harmonic Loss via Non-Euclidean Distance Layers

Este artículo propone y evalúa una extensión de la pérdida armónica mediante el uso de diversas métricas de distancia no euclidianas, demostrando que, especialmente la distancia coseno, mejora el rendimiento, la interpretabilidad y la sostenibilidad en modelos de visión y lenguaje en comparación con la pérdida de entropía cruzada tradicional.

Maxwell Miller-Golub, Kamil Faber, Marcin Pietron, Panpan Zheng, Pasquale Minervini, Roberto Corizzo2026-03-12🤖 cs.LG

← Anterior Siguiente →