cs.LG artículos | Gist.Science

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

El artículo presenta EsoLang-Bench, un nuevo benchmark que utiliza lenguajes de programación esotéricos para demostrar que, a pesar de su alto rendimiento en tareas de codificación estándar, los modelos de lenguaje actuales carecen de razonamiento genuino y dependen en gran medida de la memorización de datos de entrenamiento.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Este trabajo demuestra empíricamente que el olvido catastrófico en el ajuste fino eficiente de parámetros basado en descomposición de bajo rango depende críticamente de la geometría y parametrización del subespacio de actualización, donde las descomposiciones tensoriales y las parametrizaciones alineadas estructuralmente mitigan eficazmente la interferencia entre tareas en comparación con los métodos tradicionales.

Muhammad Ahmad, Jingjing Zheng, Yankai Cao2026-03-11🤖 cs.LG

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

El artículo presenta ActiveUltraFeedback, un pipeline de aprendizaje activo que utiliza estimaciones de incertidumbre y métodos novedosos como DRTS y DeltaUCB para generar datos de preferencia de alta calidad de manera eficiente, logrando un rendimiento superior en el ajuste de modelos de lenguaje con hasta seis veces menos datos anotados que los enfoques estáticos tradicionales.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Physics-informed neural operator for predictive parametric phase-field modelling

Este trabajo presenta PF-PINO, un operador neuronal informado por la física que supera a los métodos convencionales en precisión, generalización y estabilidad a largo plazo para modelar la evolución paramétrica de microestructuras en problemas de campo de fase complejos.

Nanxi Chen, Airong Chen, Rujin Ma2026-03-11🔬 cond-mat.mtrl-sci

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

El artículo presenta Mousse, un nuevo optimizador que mejora el rendimiento de Muon al integrar la estimación estructural de Shampoo para adaptar las actualizaciones espectrales a la curvatura anisotrópica de las redes neuronales, logrando una reducción del 12% en los pasos de entrenamiento con un costo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

Este artículo propone un enfoque de destilación de conocimiento federada guiada por múltiples prototipos (MP-FedKD) para sistemas de computación en el borde habilitados por RAN con IA, el cual aborda el desafío de los datos no independientes e idénticamente distribuidos (non-IID) mediante la integración de destilación de autoconocimiento, una estrategia de múltiples prototipos con agrupamiento jerárquico aglomerativo condicional y una nueva función de pérdida, logrando un rendimiento superior frente a métodos existentes.

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han2026-03-11🤖 cs.LG

Upper Generalization Bounds for Neural Oscillators

Este estudio establece límites superiores de generalización PAC para osciladores neuronales basados en ecuaciones diferenciales de segundo orden, demostrando teóricamente y validando numéricamente que sus errores de estimación crecen polinomialmente con el tamaño de la red y la duración temporal, y que regularizar las constantes de Lipschitz mejora su capacidad de generalización en sistemas estructurales no lineales.

Zifeng Huang, Konstantin M. Zuev, Yong Xia, Michael Beer2026-03-11🤖 cs.LG

Global universality via discrete-time signatures

Este artículo establece teoremas de aproximación universal global para funcionales lineales de firmas en espacios de trayectorias lineales a trozos, demostrando su aplicabilidad a procesos estocásticos como el movimiento browniano y permitiendo la aproximación de funcionales dependientes de la trayectoria y ecuaciones diferenciales estocásticas.

Mihriban Ceylan, David J. Prömel2026-03-11🤖 cs.LG

What is Missing? Explaining Neurons Activated by Absent Concepts

Este trabajo demuestra que los conceptos ausentes que activan neuronas son comunes en los modelos de IA, que los métodos explicativos estándar no los detectan, y propone extensiones sencillas para revelar estas "ausencias codificadas" y mejorar la interpretabilidad y el desesgo de los modelos.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Este artículo propone un marco híbrido cuántico-clásico que combina redes LSTM con Máquinas de Nacimiento de Circuitos Cuánticos (QCBM) para predecir la volatilidad financiera, demostrando mediante datos del mercado chino un rendimiento superior frente a los modelos clásicos en métricas clave como el error cuadrático medio.

Yixiong Chen2026-03-11⚛️ quant-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

El artículo propone ACP-SL, un esquema de aprendizaje dividido que utiliza una puntuación de importancia de canales basada en etiquetas para eliminar canales menos relevantes y comprimir los datos transmitidos, reduciendo así la sobrecarga de comunicación sin comprometer la precisión.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

Information Theoretic Bayesian Optimization over the Probability Simplex

Este artículo presenta $\alpha$ -GaBO, una nueva familia de algoritmos de optimización bayesiana para el simplex de probabilidad que, basándose en la geometría de la información para definir kernels y optimizadores geométricos, supera a los enfoques euclidianos restringidos en diversas aplicaciones reales y problemas de referencia.

Federico Pavesi, Antonio Candelieri, Noémie Jaquier2026-03-11🤖 cs.LG

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

El artículo presenta In-Context RLVR, un método que utiliza el "Ganancia de Evidencia" derivada del aprendizaje en contexto para reponderar implícitamente las recompensas y priorizar trazas de razonamiento de alta calidad durante el entrenamiento, mejorando así tanto la precisión como la calidad del razonamiento en modelos de lenguaje.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Este artículo presenta el "pseudo-proyector", una modificación ligera inspirada en el paradigma multigrid que corrige las representaciones ocultas de los modelos basados en transformadores para reducir la sensibilidad al ruido y mejorar la dinámica de entrenamiento y la robustez sin alterar su arquitectura central.

Vitaly Bulgakov2026-03-11🤖 cs.AI

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Este artículo presenta un marco jerárquico novedoso de aprendizaje multi-tarea y multi-fidelidad basado en procesos gaussianos que unifica la similitud entre tareas y las características de los datos de diferentes fidelidades para mejorar la precisión y la eficiencia en el modelado sustituto de sistemas de fabricación.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui Shao2026-03-11🤖 cs.LG

A Graph-Based Approach to Spectrum Demand Prediction Using Hierarchical Attention Networks

Este artículo presenta HR-GAT, un modelo de red de atención gráfica jerárquica que utiliza datos geoespaciales para predecir la demanda de espectro con una precisión un 21% superior a la de modelos convencionales, abordando eficazmente los patrones espaciales complejos y la autocorrelación en cinco ciudades canadienses.

Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi2026-03-11🤖 cs.AI

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

El artículo presenta GAST, un método innovador de ajuste fino eficiente en parámetros que supera las limitaciones de los enfoques existentes al realizar simultáneamente una selección adaptativa de datos y capas mediante un alineamiento de gradientes, logrando así un rendimiento superior al reducir la redundancia informativa.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

El artículo presenta CarbonBench, el primer punto de referencia global que utiliza aprendizaje cero-shot para evaluar y estandarizar la escalabilidad de los flujos de carbono en ecosistemas no observados, integrando más de 1,3 millones de datos de 567 torres de flujo para mejorar la modelización climática y la contabilidad de carbono.

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin Kumar2026-03-11🤖 cs.LG

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

El artículo presenta MSSR, un marco de repetición de experiencias que estima la fuerza de la memoria a nivel de muestra y programa ensayos en intervalos adaptativos para mitigar el olvido catastrófico y mantener una adaptación rápida durante el ajuste fino continuo de modelos de lenguaje grandes.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality

El artículo presenta OptEMA, un nuevo optimizador basado en medias móviles exponenciales adaptativas que logra tasas de convergencia óptimas en el régimen de ruido cero sin requerir conocimiento previo de constantes de Lipschitz ni reconfiguración manual de hiperparámetros.

Ganzhao Yuan2026-03-11🤖 cs.LG

← Anterior Siguiente →