cs.LG artículos | Gist.Science

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Este trabajo demuestra teórica y experimentalmente que el algoritmo Adam converge automáticamente y de forma lineal en polinomios altamente degenerados gracias a un mecanismo de desacoplamiento que amplifica la tasa de aprendizaje, superando así a los métodos tradicionales como el descenso de gradiente y el momentum en este tipo de funciones.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang2026-03-11🤖 cs.LG

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

Este trabajo introduce una estrategia de recorte de parámetros basada en la divergencia de Rényi para estabilizar el aprendizaje en modelos de privacidad diferencial variacional no paramétrica, logrando simultáneamente garantías de privacidad más estrictas y un mejor rendimiento en tareas posteriores.

Dina El Zein, Shashi Kumar, James Henderson2026-03-11🤖 cs.LG

Memorization capacity of deep ReLU neural networks characterized by width and depth

Este artículo caracteriza la capacidad de memorización de las redes neuronales profundas con activación ReLU, demostrando que el producto de los cuadrados de su ancho y profundidad es óptimo hasta factores logarítmicos para memorizar $N$ puntos de datos separados por una distancia $\delta$ .

Xin Yang, Yunfei Yang2026-03-11🤖 cs.LG

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

Este artículo presenta un marco unificado para la factorización de matrices no negativas tradicional y convexa bajo modelos de Tweedie y Binomial Negativa, derivando reglas de actualización multiplicativa mediante algoritmos MM y demostrando mediante evaluaciones empíricas que la elección del modelo de ruido y el enfoque convexo mejoran significativamente el ajuste y la recuperación de características en datos complejos.

Elisabeth Sommer James, Asger Hobolth, Marta Pelizzola2026-03-11🤖 cs.LG

Learning the Hierarchical Organization in Brain Network for Brain Disorder Diagnosis

El artículo presenta BrainHO, un nuevo enfoque que aprende la organización jerárquica intrínseca de las redes cerebrales a partir de datos de fMRI mediante un mecanismo de atención jerárquica y restricciones de consistencia, logrando un rendimiento superior en el diagnóstico de trastornos cerebrales y la identificación de biomarcadores interpretables sin depender de subredes predefinidas.

Jingfeng Tang, Peng Cao, Guangqi Wen, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-11🤖 cs.LG

Multi-DNN Inference of Sparse Models on Edge SoCs

El artículo presenta SparseLoom, un sistema demostrador que utiliza la técnica de "model stitching" para reensamblar subgrafos de modelos dispersos sin reentrenamiento, logrando en SoCs de borde una reducción de hasta el 74% en las violaciones de objetivos de nivel de servicio, un aumento de 2,31 veces en el rendimiento y una disminución del 28% en la sobrecarga de memoria en comparación con los sistemas existentes.

Jiawei Luo, Di Wu, Simon Dobson, Blesson Varghese2026-03-11🤖 cs.LG

Evolution of Photonic Quantum Machine Learning under Noise

Esta revisión analiza sistemáticamente las fuentes de ruido en el aprendizaje automático cuántico fotónico, examina su impacto en algoritmos clave como los circuitos cuánticos variacionales y las redes neuronales cuánticas, y explora estrategias de mitigación y avances experimentales para desarrollar sistemas robustos y escalables.

A. M. A. S. D. Alagiyawanna, Asoka Karunananda2026-03-11⚛️ quant-ph

Well Log-Guided Synthesis of Subsurface Images from Sparse Petrography Data Using cGANs

Este artículo presenta un marco de redes generativas adversarias condicionales (cGAN) que utiliza datos de pozos para sintetizar imágenes realistas de secciones delgadas de rocas carbonatadas a partir de datos petrográficos dispersos, permitiendo una visualización continua de la porosidad del subsuelo para mejorar la caracterización de yacimientos y aplicaciones de transición energética.

Ali Sadeghkhani, A. Assadi, B. Bennett, A. Rabbani2026-03-11🤖 cs.LG

FreqCycle: A Multi-Scale Time-Frequency Analysis Method for Time Series Forecasting

El artículo presenta FreqCycle, un marco innovador que integra módulos de aprendizaje en los dominios temporal y frecuencial para capturar patrones de baja y media-alta frecuencia, logrando así un rendimiento superior y una mayor eficiencia en la predicción de series temporales.

Boya Zhang, Shuaijie Yin, Huiwen Zhu, Xing He2026-03-11🤖 cs.LG

No evaluation without fair representation : Impact of label and selection bias on the evaluation, performance and mitigation of classification models

Este trabajo presenta un marco para introducir sesgos controlados en conjuntos de datos reales y demuestra empíricamente cómo el sesgo de selección y el de etiqueta afectan la evaluación y la mitigación de modelos de clasificación, revelando que la ausencia de sesgo en el conjunto de prueba elimina la aparente compensación entre equidad y precisión.

Magali Legast, Toon Calders, François Fouss2026-03-11🤖 cs.LG

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Este trabajo presenta un marco de código abierto para la detección de anomalías en series temporales mediante redes neuronales gráficas (GNN), que no solo demuestra mejoras en el rendimiento y la interpretabilidad, sino que también ofrece una evaluación crítica de las prácticas actuales de métricas y umbrales en el campo.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

El artículo presenta EsoLang-Bench, un nuevo benchmark que utiliza lenguajes de programación esotéricos para demostrar que, a pesar de su alto rendimiento en tareas de codificación estándar, los modelos de lenguaje actuales carecen de razonamiento genuino y dependen en gran medida de la memorización de datos de entrenamiento.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Este trabajo demuestra empíricamente que el olvido catastrófico en el ajuste fino eficiente de parámetros basado en descomposición de bajo rango depende críticamente de la geometría y parametrización del subespacio de actualización, donde las descomposiciones tensoriales y las parametrizaciones alineadas estructuralmente mitigan eficazmente la interferencia entre tareas en comparación con los métodos tradicionales.

Muhammad Ahmad, Jingjing Zheng, Yankai Cao2026-03-11🤖 cs.LG

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

El artículo presenta ActiveUltraFeedback, un pipeline de aprendizaje activo que utiliza estimaciones de incertidumbre y métodos novedosos como DRTS y DeltaUCB para generar datos de preferencia de alta calidad de manera eficiente, logrando un rendimiento superior en el ajuste de modelos de lenguaje con hasta seis veces menos datos anotados que los enfoques estáticos tradicionales.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Physics-informed neural operator for predictive parametric phase-field modelling

Este trabajo presenta PF-PINO, un operador neuronal informado por la física que supera a los métodos convencionales en precisión, generalización y estabilidad a largo plazo para modelar la evolución paramétrica de microestructuras en problemas de campo de fase complejos.

Nanxi Chen, Airong Chen, Rujin Ma2026-03-11🔬 cond-mat.mtrl-sci

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

El artículo presenta Mousse, un nuevo optimizador que mejora el rendimiento de Muon al integrar la estimación estructural de Shampoo para adaptar las actualizaciones espectrales a la curvatura anisotrópica de las redes neuronales, logrando una reducción del 12% en los pasos de entrenamiento con un costo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

Este artículo propone un enfoque de destilación de conocimiento federada guiada por múltiples prototipos (MP-FedKD) para sistemas de computación en el borde habilitados por RAN con IA, el cual aborda el desafío de los datos no independientes e idénticamente distribuidos (non-IID) mediante la integración de destilación de autoconocimiento, una estrategia de múltiples prototipos con agrupamiento jerárquico aglomerativo condicional y una nueva función de pérdida, logrando un rendimiento superior frente a métodos existentes.

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han2026-03-11🤖 cs.LG

Upper Generalization Bounds for Neural Oscillators

Este estudio establece límites superiores de generalización PAC para osciladores neuronales basados en ecuaciones diferenciales de segundo orden, demostrando teóricamente y validando numéricamente que sus errores de estimación crecen polinomialmente con el tamaño de la red y la duración temporal, y que regularizar las constantes de Lipschitz mejora su capacidad de generalización en sistemas estructurales no lineales.

Zifeng Huang, Konstantin M. Zuev, Yong Xia, Michael Beer2026-03-11🤖 cs.LG

Global universality via discrete-time signatures

Este artículo establece teoremas de aproximación universal global para funcionales lineales de firmas en espacios de trayectorias lineales a trozos, demostrando su aplicabilidad a procesos estocásticos como el movimiento browniano y permitiendo la aproximación de funcionales dependientes de la trayectoria y ecuaciones diferenciales estocásticas.

Mihriban Ceylan, David J. Prömel2026-03-11🤖 cs.LG

What is Missing? Explaining Neurons Activated by Absent Concepts

Este trabajo demuestra que los conceptos ausentes que activan neuronas son comunes en los modelos de IA, que los métodos explicativos estándar no los detectan, y propone extensiones sencillas para revelar estas "ausencias codificadas" y mejorar la interpretabilidad y el desesgo de los modelos.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

← Anterior Siguiente →