cs.LG artículos | Gist.Science

Diffusion Language Models Are Natively Length-Aware

Este paper propone un mecanismo de recorte dinámico del contexto basado en la representación latente de la entrada para hacer que los Modelos de Lenguaje de Difusión sean conscientes de la longitud, logrando ahorros computacionales significativos sin degradar el rendimiento en diversas tareas.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

DQE: A Semantic-Aware Evaluation Metric for Time Series Anomaly Detection

Este trabajo propone DQE, una nueva métrica de evaluación para la detección de anomalías en series temporales que, mediante una segmentación semántica de las regiones temporales y la agregación de calificaciones en todo el espectro de umbrales, supera las limitaciones de sesgo e inconsistencia de las métricas existentes para ofrecer una evaluación más estable, discriminativa e interpretable.

Yuewei Li, Dalin Zhang, Huan Li, Xinyi Gong, Hongjun Chu, Zhaohui Song2026-03-09🤖 cs.LG

Partial Policy Gradients for RL in LLMs

Este artículo propone un enfoque de gradiente de política parcial para el aprendizaje por refuerzo en modelos de lenguaje grande, que optimiza subconjuntos de recompensas futuras para permitir el aprendizaje más fiable de políticas de distinta complejidad, demostrando empíricamente que diferentes clases de políticas (como las de planificación completa, voraces o de K pasos) sobresalen en distintos problemas de alineación conversacional.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

El artículo demuestra que los gráficos de codificación predictiva (PCGs) constituyen un superconjunto matemático de las redes neuronales de alimentación hacia adelante, lo que fortalece su posición dentro del aprendizaje automático y resalta la importancia de la topología en las redes neuronales.

Björn van Zwol2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Este trabajo demuestra que el uso de perturbaciones de entrada espacialmente coherentes, como el ruido de Perlin, en ensembles de redes neuronales gráficas permite generar pronósticos probabilísticos calibrados de la temperatura superficial del mar sin costos adicionales de entrenamiento, superando a las perturbaciones puramente aleatorias en la representación de la incertidumbre.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

El artículo presenta OMEGA, un método de búsqueda aprendida que generaliza a múltiples valores de K con alta precisión y rendimiento, utilizando un modelo base entrenado en K=1 y un procedimiento de refinamiento dinámico para reducir significativamente la latencia y los costos de preprocesamiento en comparación con los métodos actuales.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen2026-03-09🤖 cs.LG

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Este artículo propone un marco de dos etapas que combina aprendizaje contrastivo supervisado en alfabetos inventados con destilación de conocimiento no supervisada para aprender métricas de similitud entre sistemas de escritura históricos sin depender de relaciones evolutivas verificadas.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Random Quadratic Form on a Sphere: Synchronization by Common Noise

Este artículo introduce el modelo de Forma Cuadrática Aleatoria (RQF) para demostrar que el ruido común puede sincronizar trayectorias en esferas, ofreciendo una explicación alternativa e independiente de la atención automática para el comportamiento de agrupamiento de tokens en transformadores profundos.

Maximilian Engel, Anna Shalova2026-03-09🤖 cs.LG

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

Este estudio demuestra que el uso de descriptores topológicos de la dinámica de la elevación del pie, aplicados mediante análisis de datos topológicos y aprendizaje automático, mejora significativamente el diagnóstico diferencial entre la enfermedad de Parkinson idiopática y el parkinsonismo vascular.

Jhonathan Barrios, Wolfram Erlhagen, Miguel F. Gago, Estela Bicho, Flora Ferreira2026-03-09🤖 cs.LG

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

Este trabajo presenta FedSCS-XGB, un nuevo protocolo de aprendizaje distribuido para el reconocimiento de actividades humanas mediante sensores portátiles que, inspirado en PAX, preserva las propiedades estructurales de XGBoost y logra un rendimiento casi equivalente al entrenamiento centralizado, facilitando así la monitorización continua de la salud en pacientes con lesiones de la médula espinal.

Felix Walger, Mehdi Ejtehadi, Anke Schmeink, Diego Paez-Granados2026-03-09🤖 cs.LG

DC-Merge: Improving Model Merging with Directional Consistency

El artículo presenta DC-Merge, un método de fusión de modelos que mejora el rendimiento al equilibrar la distribución de energía de los vectores de tarea y alinear sus geometrías direccionales en un subespacio ortogonal compartido, logrando así resultados de vanguardia en diversas tareas de visión y visión-idioma.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Este artículo demuestra que el flujo de gradiente en modelos de softmax con valores inherentemente impulsa la optimización hacia soluciones de baja entropía, ofreciendo un mecanismo teórico para explicar fenómenos empíricos en transformadores como los sumideros de atención y las activaciones masivas.

Aditya Varre, Mark Rofin, Nicolas Flammarion2026-03-09🤖 cs.LG

SPPCSO: Adaptive Penalized Estimation Method for High-Dimensional Correlated Data

El artículo presenta SPPCSO, un innovador método de estimación penalizada que combina la regresión de componentes principales con regularización $L_1$ para lograr una selección de variables estable y precisa en datos de alta dimensión con alta correlación y ruido, demostrando su eficacia tanto en experimentos numéricos como en el análisis de expresión génica.

Ying Hu, Hu Yang2026-03-09🤖 cs.LG

Synthetic Monitoring Environments for Reinforcement Learning

Este artículo presenta los Entornos de Monitoreo Sintético (SMEs), una suite infinita de tareas de control continuo con políticas óptimas conocidas que permiten diagnósticos precisos y evaluaciones rigurosas de algoritmos de Aprendizaje por Refuerzo, transformando la evaluación empírica en un análisis científico estandarizado.

Leonard Pleiss, Carolin Schmidt, Maximilian Schiffer2026-03-09🤖 cs.LG

Robust support vector model based on bounded asymmetric elastic net loss for binary classification

Este artículo propone el modelo BAEN-SVM, que utiliza una nueva función de pérdida elástica asimétrica acotada para lograr una clasificación binaria robusta frente al ruido y con propiedades geométricas y teóricas mejoradas, resolviendo su optimización no convexa mediante un algoritmo eficiente.

Haiyan Du, Hu Yang2026-03-09🤖 cs.LG

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

Este artículo presenta DeCoST, un enfoque de aprendizaje basado en dos etapas que desacopla las variables discretas y continuas del problema de orientación con ventanas de tiempo y beneficios variables, logrando una calidad de solución superior y una aceleración de inferencia de hasta 6,6 veces en comparación con los métodos existentes.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

El estudio demuestra que los pipelines de razonamiento con recuperación aumentada por agentes mejoran la robustez y el consenso entre diversos modelos de lenguaje en preguntas de radiología, aunque advierte que la precisión y el acuerdo por sí solos no son suficientes para evaluar la fiabilidad clínica de estos sistemas.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Looking Through Glass Box

Este artículo presenta una implementación neuronal del mapa cognitivo difuso (FHM) que utiliza dinámicas de Langevin para aprender patrones de causalidad, resolver inversamente los valores de los nodos de salida y generar criterios de modificación, todo ello validado mediante evaluaciones en diversos conjuntos de datos.

Alexis Kafantaris2026-03-09🤖 cs.AI

Stem: Rethinking Causal Information Flow in Sparse Attention

El artículo presenta Stem, un módulo de dispersión plug-and-play que reorganiza el flujo de información en la atención causal mediante estrategias dependientes de la posición y métricas conscientes de la salida para reducir la complejidad computacional y la latencia en modelos de lenguaje grandes sin sacrificar la precisión.

Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou2026-03-09🤖 cs.AI

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

El artículo presenta GMM-PIELM, un marco probabilístico que mejora la precisión y velocidad de los PIELMs para resolver EDPs rígidas con gradientes agudos, aprendiendo automáticamente una distribución de probabilidad para concentrar las funciones de base radial en regiones de alto error numérico sin necesidad de optimización basada en gradientes.

Akshay Govind Srinivasan, Balaji Srinivasan2026-03-09🤖 cs.AI

← Anterior Siguiente →