cs.LG artículos | Gist.Science

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Este estudio demuestra que las condiciones de evaluación, especialmente el formato de las preguntas, influyen más en las puntuaciones de seguridad de los modelos de lenguaje que la arquitectura de los andamios de despliegue, revelando que las clasificaciones de seguridad carecen de fiabilidad generalizable y exigen pruebas específicas para cada modelo y configuración.

David Gringras2026-03-12🤖 cs.AI

Gated Adaptation for Continual Learning in Human Activity Recognition

Este artículo propone un marco de aprendizaje continuo eficiente en parámetros para el reconocimiento de actividades humanas mediante sensores portátiles, que utiliza una modulación con puertas a nivel de canal sobre representaciones preentrenadas congeladas para lograr un equilibrio óptimo entre estabilidad y plasticidad, reduciendo significativamente el olvido catastrófico y mejorando la precisión sin necesidad de buffers de repetición.

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-12🤖 cs.LG

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Este artículo propone XSAM, una implementación mejorada y más fiel de la Minimización Consciente de la Agudeza (SAM) que ofrece una interpretación intuitiva de su funcionamiento y supera sus limitaciones actuales mediante una estimación explícita de la dirección del máximo y un espacio de búsqueda optimizado, logrando un rendimiento superior con un costo computacional insignificante.

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

El artículo presenta \texttt{InFusionLayer}, una herramienta de código abierto en Python que implementa el Análisis de Fusión Combinatoria (CFA) mediante funciones de característica rango-puntuación y diversidad cognitiva para crear arquitecturas de aprendizaje en conjunto que mejoran el rendimiento en problemas de clasificación multiclase dentro de flujos de trabajo de PyTorch, TensorFlow y Scikit-learn.

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

El artículo propone FlowSem-MAE, un paradigma de preentrenamiento tabular nativo de protocolos que supera las limitaciones de los enfoques basados en secuencias al preservar la semántica de los campos definidos por el protocolo mediante unidades semánticas de flujo (FSU), logrando una clasificación superior de tráfico cifrado con la mitad de datos etiquetados.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

El artículo presenta OmniGuide, un marco flexible que mejora el rendimiento de los modelos de política generalista visión-lenguaje-acción (VLA) en tareas complejas al integrar diversas fuentes de orientación como funciones de energía diferenciables que guían la generación de acciones en el espacio 3D.

Yunzhou Song, Long Le, Yong-Hyun Park, Jie Wang, Junyao Shi, Lingjie Liu, Jiatao Gu, Eric Eaton, Dinesh Jayaraman, Kostas Daniilidis2026-03-12💻 cs

Cluster-Aware Attention-Based Deep Reinforcement Learning for Pickup and Delivery Problems

El artículo presenta CAADRL, un marco de aprendizaje profundo por refuerzo que aprovecha la estructura de agrupamiento del Problema de Recogida y Entrega mediante codificación y decodificación jerárquica para lograr un rendimiento competitivo con tiempos de inferencia significativamente menores que los métodos basados en búsqueda colaborativa.

Wentao Wang, Lifeng Han, Guangyu Zou2026-03-12🤖 cs.LG

Quantization of Ricci Curvature in Information Geometry

Este artículo resuelve tras veinte años la conjetura sobre la cuantización de la curvatura de Ricci en bitnets binarios, demostrando su validez para estructuras de árbol y grafos completos mediante un mecanismo de cancelación universal, refutándola en casos generales con contraejemplos de bucles y extendiendo el análisis a redes DAG gaussianas donde se observa una dicotomía de signo entre curvaturas positivas y negativas.

Carlos C. Rodriguez2026-03-12🔢 math

Training Language Models via Neural Cellular Automata

Este trabajo propone pre-entrenar modelos de lenguaje utilizando datos sintéticos generados por autómatas celulares neuronales, logrando mejoras en el rendimiento y la convergencia que superan a las obtenidas con grandes volúmenes de texto natural, lo que abre un camino hacia modelos más eficientes mediante pre-entrenamiento totalmente sintético.

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

El artículo presenta HTMuon, un optimizador que mejora el entrenamiento de modelos de lenguaje grandes al corregir la supresión de espectros de pesos de cola pesada inherente a Muon mediante una corrección espectral basada en la teoría de auto-regularización de colas pesadas, logrando así un mejor rendimiento en preentrenamiento y clasificación de imágenes.

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

Improving Search Agent with One Line of Code

El artículo propone SAPO, una mejora de una sola línea de código para el algoritmo GRPO que estabiliza el entrenamiento de agentes de búsqueda mediante una restricción condicional de KL, eliminando el colapso catastrófico por desviación de la distribución de muestreo y logrando mejoras significativas en diversos benchmarks.

Jian Li, Dongsheng Chen, Zhenhua Xu, Yizhang Jin, Jiafu Wu, Chengjie Wang, Xiaotong Yuan, Yabiao Wang2026-03-12🤖 cs.LG

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

Este estudio aplica por primera vez autoencoders dispersos al modelo de series temporales Chronos-T5, revelando que las características causalmente más críticas para la predicción se encuentran en las capas intermedias dedicadas a la detección de cambios abruptos, en lugar de en las capas finales que codifican conceptos temporales semánticamente ricos.

Anurag Mishra2026-03-12🤖 cs.LG

Marginals Before Conditionals

El artículo demuestra que las redes neuronales aprenden primero la distribución marginal antes que la condicional completa, manteniéndose en un plateau de pérdida determinado por la ambigüedad del problema hasta que un mecanismo de enrutamiento interno y la dinámica del ruido de los gradientes facilitan una transición colectiva hacia la solución condicional óptima.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

Este artículo introduce las redes neuronales port-Hamiltonianas estocásticas (SPH-NNs), un modelo que garantiza la pasividad y la aproximación universal de sistemas dinámicos estocásticos mediante la parametrización de la Hamiltoniana con redes neuronales, demostrando superioridad en la precisión energética y la estabilidad a largo plazo frente a baselines tradicionales en osciladores no lineales.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

Este artículo presenta una teoría cuantitativa basada en desviaciones grandes para la fase de "catapulta" en el entrenamiento de redes neuronales mediante SGD, identificando un criterio explícito que determina cuándo se producen grandes picos de aplanamiento del NTK con alta probabilidad y cuándo su ocurrencia decae rápidamente.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

El artículo presenta "Amnesia", un ataque adversarial ligero que manipula las activaciones internas de los modelos de lenguaje grandes (LLM) de peso abierto para eludir sus mecanismos de seguridad y generar contenido dañino sin necesidad de entrenamiento adicional.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Este trabajo propone un marco de aprendizaje residual multi-etapa para mitigar el sesgo de aprendizaje de frecuencias en modelos cuánticos, demostrando mediante experimentos que esta técnica mejora significativamente la capacidad de los circuitos parametrizados para aproximar funciones con múltiples componentes espectrales.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

El artículo presenta Multi-Level Concept Splitting (MLCS) y Deep-HiCEMs, métodos que permiten descubrir y representar jerarquías de conceptos multinivel a partir de supervisión de alto nivel, superando las limitaciones de los modelos anteriores para lograr intervenciones interpretables y mejoras en el rendimiento.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

El artículo presenta KernelSkill, un marco de trabajo multiagente que mejora la optimización de kernels de GPU mediante el uso de habilidades de expertos guiadas por conocimiento y una arquitectura de memoria dual, logrando aceleraciones significativas y una tasa de éxito del 100% en comparación con métodos anteriores basados en LLM.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

El artículo presenta ES-dLLM, un marco de inferencia sin entrenamiento que acelera los modelos de difusión de lenguaje grande (dLLM) mediante el salto temprano de tokens en capas iniciales basado en la variación de representaciones intermedias y puntuaciones de confianza, logrando aceleraciones de hasta 16,8 veces sin comprometer la calidad de generación.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

← Anterior Siguiente →