Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

El estudio revela que, a diferencia de la Descendente de Gradiente, la Minimización Sensible a la Agudeza (SAM) en redes lineales profundas presenta un sesgo implícito dependiente de la profundidad y la inicialización que puede llevar a la convergencia a soluciones subóptimas o a una dinámica de "amplificación secuencial" de características menores, demostrando que los análisis de sesgo en tiempo infinito son insuficientes para predecir su comportamiento en tiempo finito.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Este trabajo propone un marco novedoso basado en Redes Neuronales Instructadas por Grafos (GINNs) para simular de manera eficiente y precisa fenómenos físicos gobernados por ecuaciones diferenciales parciales paramétricas con condiciones de frontera variables, superando las limitaciones de las técnicas de reducción de orden clásicas al aprender directamente la mapeo entre la descripción paramétrica del dominio y la solución de la PDE.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Sign Identifiability of Causal Effects in Stationary Stochastic Dynamical Systems

Este artículo presenta criterios para determinar la identificabilidad del signo de los efectos causales en sistemas dinámicos estocásticos lineales estacionarios de tiempo continuo, relajando la suposición de una matriz de difusión conocida y estableciendo condiciones bajo las cuales el signo de los coeficientes de deriva queda unívocamente determinado por las matrices de covarianza observacional.

Gijs van Seeventer, Saber Salehkaleybar2026-03-10🤖 cs.LG

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Este trabajo presenta un marco general para evaluar la calidad de los mapas de calor en el aprendizaje de múltiples instancias (MIL) para patología computacional, demostrando mediante un extenso benchmark que métodos como la propagación de relevancia capa a capa (LRP) y los gradientes integrados (IG) superan a las técnicas basadas en atención, permitiendo así validaciones biológicas más fiables y el descubrimiento de nuevas estrategias de predicción.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Electrocardiogram Classification with Transformers Using Koopman and Wavelet Features

Este trabajo demuestra que el uso de características derivadas del operador de Koopman mediante una descomposición dinámica de modos extendida (EDMD) con un diccionario de funciones de base radial optimizado, combinadas con transformadores, supera a los enfoques basados en wavelets y sistemas híbridos para la clasificación multiclase de electrocardiogramas, ofreciendo además insights interpretables sobre las dinámicas aprendidas.

Sucheta Ghosh, Zahra Monfared2026-03-10🤖 cs.LG

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Este trabajo propone reemplazar la proyección de salida densa en la atención multi-cabeza con una transformada de Walsh-Hadamard fija y un reescalado afín ligero, logrando una reducción significativa de parámetros y memoria sin sacrificar el rendimiento en tareas de benchmark, mientras mejora la eficiencia computacional y el uso de recursos durante el entrenamiento.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Unifying On- and Off-Policy Variance Reduction Methods

Este artículo establece una equivalencia formal entre los métodos de reducción de varianza utilizados en experimentación en línea y evaluación fuera de política, demostrando que los estimadores de diferencias de medias son idénticos a los de puntuación de propensión inversa con control variado óptimo, y que los ajustes de regresión son estructuralmente equivalentes a la estimación doblemente robusta.

Olivier Jeunen2026-03-10🤖 cs.LG

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Este artículo presenta un nuevo algoritmo de optimización basado en el cálculo fraccional que utiliza integrales de Weyl ponderadas para reemplazar los gradientes instantáneos con una memoria histórica dinámica, logrando así una mejora significativa en la detección de fraudes financieros y diagnósticos médicos al mitigar el sobreajuste en conjuntos de datos desequilibrados.

Gustavo A. Dorrego2026-03-10🤖 cs.LG

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Este trabajo presenta ToCoRL, un marco de aprendizaje por refuerzo que aprovecha la plasticidad conductual inherente de los modelos de lenguaje grandes mediante la generación condicional a tokens, permitiendo adaptar sus patrones de comportamiento (como cambiar del razonamiento paso a paso a respuestas directas) de manera estable y precisa sin degradar sus capacidades.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Meta-RL with Shared Representations Enables Fast Adaptation in Energy Systems

Este artículo presenta un nuevo marco de Aprendizaje por Refuerzo Meta (Meta-RL) que, mediante una arquitectura híbrida actor-crítico con optimización de dos niveles y representaciones compartidas, logra una adaptación rápida y eficiente en sistemas de gestión de energía, superando a los métodos convencionales en un conjunto de datos real de casi una década.

Théo Zangato, Aomar Osmani, Pegah Alizadeh2026-03-10🤖 cs.LG

SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

El artículo presenta SYNAPSE, un marco de análisis sin reentrenamiento que evalúa la robustez interna y la interpretabilidad de los modelos Transformer mediante la identificación de neuronas clave y la aplicación de intervenciones controladas, revelando patrones de redundancia funcional y vulnerabilidades estructurales.

Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán2026-03-10🤖 cs.LG

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

El artículo presenta GRACE, un marco de aprendizaje incremental de clases que gestiona dinámicamente la capacidad del modelo mediante un ciclo de expansión, evaluación de saturación y compresión para lograr un rendimiento de vanguardia reduciendo la huella de memoria hasta en un 73% en comparación con los métodos puramente expansivos.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Este estudio prospectivo de viabilidad demuestra que un sistema de inteligencia artificial conversacional basado en modelos de lenguaje (AMIE) es seguro, bien aceptado por pacientes y médicos, y capaz de generar diagnósticos diferenciales de calidad comparable a la de los médicos de atención primaria en un entorno clínico real, aunque los médicos superaron a la IA en la practicidad y rentabilidad de los planes de tratamiento.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

El artículo presenta LycheeCluster, un método innovador de gestión de caché KV que utiliza fragmentación consciente de límites y un índice jerárquico recursivo para acelerar la inferencia de modelos de lenguaje grandes en contextos largos hasta en un 3,6 veces sin comprometer significativamente su rendimiento.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG