Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers

Este trabajo demuestra que los mecanismos de enrutamiento en los modelos Sparse Mixture-of-Experts (MoE) exhiben una estructura sensible a la tarea, donde las "firmas de enrutamiento" permiten clasificar con alta precisión la categoría de una tarea basándose únicamente en los patrones de activación de los expertos, lo que sugiere que el enrutamiento es un componente funcional y medible más allá de un simple mecanismo de equilibrio.

Mynampati Sri Ranganadha Avinash2026-03-13🤖 cs.LG

A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks

Este artículo propone un operador de superposición basado en aprendizaje profundo que, entrenado con procesos de llegada de Markov, mapea de manera escalable y precisa las características estadísticas de múltiples flujos de entrada no renovables en redes de colas, superando las limitaciones de los métodos clásicos al preservar la información de variabilidad y dependencia de alto orden.

Eliran Sherzer2026-03-13🤖 cs.LG

High-resolution weather-guided surrogate modeling for data-efficient cross-location building energy prediction

Este estudio presenta un modelo sustituto de alta resolución guiado por el clima semanal que, al capturar patrones comunes de demanda energética, logra una generalización precisa en la predicción de energía de edificios en diferentes ubicaciones sin necesidad de simulaciones extensas de múltiples sitios.

Piragash Manmatharasan, Girma Bitsuamlak, Katarina Grolinger2026-03-13🤖 cs.LG

Co-Diffusion: An Affinity-Aware Two-Stage Latent Diffusion Framework for Generalizable Drug-Target Affinity Prediction

El artículo presenta Co-Diffusion, un marco innovador de dos etapas basado en difusión latente que mejora la generalización en la predicción de afinidad fármaco-diana mediante la alineación de representaciones y la regularización estocástica, superando significativamente a los métodos actuales en escenarios de inicio en frío y espacios químicos no explorados.

Yining Qian, Pengjie Wang, Yixiao Li, An-Yang Lu, Cheng Tan, Shuang Li, Lijun Liu2026-03-13📊 stat

Efficient Approximation to Analytic and LpL^p functions by Height-Augmented ReLU Networks

Este trabajo demuestra que una arquitectura de red neuronal tridimensional con activaciones ReLU aumentadas por altura permite aproximar funciones analíticas y LpL^p con tasas exponenciales mejoradas y de manera no asintótica, superando limitaciones fundamentales en la teoría de aproximación y ofreciendo diseños de redes más eficientes en parámetros.

ZeYu Li, FengLei Fan, TieYong Zeng2026-03-13📊 stat

Beyond Barren Plateaus: A Scalable Quantum Convolutional Architecture for High-Fidelity Image Classification

Este trabajo presenta una arquitectura escalable de red neuronal convolucional cuántica que mitiga los estancamientos estériles mediante funciones de costo localizadas y una inicialización eficiente de hardware, logrando una precisión del 98,7% en MNIST y demostrando una ventaja en eficiencia de parámetros frente a las redes neuronales convolucionales clásicas.

Radhakrishnan Delhibabu2026-03-13🤖 cs.LG

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

El artículo presenta REOPOLD, un marco de destilación en línea relajada que estabiliza la transferencia de capacidades de razonamiento mediante optimización de políticas y recompensas del maestro, logrando una mayor eficiencia en el muestreo y un escalado superior en tareas de razonamiento matemático, visual y de agentes en comparación con enfoques anteriores.

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron2026-03-13🤖 cs.LG

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

El estudio utiliza técnicas de interpretabilidad mecánica para demostrar que los modelos VideoViT desarrollan un circuito causal redundante y sofisticado, donde las cabezas de atención recopilan evidencia y las capas MLP componen conceptos, lo que revela la existencia de "conocimiento oculto" sobre resultados de acciones más allá de la tarea de clasificación explícita y subraya la necesidad de mecanismos de supervisión para garantizar la confianza en la IA.

Sai V R Chereddy2026-03-13🤖 cs.LG

Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models

Este artículo presenta un marco de leyes de escalado para analizar sistemáticamente cómo el éxito de los ataques de jailbreak en modelos de lenguaje grandes varía con el esfuerzo computacional, revelando que los métodos basados en prompts son más eficientes y efectivos que los de optimización, y que la vulnerabilidad depende significativamente del tipo de objetivo dañino.

Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran2026-03-13🤖 cs.LG

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Este artículo presenta un enfoque de aprendizaje automático auto-supervisado que, mediante el entrenamiento de una red neuronal en trayectorias de oráculo generadas a partir de expresiones matemáticas desordenadas, logra simplificar con una precisión casi perfecta complejas expresiones de física de altas energías, superando significativamente a métodos anteriores basados en aprendizaje por refuerzo y regresión.

David Shih2026-03-13⚛️ hep-th

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este estudio presenta un sistema de reconocimiento automático de habla (ASR) optimizado para la enfermedad de Huntington que, mediante un corpus clínico de alta fidelidad y supervisión auxiliar basada en biomarcadores, logra reducir la tasa de error de palabras y analizar patrones de errores específicos de la patología, superando a los modelos baselines tradicionales.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia Hirschberg2026-03-13🤖 cs.LG