cs.LG artículos | Gist.Science

Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers

Este trabajo demuestra que los mecanismos de enrutamiento en los modelos Sparse Mixture-of-Experts (MoE) exhiben una estructura sensible a la tarea, donde las "firmas de enrutamiento" permiten clasificar con alta precisión la categoría de una tarea basándose únicamente en los patrones de activación de los expertos, lo que sugiere que el enrutamiento es un componente funcional y medible más allá de un simple mecanismo de equilibrio.

Mynampati Sri Ranganadha Avinash2026-03-13🤖 cs.LG

A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks

Este artículo propone un operador de superposición basado en aprendizaje profundo que, entrenado con procesos de llegada de Markov, mapea de manera escalable y precisa las características estadísticas de múltiples flujos de entrada no renovables en redes de colas, superando las limitaciones de los métodos clásicos al preservar la información de variabilidad y dependencia de alto orden.

Eliran Sherzer2026-03-13🤖 cs.LG

Group Resonance Network: Learnable Prototypes and Multi-Subject Resonance for EEG Emotion Recognition

El artículo presenta la Red de Resonancia de Grupo (GRN), un nuevo enfoque para el reconocimiento de emociones basado en EEG que supera la variabilidad inter-sujeto al integrar la dinámica individual con prototipos aprendibles y modelado de resonancia grupal, logrando un rendimiento superior en tareas de clasificación cruzada.

Renwei Meng2026-03-13🤖 cs.LG

High-resolution weather-guided surrogate modeling for data-efficient cross-location building energy prediction

Este estudio presenta un modelo sustituto de alta resolución guiado por el clima semanal que, al capturar patrones comunes de demanda energética, logra una generalización precisa en la predicción de energía de edificios en diferentes ubicaciones sin necesidad de simulaciones extensas de múltiples sitios.

Piragash Manmatharasan, Girma Bitsuamlak, Katarina Grolinger2026-03-13🤖 cs.LG

Co-Diffusion: An Affinity-Aware Two-Stage Latent Diffusion Framework for Generalizable Drug-Target Affinity Prediction

El artículo presenta Co-Diffusion, un marco innovador de dos etapas basado en difusión latente que mejora la generalización en la predicción de afinidad fármaco-diana mediante la alineación de representaciones y la regularización estocástica, superando significativamente a los métodos actuales en escenarios de inicio en frío y espacios químicos no explorados.

Yining Qian, Pengjie Wang, Yixiao Li, An-Yang Lu, Cheng Tan, Shuang Li, Lijun Liu2026-03-13📊 stat

Efficient Approximation to Analytic and $L^p$ functions by Height-Augmented ReLU Networks

Este trabajo demuestra que una arquitectura de red neuronal tridimensional con activaciones ReLU aumentadas por altura permite aproximar funciones analíticas y $L^p$ con tasas exponenciales mejoradas y de manera no asintótica, superando limitaciones fundamentales en la teoría de aproximación y ofreciendo diseños de redes más eficientes en parámetros.

ZeYu Li, FengLei Fan, TieYong Zeng2026-03-13📊 stat

Beyond Barren Plateaus: A Scalable Quantum Convolutional Architecture for High-Fidelity Image Classification

Este trabajo presenta una arquitectura escalable de red neuronal convolucional cuántica que mitiga los estancamientos estériles mediante funciones de costo localizadas y una inicialización eficiente de hardware, logrando una precisión del 98,7% en MNIST y demostrando una ventaja en eficiencia de parámetros frente a las redes neuronales convolucionales clásicas.

Radhakrishnan Delhibabu2026-03-13🤖 cs.LG

Higher-Order Modular Attention: Fusing Pairwise and Triadic Interactions for Protein Sequences

El artículo presenta HOMA, un nuevo operador de atención que fusiona interacciones por pares y triádicas explícitas mediante una estructura modular y ventanada, logrando mejoras consistentes en la predicción de propiedades de proteínas en comparación con los mecanismos de atención estándar.

Shirin Amiraslani, Xin Gao2026-03-13🤖 cs.LG

Conformal e-prediction in the presence of confounding

Este artículo extiende la predicción e-conformal para abordar casos de confusión observada entre la variable aleatoria y su etiqueta, considerando tanto escenarios de datos independientes e idénticamente distribuidos como aquellos que permiten cierta dependencia entre las observaciones.

Vladimir Vovk, Ruodu Wang2026-03-13📊 stat

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

El artículo presenta REOPOLD, un marco de destilación en línea relajada que estabiliza la transferencia de capacidades de razonamiento mediante optimización de políticas y recompensas del maestro, logrando una mayor eficiencia en el muestreo y un escalado superior en tareas de razonamiento matemático, visual y de agentes en comparación con enfoques anteriores.

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron2026-03-13🤖 cs.LG

Deep regression learning from dependent observations with minimum error entropy principle

Este artículo propone y analiza estimadores de redes neuronales profundas basados en el principio de mínima entropía de error para regresión no paramétrica con observaciones dependientes, demostrando que alcanzan la tasa óptima minimax de convergencia.

William Kengne, Modou Wade2026-03-13📊 stat

H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

El artículo presenta H2LooP Spark Preview, un pipeline de preentrenamiento continuo que adapta el modelo OLMo-3-7B al dominio de sistemas embebidos mediante un corpus de 23.5B tokens, logrando superar a modelos propietarios más grandes en tareas de generación de código especializado.

Amit Singh, Vedant Nipane, Pulkit Agrawal, Jatin Kishnani2026-03-13🤖 cs.LG

Procedural Fairness via Group Counterfactual Explanation

Este trabajo presenta GCIG, un marco de regularización que promueve la equidad procedimental en el aprendizaje automático al garantizar que las explicaciones de los modelos sean consistentes entre diferentes grupos protegidos, reduciendo así la disparidad explicativa sin comprometer el rendimiento predictivo.

Gideon Popoola, John Sheppard2026-03-13🤖 cs.LG

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

El estudio utiliza técnicas de interpretabilidad mecánica para demostrar que los modelos VideoViT desarrollan un circuito causal redundante y sofisticado, donde las cabezas de atención recopilan evidencia y las capas MLP componen conceptos, lo que revela la existencia de "conocimiento oculto" sobre resultados de acciones más allá de la tarea de clasificación explícita y subraya la necesidad de mecanismos de supervisión para garantizar la confianza en la IA.

Sai V R Chereddy2026-03-13🤖 cs.LG

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Este artículo propone un marco de atribución multimodal basado en catálogos y modelos de lenguaje de video locales para automatizar la curaduría de metadatos en archivos audiovisuales de museos, mejorando su descubribilidad mientras se respetan las limitaciones de recursos, la soberanía de datos y las normativas regulatorias.

Minsak Nanang, Adrian Hilton, Armin Mustafa2026-03-13🤖 cs.LG

Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models

Este artículo presenta un marco de leyes de escalado para analizar sistemáticamente cómo el éxito de los ataques de jailbreak en modelos de lenguaje grandes varía con el esfuerzo computacional, revelando que los métodos basados en prompts son más eficientes y efectivos que los de optimización, y que la vulnerabilidad depende significativamente del tipo de objetivo dañino.

Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran2026-03-13🤖 cs.LG

Algorithmic Capture, Computational Complexity, and Inductive Bias of Infinite Transformers

El artículo define formalmente la captura algorítmica y demuestra que, a pesar de su expresividad universal, los transformadores infinitos poseen un sesgo inductivo que limita su capacidad de aprendizaje a algoritmos de baja complejidad dentro de la clase EPTHS, impidiendo la generalización a problemas de mayor complejidad.

Orit Davidovich, Zohar Ringel2026-03-13🤖 cs.LG

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Este artículo presenta un enfoque de aprendizaje automático auto-supervisado que, mediante el entrenamiento de una red neuronal en trayectorias de oráculo generadas a partir de expresiones matemáticas desordenadas, logra simplificar con una precisión casi perfecta complejas expresiones de física de altas energías, superando significativamente a métodos anteriores basados en aprendizaje por refuerzo y regresión.

David Shih2026-03-13⚛️ hep-th

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este estudio presenta un sistema de reconocimiento automático de habla (ASR) optimizado para la enfermedad de Huntington que, mediante un corpus clínico de alta fidelidad y supervisión auxiliar basada en biomarcadores, logra reducir la tasa de error de palabras y analizar patrones de errores específicos de la patología, superando a los modelos baselines tradicionales.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia Hirschberg2026-03-13🤖 cs.LG

PACED: Distillation at the Frontier of Student Competence

El artículo presenta PACED, un marco de destilación de modelos de lenguaje que optimiza el uso computacional concentrando el entrenamiento en la frontera de competencia del modelo estudiantil mediante una ponderación basada en la tasa de acierto, lo que maximiza la eficiencia y el rendimiento en benchmarks de razonamiento sin requerir cambios arquitectónicos.

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-13🤖 cs.AI

← Anterior Siguiente →

cs.LG