cs.LG artículos | Gist.Science

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

El artículo presenta OpenSanctions Pairs, un extenso conjunto de datos para la coincidencia de entidades derivado de sanciones internacionales, y demuestra que los modelos de lenguaje grandes (LLMs) superan significativamente a los sistemas basados en reglas tradicionales, alcanzando un rendimiento cercano al límite práctico y sugiriendo un cambio de enfoque hacia componentes de la pipeline como el bloqueo y la agrupación.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de Witt2026-03-13💬 cs.CL

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Este trabajo propone un esquema de cuantificación de incertidumbre epistémica estructuralmente consciente para operadores neuronales que, al restringir la perturbación estocástica únicamente al módulo de elevación en lugar de aplicar ruido no estructurado en toda la red, logra bandas de incertidumbre más precisas y alineadas con las estructuras residuales locales en problemas de EDP complejos, manteniendo al mismo tiempo una alta eficiencia computacional.

Haoze Song, Zhihao Li, Mengyi Deng, Xin Li, Duyi Pan, Zhilu Lai, Wei Wang2026-03-13🤖 cs.LG

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Este estudio presenta las Leyes de Escalamiento de Decodificación Especulativa (SDSL), un marco teórico que permite predecir y optimizar analíticamente los hiperparámetros de los modelos de lenguaje para maximizar el rendimiento del sistema de inferencia antes de su entrenamiento.

Amirhossein Bozorgkhoo, Igor Molybog2026-03-13💬 cs.CL

TinyNav: End-to-End TinyML for Real-Time Autonomous Navigation on Microcontrollers

El artículo presenta TinyNav, un sistema TinyML de extremo a extremo que permite la navegación autónoma en tiempo real en microcontroladores ESP32 mediante una red neuronal convolucional cuantizada de 23k parámetros que procesa datos de profundidad para predecir comandos de dirección y aceleración con una latencia de 30 ms.

Pooria Roy, Nourhan Jadallah. Tomer Lapid, Shahzaib Ahmad, Armita Afroushe, Mete Bayrak2026-03-13🤖 cs.LG

Interventional Time Series Priors for Causal Foundation Models

El artículo presenta CausalTimePrior, un marco principista que genera modelos causales estructurales temporales sintéticos con datos observacionales e intervencionales para entrenar redes de ajuste previo a los datos (PFNs) y habilitar la estimación de efectos causales en series temporales mediante modelos fundamentales.

Dennis Thumm, Ying Chen2026-03-13🤖 cs.LG

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

El artículo presenta FiCSUM, un marco general que utiliza un "fingerprint" compuesto por múltiples características de metainformación y una estrategia de ponderación dinámica para representar conceptos en flujos de datos, permitiendo detectar con mayor precisión el cambio de concepto tanto en entornos supervisados como no supervisados y superando a los métodos actuales.

Ben Halstead, Yun Sing Koh, Patricia Riddle, Mykola Pechenizkiy, Albert Bifet, Russel Pears2026-03-13🤖 cs.LG

Graph Tokenization for Bridging Graphs and Transformers

Este trabajo presenta un marco de tokenización de grafos que combina la serialización reversible de grafos con la codificación Byte Pair (BPE) para convertir estructuras de grafos en secuencias, permitiendo que los Transformers estándar logren resultados de vanguardia en múltiples conjuntos de datos sin modificaciones arquitectónicas.

Zeyuan Guo, Enmao Diao, Cheng Yang, Chuan Shi2026-03-13🤖 cs.LG

Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers

Este trabajo demuestra que los mecanismos de enrutamiento en los modelos Sparse Mixture-of-Experts (MoE) exhiben una estructura sensible a la tarea, donde las "firmas de enrutamiento" permiten clasificar con alta precisión la categoría de una tarea basándose únicamente en los patrones de activación de los expertos, lo que sugiere que el enrutamiento es un componente funcional y medible más allá de un simple mecanismo de equilibrio.

Mynampati Sri Ranganadha Avinash2026-03-13🤖 cs.LG

A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks

Este artículo propone un operador de superposición basado en aprendizaje profundo que, entrenado con procesos de llegada de Markov, mapea de manera escalable y precisa las características estadísticas de múltiples flujos de entrada no renovables en redes de colas, superando las limitaciones de los métodos clásicos al preservar la información de variabilidad y dependencia de alto orden.

Eliran Sherzer2026-03-13🤖 cs.LG

Group Resonance Network: Learnable Prototypes and Multi-Subject Resonance for EEG Emotion Recognition

El artículo presenta la Red de Resonancia de Grupo (GRN), un nuevo enfoque para el reconocimiento de emociones basado en EEG que supera la variabilidad inter-sujeto al integrar la dinámica individual con prototipos aprendibles y modelado de resonancia grupal, logrando un rendimiento superior en tareas de clasificación cruzada.

Renwei Meng2026-03-13🤖 cs.LG

High-resolution weather-guided surrogate modeling for data-efficient cross-location building energy prediction

Este estudio presenta un modelo sustituto de alta resolución guiado por el clima semanal que, al capturar patrones comunes de demanda energética, logra una generalización precisa en la predicción de energía de edificios en diferentes ubicaciones sin necesidad de simulaciones extensas de múltiples sitios.

Piragash Manmatharasan, Girma Bitsuamlak, Katarina Grolinger2026-03-13🤖 cs.LG

Co-Diffusion: An Affinity-Aware Two-Stage Latent Diffusion Framework for Generalizable Drug-Target Affinity Prediction

El artículo presenta Co-Diffusion, un marco innovador de dos etapas basado en difusión latente que mejora la generalización en la predicción de afinidad fármaco-diana mediante la alineación de representaciones y la regularización estocástica, superando significativamente a los métodos actuales en escenarios de inicio en frío y espacios químicos no explorados.

Yining Qian, Pengjie Wang, Yixiao Li, An-Yang Lu, Cheng Tan, Shuang Li, Lijun Liu2026-03-13📊 stat

Efficient Approximation to Analytic and $L^p$ functions by Height-Augmented ReLU Networks

Este trabajo demuestra que una arquitectura de red neuronal tridimensional con activaciones ReLU aumentadas por altura permite aproximar funciones analíticas y $L^p$ con tasas exponenciales mejoradas y de manera no asintótica, superando limitaciones fundamentales en la teoría de aproximación y ofreciendo diseños de redes más eficientes en parámetros.

ZeYu Li, FengLei Fan, TieYong Zeng2026-03-13📊 stat

Beyond Barren Plateaus: A Scalable Quantum Convolutional Architecture for High-Fidelity Image Classification

Este trabajo presenta una arquitectura escalable de red neuronal convolucional cuántica que mitiga los estancamientos estériles mediante funciones de costo localizadas y una inicialización eficiente de hardware, logrando una precisión del 98,7% en MNIST y demostrando una ventaja en eficiencia de parámetros frente a las redes neuronales convolucionales clásicas.

Radhakrishnan Delhibabu2026-03-13🤖 cs.LG

Higher-Order Modular Attention: Fusing Pairwise and Triadic Interactions for Protein Sequences

El artículo presenta HOMA, un nuevo operador de atención que fusiona interacciones por pares y triádicas explícitas mediante una estructura modular y ventanada, logrando mejoras consistentes en la predicción de propiedades de proteínas en comparación con los mecanismos de atención estándar.

Shirin Amiraslani, Xin Gao2026-03-13🤖 cs.LG

Conformal e-prediction in the presence of confounding

Este artículo extiende la predicción e-conformal para abordar casos de confusión observada entre la variable aleatoria y su etiqueta, considerando tanto escenarios de datos independientes e idénticamente distribuidos como aquellos que permiten cierta dependencia entre las observaciones.

Vladimir Vovk, Ruodu Wang2026-03-13📊 stat

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

El artículo presenta REOPOLD, un marco de destilación en línea relajada que estabiliza la transferencia de capacidades de razonamiento mediante optimización de políticas y recompensas del maestro, logrando una mayor eficiencia en el muestreo y un escalado superior en tareas de razonamiento matemático, visual y de agentes en comparación con enfoques anteriores.

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron2026-03-13🤖 cs.LG

Deep regression learning from dependent observations with minimum error entropy principle

Este artículo propone y analiza estimadores de redes neuronales profundas basados en el principio de mínima entropía de error para regresión no paramétrica con observaciones dependientes, demostrando que alcanzan la tasa óptima minimax de convergencia.

William Kengne, Modou Wade2026-03-13📊 stat

H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

El artículo presenta H2LooP Spark Preview, un pipeline de preentrenamiento continuo que adapta el modelo OLMo-3-7B al dominio de sistemas embebidos mediante un corpus de 23.5B tokens, logrando superar a modelos propietarios más grandes en tareas de generación de código especializado.

Amit Singh, Vedant Nipane, Pulkit Agrawal, Jatin Kishnani2026-03-13🤖 cs.LG

Procedural Fairness via Group Counterfactual Explanation

Este trabajo presenta GCIG, un marco de regularización que promueve la equidad procedimental en el aprendizaje automático al garantizar que las explicaciones de los modelos sean consistentes entre diferentes grupos protegidos, reduciendo así la disparidad explicativa sin comprometer el rendimiento predictivo.

Gideon Popoola, John Sheppard2026-03-13🤖 cs.LG

← Anterior Siguiente →

cs.LG