cs.LG artículos | Gist.Science

NMIRacle: Multi-modal Generative Molecular Elucidation from IR and NMR Spectra

El artículo presenta NMIRacle, un marco generativo de dos etapas que integra representaciones de fragmentos y codificadores espectrales para predecir estructuras moleculares a partir de datos de IR y RMN con mayor precisión y robustez que los métodos existentes.

Federico Ottomano, Yingzhen Li, Alex M. Ganose2026-03-12🔬 physics

Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

Este artículo presenta un marco teórico unificado que explica el sesgo de simplicidad en diversas arquitecturas de redes neuronales como resultado de una dinámica de aprendizaje de tipo "silla a silla", donde el descenso de gradiente evoluciona iterativamente a través de variedades invariantes y puntos de silla, revelando cómo la distribución de los datos y la inicialización de los pesos determinan la progresión hacia soluciones de mayor complejidad.

Yedi Zhang, Andrew Saxe, Peter E. Latham2026-03-12🤖 cs.LG

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Este trabajo presenta un marco de incertidumbre relativista de datos (DRU) que aborda la escasez de datos y la degradación por baja iluminación en imágenes de paisajes de anime, logrando una mejora perceptual y estética superior a los métodos existentes al cuantificar y aprovechar dinámicamente la incertidumbre de la iluminación.

Yiquan Gao, John See2026-03-12🤖 cs.LG

The Bayesian Geometry of Transformer Attention

Este artículo demuestra que los transformadores pequeños, en entornos controlados denominados "túneles de viento bayesianos", realizan inferencia bayesiana con alta precisión mediante un mecanismo geométrico específico donde las corrientes residuales almacenan creencias y la atención gestiona el enrutamiento, superando así a las arquitecturas MLP y revelando la base geométrica del razonamiento en modelos grandes.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artículo demuestra que el entrenamiento por entropía cruzada en los transformadores genera dinámicas de gradiente acopladas que esculpen manifiestos bayesianos de baja dimensión, unificando así la optimización, la geometría interna y el razonamiento probabilístico en contexto mediante un mecanismo de enrutamiento basado en ventajas y actualizaciones de valores ponderadas por responsabilidad.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

El estudio demuestra que los modelos de lenguaje modernos preservan una sustrato geométrico de baja dimensión, alineado con la entropía predictiva, que codifica la estructura bayesiana y permite inferencias aproximadas similares a las observadas en entornos sintéticos controlados.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

El estudio presenta PanSubNet, un marco de aprendizaje profundo interpretable que predice los subtipos moleculares clínicamente relevantes del cáncer de páncreas directamente a partir de histopatología rutinaria (tinción H&E), superando las limitaciones de costo y tiempo de los métodos genómicos tradicionales y ofreciendo una herramienta viable para la estratificación pronóstica y la oncología de precisión.

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

Este trabajo analiza el problema del "sobre-búsqueda" en modelos de lenguaje grandes aumentados con búsqueda, proponiendo la métrica Tokens por Corrección (TPC) para cuantificar este fenómeno, identificando sus causas y efectos negativos, y presentando estrategias de mitigación junto con el conjunto de datos OverSearchQA para fomentar investigaciones futuras.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

Este artículo propone un método innovador para muestrear distribuciones de Boltzmann no normalizadas mediante ecuaciones diferenciales ordinarias de flujo, utilizando una secuencia de muestreadores de Langevin para generar muestras intermedias y estimar robustamente el campo de velocidades, lo que garantiza tasas de convergencia no asintóticas y demuestra alta eficiencia en distribuciones multimodales y tareas de inferencia bayesiana.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Error Analysis of Bayesian Inverse Problems with Generative Priors

Este artículo presenta un análisis de error con cotas cuantitativas para problemas inversos bayesianos que utilizan priores generativos entrenados con datos, demostrando que el error en la posterior hereda la tasa de convergencia del prior y validando estos resultados mediante experimentos numéricos en benchmarks y un problema inverso de EDP elíptica.

Bamdad Hosseini, Ziqi Huang2026-03-12📊 stat

Time series forecasting with Hahn Kolmogorov-Arnold networks

El artículo presenta HaKAN, un modelo de pronóstico de series temporales multivariantes basado en redes Kolmogorov-Arnold con funciones de activación aprendibles de polinomios de Hahn, que supera a los métodos actuales al ofrecer una arquitectura ligera, interpretable y capaz de capturar patrones temporales globales y locales.

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

Este trabajo propone VR-SDA-A, un algoritmo adaptativo de reducción de varianza que supera la barrera de estocasticidad en desigualdades variacionales estocásticas no convexas no cóncavas mediante una verificación de curvatura y un esquema de línea de búsqueda, logrando una complejidad óptima de $O(\epsilon^{-3})$ y acelerando la convergencia en problemas de punto de silla.

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Singular Bayesian Neural Networks

El artículo propone redes neuronales bayesianas singularmente parametrizadas mediante descomposición de bajo rango que, al concentrarse en una variedad de rango $r$ , logran una reducción significativa de parámetros y mejores límites de generalización sin sacrificar el rendimiento predictivo ni la calibración en comparación con los enfoques tradicionales.

Mame Diarra Toure, David A. Stephens2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Este trabajo formaliza la pérdida de diversidad en modelos de difusión con guía libre de clasificadores como una distorsión generativa que surge de una transición de fase en regímenes de alta dimensión, y propone un nuevo esquema de programación con una ventana de guía negativa para mitigar este efecto mientras se preserva la separabilidad de clases.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Este artículo demuestra teóricamente y valida empíricamente que las alucinaciones en los modelos de lenguaje son una consecuencia inevitable de la optimización de la memoria bajo capacidad limitada, donde la estrategia óptima de compresión de información requiere asignar alta confianza a hechos no reales para minimizar la pérdida de información.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Grounding Generated Videos in Feasible Plans via World Models

El artículo presenta GVP-WM, un método que utiliza modelos del mundo para convertir planes generados por video en secuencias de acciones factibles, corrigiendo las inconsistencias temporales y físicas mediante la optimización de trayectorias en el espacio latente.

Christos Ziakas, Amir Bar, Alessandra Russo2026-03-12🤖 cs.LG

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

El estudio demuestra que la calidad de generación en los modelos de difusión descentralizados no depende de la estabilidad numérica del muestreo, sino del alineamiento entre los datos de entrada y los expertos seleccionados, quienes deben estar entrenados en distribuciones que cubran el estado actual de desruido.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG

A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

Este artículo presenta un enfoque basado en muestreo Thompson contextual para generar secuencias de ejercicios personalizados que optimizan la mejora de habilidades en entornos educativos digitales, demostrando mediante datos de una plataforma de tutoría matemática que este método incrementa el aprendizaje y permite una instrucción adaptativa a escala.

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Universality of General Spiked Tensor Models

Este artículo demuestra que, en el régimen de alta dimensión, el comportamiento espectral y los límites estadísticos de los modelos de tensores espigados asimétricos de rango uno son universales, es decir, coinciden con los del caso gaussiano incluso cuando el ruido tiene una distribución general con momento cuarto finito.

Yanjin Xiang, Zhihua Zhang2026-03-12📊 stat

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

El artículo presenta BLITZRANK, un marco basado en grafos de torneos que permite a los agentes de clasificación cero-shot determinar de manera principista los ítems superiores mediante comparaciones k-arias, logrando una precisión superior con una reducción significativa de tokens en comparación con métodos existentes.

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela2026-03-12🤖 cs.LG

← Anterior Siguiente →