cs.LG artículos | Gist.Science

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Este artículo presenta CausalPitfalls, un nuevo benchmark diseñado para evaluar rigurosamente la capacidad de los modelos de lenguaje grandes para identificar y superar trampas estadísticas en la inferencia causal, revelando así sus limitaciones actuales y proporcionando métricas para desarrollar sistemas de razonamiento más confiables.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

El artículo presenta ShIOEnv, un entorno de shell Bash compatible con Gymnasium que utiliza síntesis restringida por gramática y una señal de irreducibilidad auto-supervisada para generar 2,1 millones de pares entrada-salida que mejoran la precisión de los modelos al predecir el comportamiento de ejecución de comandos en comparación con enfoques anteriores sin ejecución.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

El artículo presenta VTool-R1, un marco pionero que utiliza aprendizaje por refuerzo para entrenar modelos de lenguaje y visión (VLM) a generar cadenas de pensamiento multimodales que integran texto y pasos visuales intermedios mediante herramientas de edición, mejorando así el razonamiento en tareas como preguntas sobre gráficos y tablas sin necesidad de supervisión basada en procesos.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

Attribute-Efficient PAC Learning of Sparse Halfspaces with Constant Malicious Noise Rate

Este trabajo presenta un algoritmo de aprendizaje PAC eficiente en atributos que, mediante variantes de la minimización de la pérdida *hinge* y un nuevo análisis de gradiente, permite aprender hiperplanos dispersos bajo una tasa constante de ruido malicioso asumiendo condiciones de concentración y margen en la distribución subyacente.

Shiwei Zeng, Jie Shen2026-03-06💻 cs

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

Este trabajo propone un marco innovador que representa los modelos de lenguaje grandes con parámetros booleanos multi-núcleo y permite su ajuste fino directo en el dominio booleano sin necesidad de pesos latentes, logrando así una mayor capacidad de representación y una reducción drástica de la complejidad en comparación con las técnicas de cuantización y binarización existentes.

Ba-Hien Tran, Van Minh Nguyen2026-03-06💻 cs

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Este trabajo propone y valida teórica y experimentalmente el uso de tokens de valor continuo para la cadena de pensamiento (CoT2), demostrando que esta aproximación permite la exploración paralela de múltiples trazas de razonamiento, mejora la eficiencia inferencial y supera a los métodos tradicionales mediante estrategias novedosas de supervisión y optimización de políticas.

Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang + 3 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

El artículo presenta SealQA, un nuevo conjunto de datos de evaluación diseñado para medir la capacidad de razonamiento y precisión factual de los modelos de lenguaje aumentados con búsqueda en escenarios con información conflictiva o ruidosa, revelando que incluso los modelos más avanzados actuales tienen un rendimiento muy deficiente en estas tareas.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

FPGA-Enabled Machine Learning Applications in Earth Observation: A Systematic Review

Esta revisión sistemática, que sigue las directrices PRISMA 2020, analiza 68 experimentos sobre el despliegue de modelos de aprendizaje automático en FPGAs para aplicaciones de observación terrestre, introduciendo dos taxonomías para optimizar arquitecturas y estrategias de implementación en el contexto de las nuevas tecnologías de UAV y la era NewSpace.

Cédric Léonard, Dirk Stober, Martin Schulz2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este trabajo presenta HSG-12M, un conjunto de datos a gran escala de 16,7 millones de multigrafos espaciales derivados de los espectros de energía de cristales no hermitianos, generado mediante la herramienta automatizada Poly2Graph para superar la falta de datos de alta calidad en física cuántica y fomentar el aprendizaje geométrico avanzado en grafos.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

El artículo presenta EDINET-Bench, un nuevo benchmark de código abierto basado en informes financieros japoneses que revela que, a pesar de sus avances en otros campos, los modelos de lenguaje actuales apenas superan a métodos estadísticos simples en tareas financieras complejas, lo que subraya la necesidad de marcos de evaluación más sofisticados que simulen el entorno profesional real.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

El artículo presenta SPEED-RL, un método de aprendizaje por refuerzo con curriculum en línea que acelera el entrenamiento de modelos de razonamiento entre 2 y 6 veces al seleccionar dinámicamente ejemplos de dificultad intermedia para maximizar la eficiencia sin comprometer la precisión.

Ruiqi Zhang, Daman Arora, Song Mei + 1 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Este artículo presenta BWFlow, un marco de flujo de emparejamiento para la generación de grafos que supera las limitaciones de los métodos actuales al modelar la evolución conjunta de nodos y arcos mediante campos aleatorios de Markov y transporte óptimo, logrando así trayectorias de probabilidad más suaves, una mejor convergencia en el entrenamiento y una generación más eficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

From Bandit Regret to FDR Control: Online Selective Generation with Adversarial Feedback Unlocking

El artículo presenta ExSUL, un marco de aprendizaje en línea novedoso que garantiza la generación selectiva fiable en entornos adversarios mediante un lema de conversión de arrepentimiento y una estrategia de desbloqueo de retroalimentación, logrando así controlar la tasa de descubrimientos falsos con solo retroalimentación parcial.

Minjae Lee, Yoonjae Jung, Sangdon Park2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

El artículo presenta las Structured Kolmogorov-Arnold Neural ODEs (SKANODEs), un marco que combina redes KAN con ecuaciones diferenciales neuronales para recuperar estados físicos interpretables y descubrir simbólicamente las leyes dinámicas no lineales que gobiernan sistemas complejos, superando en precisión y explicabilidad a los métodos de caja negra y modelos clásicos.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Learning Physical Systems: Symplectification via Gauge Fixing in Dirac Structures

Este trabajo presenta las Redes de Presimpléctificación (PSNs), un marco innovador que restaura la geometría simpléctica en sistemas mecánicos con restricciones y disipación mediante estructuras de Dirac, permitiendo el aprendizaje de dinámicas físicas estables y precisas en robots multibody como el cuadrúpedo ANYmal.

Aristotelis Papatheodorou, Pranav Vaidhyanathan, Natalia Ares + 1 more2026-03-06💻 cs

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Este artículo presenta un marco de análisis de estrés paramétrico en redes de políticas de aprendizaje por refuerzo que, mediante la aplicación de filtros sinápticos y ataques adversarios, clasifica los parámetros en frágiles, robustos o antifrágiles, revelando la existencia de parámetros que mejoran el rendimiento bajo estrés y sentando las bases para el diseño de sistemas más adaptativos.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

El artículo presenta MuRating, un marco escalable que transfiere señales de calidad de datos del inglés a un evaluador multilingüe único para seleccionar conjuntos de datos equilibrados que mejoran significativamente el rendimiento de modelos de lenguaje grandes en tareas de conocimiento y evaluación multilingüe.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

El artículo presenta Overtone, un marco unificado que mitiga la acumulación de errores sistemáticos en los sustitutos de EDP basados en transformadores mediante la modulación cíclica dinámica del tamaño de las parches durante la inferencia, logrando así una mayor precisión en simulaciones a largo plazo y una eficiencia computacional adaptable.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

Some Super-approximation Rates of ReLU Neural Networks for Korobov Functions

Este artículo demuestra que las redes neuronales con activación ReLU logran tasas de superaproximación casi óptimas para funciones de Korobov, superando los límites clásicos y mitigando la maldición de la dimensionalidad mediante el uso de elementos finitos en mallas dispersas y técnicas de extracción de bits.

Yuwen Li, Guozhi Zhang2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Este trabajo propone un método de aprendizaje inverso de refuerzo basado en entropía máxima y espacios de Hilbert de núcleo reproductor (RKHS) para juegos de campo medio, que permite inferir funciones de recompensa no lineales en horizontes infinitos y finitos, superando las limitaciones de los enfoques lineales existentes y demostrando una recuperación de políticas significativamente más precisa en escenarios de tráfico.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math

← Anterior Siguiente →