ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

El artículo presenta ShIOEnv, un entorno de shell Bash compatible con Gymnasium que utiliza síntesis restringida por gramática y una señal de irreducibilidad auto-supervisada para generar 2,1 millones de pares entrada-salida que mejoran la precisión de los modelos al predecir el comportamiento de ejecución de comandos en comparación con enfoques anteriores sin ejecución.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

El artículo presenta VTool-R1, un marco pionero que utiliza aprendizaje por refuerzo para entrenar modelos de lenguaje y visión (VLM) a generar cadenas de pensamiento multimodales que integran texto y pasos visuales intermedios mediante herramientas de edición, mejorando así el razonamiento en tareas como preguntas sobre gráficos y tablas sin necesidad de supervisión basada en procesos.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

Este trabajo propone un marco innovador que representa los modelos de lenguaje grandes con parámetros booleanos multi-núcleo y permite su ajuste fino directo en el dominio booleano sin necesidad de pesos latentes, logrando así una mayor capacidad de representación y una reducción drástica de la complejidad en comparación con las técnicas de cuantización y binarización existentes.

Ba-Hien Tran, Van Minh Nguyen2026-03-06💻 cs

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Este trabajo propone y valida teórica y experimentalmente el uso de tokens de valor continuo para la cadena de pensamiento (CoT2), demostrando que esta aproximación permite la exploración paralela de múltiples trazas de razonamiento, mejora la eficiencia inferencial y supera a los métodos tradicionales mediante estrategias novedosas de supervisión y optimización de políticas.

Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang + 3 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

El artículo presenta SealQA, un nuevo conjunto de datos de evaluación diseñado para medir la capacidad de razonamiento y precisión factual de los modelos de lenguaje aumentados con búsqueda en escenarios con información conflictiva o ruidosa, revelando que incluso los modelos más avanzados actuales tienen un rendimiento muy deficiente en estas tareas.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

FPGA-Enabled Machine Learning Applications in Earth Observation: A Systematic Review

Esta revisión sistemática, que sigue las directrices PRISMA 2020, analiza 68 experimentos sobre el despliegue de modelos de aprendizaje automático en FPGAs para aplicaciones de observación terrestre, introduciendo dos taxonomías para optimizar arquitecturas y estrategias de implementación en el contexto de las nuevas tecnologías de UAV y la era NewSpace.

Cédric Léonard, Dirk Stober, Martin Schulz2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este trabajo presenta HSG-12M, un conjunto de datos a gran escala de 16,7 millones de multigrafos espaciales derivados de los espectros de energía de cristales no hermitianos, generado mediante la herramienta automatizada Poly2Graph para superar la falta de datos de alta calidad en física cuántica y fomentar el aprendizaje geométrico avanzado en grafos.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

El artículo presenta EDINET-Bench, un nuevo benchmark de código abierto basado en informes financieros japoneses que revela que, a pesar de sus avances en otros campos, los modelos de lenguaje actuales apenas superan a métodos estadísticos simples en tareas financieras complejas, lo que subraya la necesidad de marcos de evaluación más sofisticados que simulen el entorno profesional real.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Este artículo presenta BWFlow, un marco de flujo de emparejamiento para la generación de grafos que supera las limitaciones de los métodos actuales al modelar la evolución conjunta de nodos y arcos mediante campos aleatorios de Markov y transporte óptimo, logrando así trayectorias de probabilidad más suaves, una mejor convergencia en el entrenamiento y una generación más eficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

El artículo presenta las Structured Kolmogorov-Arnold Neural ODEs (SKANODEs), un marco que combina redes KAN con ecuaciones diferenciales neuronales para recuperar estados físicos interpretables y descubrir simbólicamente las leyes dinámicas no lineales que gobiernan sistemas complejos, superando en precisión y explicabilidad a los métodos de caja negra y modelos clásicos.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Este artículo presenta un marco de análisis de estrés paramétrico en redes de políticas de aprendizaje por refuerzo que, mediante la aplicación de filtros sinápticos y ataques adversarios, clasifica los parámetros en frágiles, robustos o antifrágiles, revelando la existencia de parámetros que mejoran el rendimiento bajo estrés y sentando las bases para el diseño de sistemas más adaptativos.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

El artículo presenta Overtone, un marco unificado que mitiga la acumulación de errores sistemáticos en los sustitutos de EDP basados en transformadores mediante la modulación cíclica dinámica del tamaño de las parches durante la inferencia, logrando así una mayor precisión en simulaciones a largo plazo y una eficiencia computacional adaptable.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Este trabajo propone un método de aprendizaje inverso de refuerzo basado en entropía máxima y espacios de Hilbert de núcleo reproductor (RKHS) para juegos de campo medio, que permite inferir funciones de recompensa no lineales en horizontes infinitos y finitos, superando las limitaciones de los enfoques lineales existentes y demostrando una recuperación de políticas significativamente más precisa en escenarios de tráfico.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math