BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

El artículo presenta BoxMind, un sistema de IA de bucle cerrado que transforma datos de video no estructurados en inteligencia estratégica mediante un modelo predictivo basado en grafos, el cual fue validado durante los Juegos Olímpicos de París 2024 y contribuyó directamente al éxito histórico del equipo nacional chino de boxeo.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench es un nuevo benchmark impulsado por telemetría real que evalúa modelos de lenguaje grandes en tareas de generación de código ecológicamente válidas, ofreciendo diagnósticos detallados sobre su precisión sintáctica, razonamiento semántico y utilidad práctica para guiar su selección y mejora.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

El artículo presenta MAS-Orchestra, un marco de entrenamiento que optimiza la orquestación de sistemas multiagente mediante aprendizaje por refuerzo y abstracción funcional, junto con MASBENCH, una métrica controlada que demuestra que los beneficios de los sistemas multiagente dependen críticamente de la estructura de la tarea, logrando mejoras consistentes y una eficiencia superior a la de las bases de referencia existentes.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

El artículo presenta MeanCache, un marco de caché sin entrenamiento que acelera la inferencia de Flow Matching al utilizar velocidades promedio derivadas de productos Jacobiano-vector en lugar de velocidades instantáneas, logrando mejoras significativas en la velocidad y la calidad de generación en modelos como FLUX.1, Qwen-Image y HunyuanVideo.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

El artículo presenta BioAgent Bench, una suite de evaluación y conjunto de datos diseñado para medir el rendimiento y la robustez de agentes de IA en tareas bioinformáticas, revelando que, aunque los modelos avanzados pueden ejecutar pipelines complejos, sufiere fallos bajo perturbaciones y plantea dilemas de privacidad que favorecen el uso de modelos de pesos abiertos en entornos sensibles.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

El artículo presenta RedSage, un modelo de lenguaje abierto y localmente desplegable especializado en ciberseguridad que, gracias a un preentrenamiento con 11.8 mil millones de tokens y un ajuste fino mediante una pipeline de aumento agéntica, supera a los modelos base en benchmarks de ciberseguridad y razonamiento general, ofreciendo además un nuevo conjunto de evaluación llamado RedSage-Bench.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

Este trabajo presenta R2M, un marco de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) innovador que supera las limitaciones de la sobreoptimización de recompensas al alinear el modelo de recompensa con los cambios de distribución en tiempo real de la política mediante el uso de sus estados ocultos evolutivos, en lugar de depender únicamente de representaciones semánticas superficiales.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Este estudio evalúa el impacto del análisis de sentimiento de noticias basado en LLMs (DeBERTa, RoBERTa y FinBERT) en la predicción de movimientos del precio de las acciones, demostrando que DeBERTa supera a los otros modelos individuales y que un enfoque de ensamble alcanza una precisión del 80%, mejorando ligeramente el rendimiento de diversos arquitecturas de predicción.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudio demuestra que, en la detección de valores humanos a nivel de oración, la estructura de valores de orden superior de Schwartz funciona mejor como un sesgo inductivo que como una regla de enrutamiento rígida, siendo las mejoras más significativas obtenidas mediante técnicas de calibración y ensamble en lugar de arquitecturas jerárquicas complejas.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

El artículo presenta T2T, un marco de recompensa dinámica inspirado en el aprendizaje humano que mejora el razonamiento de los modelos de lenguaje mediante un mecanismo de doble fase que fomenta la exploración en intentos incorrectos y penaliza la redundancia una vez alcanzada la corrección, logrando un rendimiento superior en benchmarks matemáticos.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Este artículo presenta FSTab, un marco de ataque en caja negra que demuestra cómo las vulnerabilidades recurrentes en software generado por LLMs pueden predecirse a partir de características observables y evalúa la consistencia de estas fallas en modelos de última generación como GPT-5.2, Claude-4.5 Opus y Gemini-3 Pro, revelando un riesgo de seguridad significativo y transferible entre dominios.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

Semantic Search over 9 Million Mathematical Theorems

Este trabajo presenta un sistema de búsqueda semántica a escala web que, al indexar y recuperar 9,2 millones de teoremas matemáticos utilizando descripciones en lenguaje natural, mejora significativamente la precisión en la localización de resultados específicos en comparación con las herramientas tradicionales que solo recuperan documentos completos.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

El artículo presenta LMMRec, un marco de recomendación multimodal impulsado por modelos de lenguaje grande que utiliza técnicas de razonamiento y aprendizaje contrastivo para extraer y alinear motivaciones finas de usuarios y artículos a partir de texto y datos de interacción, logrando mejoras significativas en el rendimiento.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Este artículo presenta un marco de guía condicional para modelos de difusión bajo restricciones estrictas, basado en la transformada h de Doob y procesos de variación cuadrática, que permite estimar la corrección de deriva necesaria mediante algoritmos de aprendizaje fuera de política sin modificar la red de puntuación preentrenada, garantizando teóricamente la satisfacción de las condiciones y demostrando su eficacia en la generación de eventos raros.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs