MERIT Feedback Elicits Better Bargaining in LLM Negotiators

El artículo presenta un marco centrado en la retroalimentación de utilidad que incluye el nuevo benchmark AgoraBench, métricas alineadas con la teoría económica y una metodología de aprendizaje basada en preferencias humanas, logrando mejorar significativamente la capacidad de negociación estratégica y la adaptación a factores humanos de los modelos de lenguaje grande.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

El artículo presenta SWE-MiniSandbox, un método ligero y sin contenedores que utiliza mecanismos a nivel de kernel y técnicas de precaché para reducir drásticamente el uso de disco y el tiempo de preparación de entornos en el entrenamiento de agentes de ingeniería de software mediante aprendizaje por refuerzo, manteniendo al mismo tiempo un rendimiento comparable al de las pipelines basadas en contenedores.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Este artículo presenta una fórmula de puntuación "pico + acumulación" que, sin utilizar un LLM, detecta eficazmente inyecciones de prompts de múltiples turnos al combinar el riesgo máximo por turno, la persistencia y la diversidad de categorías, logrando un 90,8% de recuperación con una tasa de falsos positivos del 1,20% en un conjunto de datos de más de 10.000 conversaciones.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artículo examina cómo la búsqueda de un "ground truth" en la anotación de datos ignora la subjetividad humana y la diversidad cultural, proponiendo en su lugar infraestructuras pluralistas que valoren el desacuerdo como una señal esencial para construir modelos más competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudio presenta AHSIV, un marco de selección de modelos adaptativo que aborda la inestabilidad en la clasificación de pronósticos causada por el horizonte temporal y la variabilidad de la demanda, integrando métricas de error ajustadas y clasificación estructural para optimizar la toma de decisiones operativas y estratégicas en entornos comerciales complejos.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

El artículo presenta IntelliAsk, un modelo entrenado mediante optimización por refuerzo con verificación de recompensas (RLVR) y una nueva función de recompensa llamada IntelliReward, que genera preguntas de revisión de investigación de alta calidad, fundamentadas y sustanciales, superando a los modelos de línea base y demostrando mejoras en benchmarks de razonamiento y escritura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Este artículo presenta resultados empíricos de una implementación en C++ de un sustrato de estado semántico determinista, denominado Compute ICE-AGE, que demuestra una latencia de recorrido invariante y un consumo de recursos estable en entornos de escala masiva (hasta 25 millones de nodos), logrando una eficiencia termodinámica superior a las arquitecturas de inferencia probabilística al depender de la capacidad de memoria en lugar del volumen de tokens.

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

El artículo presenta FLoRG, un marco de aprendizaje federado que optimiza el ajuste fino de modelos de lenguaje mediante la agregación de matrices Gram de baja rango y alineación Procrustes, logrando así una mayor precisión en tareas, una reducción significativa de la sobrecarga de comunicación y una convergencia teórica mejorada al eliminar errores de agregación y deriva de descomposición.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

El documento presenta CoME, una arquitectura de agentes móviles que utiliza expertos especializados y un entrenamiento progresivo junto con una estrategia Info-DPO para mejorar el razonamiento híbrido y superar a los métodos existentes en conjuntos de datos como AITZ y AMEX.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Este trabajo propone una descomposición funcional de anillo tensorial reparametrizada que utiliza representaciones neuronales implícitas y un análisis en el dominio de la frecuencia para superar las limitaciones de los métodos tradicionales, logrando así una recuperación superior de datos multidimensionales tanto en mallas como fuera de ellas.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

Este estudio revela una desalineación significativa entre el desarrollo de agentes de IA, centrado en tareas de programación, y la distribución real del trabajo humano y el valor económico en EE. UU., proponiendo nuevos principios para crear benchmarks más representativos y útiles.

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

El artículo presenta MERA, un marco novedoso que combina la recuperación aumentada con una mezcla de expertos multimodal y una fusión basada en la teoría de la evidencia de Dempster-Shafer para lograr un estado del arte en la identificación precisa de sitios activos de proteínas a nivel de residuo.

Jiayang Wu, Jiale Zhou, Rubo Wang, Xingyi Zhang, Xun Lin, Tianxu Lv, Leong Hou U, Yefeng Zheng2026-03-09🤖 cs.AI

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

Este artículo presenta CLEO, un sistema de colaboración creativa humano-agente que mejora la conciencia contextual al interpretar las acciones concurrentes de los usuarios en tiempo real, y propone un modelo de decisión basado en estudios empíricos que define cuándo delegar, dirigir o trabajar simultáneamente.

Kihoon Son, Hyewon Lee, DaEun Choi, Yoonsu Kim, Tae Soo Kim, Yoonjoo Lee, John Joon Young Chung, HyunJoon Jung, Juho Kim2026-03-09🤖 cs.AI