ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

El artículo presenta ARLArena, un marco unificado para analizar la estabilidad en el aprendizaje por refuerzo agéntico (ARL), y propone SAMPO, un método de optimización que garantiza un entrenamiento estable y de alto rendimiento en diversas tareas.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Este artículo introduce el concepto de "investigación de ambiente" (vibe researching) mediante agentes de IA equipados con habilidades especializadas, argumentando que, aunque estos sistemas pueden automatizar gran parte del proceso investigativo, su delegación óptima depende de una frontera cognitiva basada en la codificabilidad y el conocimiento tácito, lo que plantea riesgos de estratificación y una crisis pedagógica que requieren principios de uso responsable.

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

El estudio descompone la discrepancia entre médicos en la evaluación de IA médica, revelando que la mayor parte de la varianza es estructural y no explicada por factores observables, aunque la incertidumbre reducible (como la falta de contexto) duplica las probabilidades de desacuerdo, lo que sugiere que mejorar el diseño de las evaluaciones para cerrar brechas de información podría reducir el conflicto en casos no inherentemente ambiguos.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

Este trabajo propone un enfoque de planificación generalizada que aprende modelos de transición explícitos mediante redes neuronales para predecir estados intermedios, logrando una mayor generalización fuera de distribución y una mayor eficiencia en el uso de muestras en comparación con los métodos actuales basados en Transformers que predicen secuencias de acciones directamente.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Este artículo presenta un enfoque para mejorar la relevancia de la búsqueda en la App Store mediante el uso de un modelo de lenguaje grande (LLM) especializado y ajustado para generar millones de etiquetas de relevancia textual, lo que permitió optimizar simultáneamente la relevancia conductual y textual, resultando en un aumento estadísticamente significativo del 0,24% en la tasa de conversión global y mejoras notables en consultas de cola.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Este artículo presenta Attn-QAT, el primer estudio sistemático de entrenamiento consciente de la cuantización (QAT) para atención a 4 bits, que logra una inferencia estable y rápida en GPUs FP4 mediante la corrección de la recomputación de precisión y los cálculos de gradiente, eliminando la necesidad de heurísticas para mitigar valores atípicos.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

Este trabajo presenta un marco reproducible y escalable para evaluar el razonamiento de modelos multimodales en señales de ECG, descomponiéndolo en percepción (verificación empírica de patrones mediante código) y deducción (alineación lógica con criterios clínicos estructurados) para superar las limitaciones de las métricas actuales.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Este artículo presenta un marco de predicción conforme que garantiza una cobertura segura para la extracción de entidades médicas mediante modelos de lenguaje grande, demostrando que la calibración de la confianza varía según el dominio clínico y requiriendo umbrales específicos para lograr una fiabilidad del 90% en etiquetas de la FDA y reportes de radiología.

Manil Shrestha, Edward Kim2026-03-10💬 cs.CL

Extended Empirical Validation of the Explainability Solution Space

Este informe técnico valida la generalidad del Espacio de Soluciones Explicables (ESS) mediante una evaluación transversal que incluye un sistema de asignación de recursos urbanos, demostrando que sus clasificaciones se adaptan sistemáticamente a diferentes roles de gobernanza y perfiles de riesgo más allá del dominio específico de la predicción de rotación de empleados.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell es un marco de agente automático que resuelve la heterogeneidad semántica y estadística en estudios de perturbación de células individuales mediante un unificador de metadatos impulsado por LLM y un motor de búsqueda adaptativa, logrando un rendimiento superior al de los diseños expertos sin necesidad de ingeniería específica por conjunto de datos.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs