Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

Este artículo de revisión introduce el campo interdisciplinario de la psicometría de los modelos de lenguaje grandes (LLM), sintetizando cómo las teorías e instrumentos psicológicos pueden utilizarse para evaluar, validar y mejorar estos modelos mediante un marco estructurado que promueve el desarrollo de sistemas de IA centrados en el ser humano.

Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song2026-03-12💬 cs.CL

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Este trabajo presenta REI-Bench, el primer benchmark para la planificación de tareas robóticas que modela sistemáticamente las referencias vagas en las instrucciones humanas, demostrando que dicha vaguedad degrada significativamente el rendimiento de los modelos de lenguaje y proponiendo una solución basada en la cognición contextual orientada a tareas que logra un estado del arte al generar instrucciones claras.

Chenxi Jiang, Chuhao Zhou, Jianfei Yang2026-03-12💬 cs.CL

Training with Pseudo-Code for Instruction Following

El artículo propone un método de entrenamiento que mejora la capacidad de seguimiento de instrucciones de los modelos de lenguaje grande al fine-tunearlos con datos que incluyen representaciones de pseudo-código de las instrucciones naturales, logrando ganancias significativas en benchmarks de seguimiento de instrucciones y razonamiento sin sacrificar el rendimiento general.

Prince Kumar, Rudra Murthy, Riyaz Bhat, Danish Contractor2026-03-12💬 cs.CL

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Este estudio presenta una encuesta basada en datos que analiza el crecimiento y las tendencias de la investigación sobre las limitaciones de los modelos de lenguaje grandes (LLLMs) entre 2022 y 2025, identificando mediante un enfoque semiautomático que el razonamiento es la limitación más estudiada y que el volumen de publicaciones sobre este tema ha aumentado significativamente, especialmente en arXiv.

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger2026-03-12💬 cs.CL

Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments

Este artículo propone un marco de razonamiento abductivo basado en la consistencia que integra las predicciones de múltiples modelos preentrenados mediante reglas lógicas para mitigar la degradación del rendimiento en entornos novedosos, logrando mejoras significativas en precisión y recall frente a enfoques individuales y de conjunto estándar.

Mario Leiva, Noel Ngu, Joshua Shay Kricheli, Aditya Taparia, Ransalu Senanayake, Paulo Shakarian, Nathaniel Bastian, John Corcoran, Gerardo Simari2026-03-12🤖 cs.AI

Comparative Analysis of Modern Machine Learning Models for Retail Sales Forecasting

Este estudio demuestra que, en el contexto de la previsión de ventas minoristas con demanda intermitente y datos incompletos, los métodos basados en árboles como XGBoost superan a arquitecturas de aprendizaje profundo más sofisticadas, lo que sugiere que la selección del modelo debe priorizar la adecuación a las características del problema sobre la complejidad arquitectónica.

Luka Hobor, Mario Brcic, Lidija Polutnik, Ante Kapetanovic2026-03-12🤖 cs.LG

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

El artículo presenta ReLIFT, un nuevo enfoque de entrenamiento que alterna el aprendizaje por refuerzo con el ajuste fino en línea para superar las limitaciones del primero al incorporar nuevos conocimientos y patrones de razonamiento, logrando así mejoras significativas en benchmarks de alto nivel con una fracción mínima de datos de demostración.

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang2026-03-12🤖 cs.AI

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

El artículo presenta la Decodificación Paralela Consciente de la Localidad (LPD), un nuevo enfoque que acelera la generación de imágenes autoregresiva mediante un modelado flexible y un ordenamiento local optimizado, logrando una reducción drástica en los pasos de generación y la latencia sin comprometer la calidad.

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han2026-03-12🤖 cs.AI

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

Este artículo advierte que la interacción entre los sesgos cognitivos de personas con trastornos mentales y la tendencia de los chatbots de IA a ser excesivamente complacientes y adaptables crea un peligroso bucle de retroalimentación que puede desestabilizar creencias y fomentar la dependencia, lo que exige una respuesta coordinada entre la práctica clínica, el desarrollo tecnológico y la regulación.

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M Nour2026-03-12🧬 q-bio

Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

Este artículo expone por primera vez los riesgos de privacidad en la caché KV de los modelos de lenguaje grandes, demostrando cómo un atacante puede reconstruir entradas sensibles mediante tres vectores de ataque, y propone KV-Cloak, un mecanismo de defensa ligero y reversible que elimina estas vulnerabilidades sin degradar el rendimiento ni la precisión del modelo.

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin2026-03-12💬 cs.CL

The Yokai Learning Environment: Tracking Beliefs Over Space and Time

Este artículo presenta el Entorno de Aprendizaje Yokai (YLE), un nuevo benchmark de código abierto para la coordinación cero-shot que supera las limitaciones del entorno Hanabi al requerir que los agentes cooperen mediante el seguimiento de creencias sobre cartas móviles y el razonamiento bajo pistas ambiguas, revelando así que los métodos de vanguardia que dominan Hanabi fallan en mantener modelos internos consistentes con socios desconocidos en este nuevo entorno.

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas Bulling2026-03-12🤖 cs.AI

Global Minimizers of Sigmoid Contrastive Loss

Este artículo explica teóricamente las ventajas de sincronizar la temperatura inversa y el sesgo entrenables en la pérdida de contraste sigmoidea, introduciendo el concepto de "Constelaciones" para justificar el éxito de SigLIP, explicar la brecha modal observada en modelos como CLIP y SigLIP, y determinar la dimensión necesaria para generar representaciones de alta calidad.

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

El artículo presenta RADAR, un marco de enrutamiento ligero e interpretable que optimiza el equilibrio entre rendimiento y coste en modelos de razonamiento asignando dinámicamente consultas de mayor dificultad a pares de modelo-presupuesto con mayor capacidad, basándose en un modelo de respuesta a ítems inspirado en la psicometría.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang2026-03-12🤖 cs.AI