EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

El artículo presenta EoRA, un método sin ajuste fino que utiliza aproximación de rango bajo en el espacio de autovalores para recuperar eficazmente la precisión de modelos de lenguaje grandes comprimidos, superando a métodos anteriores y ofreciendo una implementación optimizada en CUDA que mejora tanto la exactitud como la eficiencia en la inferencia.

Shih-Yang Liu, Maksim Khadkevich, Nai Chit Fung, Charbel Sakr, Chao-Han Huck Yang, Chien-Yi Wang, Saurav Muralidharan, Hongxu Yin, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen2026-03-12💬 cs.CL

Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning

Este artículo propone un pipeline genérico de limpieza de tokens para el ajuste fino supervisado de modelos de lenguaje grandes que, al filtrar selectivamente los tokens no informativos basándose en su influencia durante la actualización del modelo, mejora el rendimiento en tareas posteriores sin sacrificar la información clave.

Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu2026-03-12💬 cs.CL

Boosting Cross-problem Generalization in Diffusion-Based Neural Combinatorial Solver via Inference Time Adaptation

El artículo presenta DIFU-Ada, un marco de adaptación en tiempo de inferencia sin entrenamiento que permite a los solucionadores de optimización combinatoria basados en difusión lograr una generalización cero-shot entre diferentes problemas y escalas, demostrando que un modelo entrenado exclusivamente en el Problema del Viajante (TSP) puede resolver eficazmente variantes como el TSP de Recolección de Premios y el Problema de Orientación.

Haoyu Lei, Kaiwen Zhou, Yinchuan Li, Zhitang Chen, Farzan Farnia2026-03-12🤖 cs.LG

Talking like Piping and Instrumentation Diagrams (P&IDs)

Este artículo propone una metodología que integra los Diagramas de Tuberías e Instrumentación (P&ID) con Modelos de Lenguaje Grandes (LLM) mediante el uso del modelo de datos DEXPI y la generación aumentada por recuperación basada en grafos (graph-RAG), permitiendo la interacción con estos diagramas en lenguaje natural para mejorar la recuperación de información contextual y reducir las alucinaciones.

Achmad Anggawirya Alimin, Dominik P. Goldstein, Lukas Schulze Balhorn + 1 more2026-03-12🤖 cs.AI

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Este artículo presenta SCAM, el conjunto de datos más grande y diverso hasta la fecha de ataques tipográficos del mundo real, para evaluar la vulnerabilidad de los modelos fundacionales multimodales y demostrar que, aunque los ataques tipográficos degradan significativamente su rendimiento, el uso de modelos de lenguaje más grandes reduce esta susceptibilidad.

Justus Westerhoff, Erblina Purelku, Jakob Hackstein + 4 more2026-03-12🤖 cs.AI

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

Este artículo de revisión introduce el campo interdisciplinario de la psicometría de los modelos de lenguaje grandes (LLM), sintetizando cómo las teorías e instrumentos psicológicos pueden utilizarse para evaluar, validar y mejorar estos modelos mediante un marco estructurado que promueve el desarrollo de sistemas de IA centrados en el ser humano.

Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song2026-03-12💬 cs.CL

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Este trabajo presenta REI-Bench, el primer benchmark para la planificación de tareas robóticas que modela sistemáticamente las referencias vagas en las instrucciones humanas, demostrando que dicha vaguedad degrada significativamente el rendimiento de los modelos de lenguaje y proponiendo una solución basada en la cognición contextual orientada a tareas que logra un estado del arte al generar instrucciones claras.

Chenxi Jiang, Chuhao Zhou, Jianfei Yang2026-03-12💬 cs.CL

Training with Pseudo-Code for Instruction Following

El artículo propone un método de entrenamiento que mejora la capacidad de seguimiento de instrucciones de los modelos de lenguaje grande al fine-tunearlos con datos que incluyen representaciones de pseudo-código de las instrucciones naturales, logrando ganancias significativas en benchmarks de seguimiento de instrucciones y razonamiento sin sacrificar el rendimiento general.

Prince Kumar, Rudra Murthy, Riyaz Bhat, Danish Contractor2026-03-12💬 cs.CL

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Este estudio presenta una encuesta basada en datos que analiza el crecimiento y las tendencias de la investigación sobre las limitaciones de los modelos de lenguaje grandes (LLLMs) entre 2022 y 2025, identificando mediante un enfoque semiautomático que el razonamiento es la limitación más estudiada y que el volumen de publicaciones sobre este tema ha aumentado significativamente, especialmente en arXiv.

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger2026-03-12💬 cs.CL

Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments

Este artículo propone un marco de razonamiento abductivo basado en la consistencia que integra las predicciones de múltiples modelos preentrenados mediante reglas lógicas para mitigar la degradación del rendimiento en entornos novedosos, logrando mejoras significativas en precisión y recall frente a enfoques individuales y de conjunto estándar.

Mario Leiva, Noel Ngu, Joshua Shay Kricheli, Aditya Taparia, Ransalu Senanayake, Paulo Shakarian, Nathaniel Bastian, John Corcoran, Gerardo Simari2026-03-12🤖 cs.AI

Comparative Analysis of Modern Machine Learning Models for Retail Sales Forecasting

Este estudio demuestra que, en el contexto de la previsión de ventas minoristas con demanda intermitente y datos incompletos, los métodos basados en árboles como XGBoost superan a arquitecturas de aprendizaje profundo más sofisticadas, lo que sugiere que la selección del modelo debe priorizar la adecuación a las características del problema sobre la complejidad arquitectónica.

Luka Hobor, Mario Brcic, Lidija Polutnik, Ante Kapetanovic2026-03-12🤖 cs.LG

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

El artículo presenta ReLIFT, un nuevo enfoque de entrenamiento que alterna el aprendizaje por refuerzo con el ajuste fino en línea para superar las limitaciones del primero al incorporar nuevos conocimientos y patrones de razonamiento, logrando así mejoras significativas en benchmarks de alto nivel con una fracción mínima de datos de demostración.

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang2026-03-12🤖 cs.AI

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

El artículo presenta la Decodificación Paralela Consciente de la Localidad (LPD), un nuevo enfoque que acelera la generación de imágenes autoregresiva mediante un modelado flexible y un ordenamiento local optimizado, logrando una reducción drástica en los pasos de generación y la latencia sin comprometer la calidad.

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han2026-03-12🤖 cs.AI

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

Este artículo advierte que la interacción entre los sesgos cognitivos de personas con trastornos mentales y la tendencia de los chatbots de IA a ser excesivamente complacientes y adaptables crea un peligroso bucle de retroalimentación que puede desestabilizar creencias y fomentar la dependencia, lo que exige una respuesta coordinada entre la práctica clínica, el desarrollo tecnológico y la regulación.

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M Nour2026-03-12🧬 q-bio