cs.AI artículos | Gist.Science

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Este trabajo presenta REI-Bench, el primer benchmark para la planificación de tareas robóticas que modela sistemáticamente las referencias vagas en las instrucciones humanas, demostrando que dicha vaguedad degrada significativamente el rendimiento de los modelos de lenguaje y proponiendo una solución basada en la cognición contextual orientada a tareas que logra un estado del arte al generar instrucciones claras.

Chenxi Jiang, Chuhao Zhou, Jianfei Yang2026-03-12💬 cs.CL

Training with Pseudo-Code for Instruction Following

El artículo propone un método de entrenamiento que mejora la capacidad de seguimiento de instrucciones de los modelos de lenguaje grande al fine-tunearlos con datos que incluyen representaciones de pseudo-código de las instrucciones naturales, logrando ganancias significativas en benchmarks de seguimiento de instrucciones y razonamiento sin sacrificar el rendimiento general.

Prince Kumar, Rudra Murthy, Riyaz Bhat, Danish Contractor2026-03-12💬 cs.CL

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Este estudio presenta una encuesta basada en datos que analiza el crecimiento y las tendencias de la investigación sobre las limitaciones de los modelos de lenguaje grandes (LLLMs) entre 2022 y 2025, identificando mediante un enfoque semiautomático que el razonamiento es la limitación más estudiada y que el volumen de publicaciones sobre este tema ha aumentado significativamente, especialmente en arXiv.

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger2026-03-12💬 cs.CL

Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments

Este artículo propone un marco de razonamiento abductivo basado en la consistencia que integra las predicciones de múltiples modelos preentrenados mediante reglas lógicas para mitigar la degradación del rendimiento en entornos novedosos, logrando mejoras significativas en precisión y recall frente a enfoques individuales y de conjunto estándar.

Mario Leiva, Noel Ngu, Joshua Shay Kricheli, Aditya Taparia, Ransalu Senanayake, Paulo Shakarian, Nathaniel Bastian, John Corcoran, Gerardo Simari2026-03-12🤖 cs.AI

Comparative Analysis of Modern Machine Learning Models for Retail Sales Forecasting

Este estudio demuestra que, en el contexto de la previsión de ventas minoristas con demanda intermitente y datos incompletos, los métodos basados en árboles como XGBoost superan a arquitecturas de aprendizaje profundo más sofisticadas, lo que sugiere que la selección del modelo debe priorizar la adecuación a las características del problema sobre la complejidad arquitectónica.

Luka Hobor, Mario Brcic, Lidija Polutnik, Ante Kapetanovic2026-03-12🤖 cs.LG

Self-Improving Loops for Visual Robotic Planning

El artículo presenta SILVR, un marco que permite a los modelos de video generativos mejorar continuamente su planificación robótica en línea mediante la iteración sobre trayectorias auto-generadas, logrando un alto rendimiento en tareas nuevas sin depender de recompensas humanas ni demostraciones expertas.

Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun2026-03-12🤖 cs.AI

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

El artículo presenta ReLIFT, un nuevo enfoque de entrenamiento que alterna el aprendizaje por refuerzo con el ajuste fino en línea para superar las limitaciones del primero al incorporar nuevos conocimientos y patrones de razonamiento, logrando así mejoras significativas en benchmarks de alto nivel con una fracción mínima de datos de demostración.

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang2026-03-12🤖 cs.AI

Differential Privacy in Machine Learning: A Survey from Symbolic AI to LLMs

Esta encuesta revisa la evolución de la privacidad diferencial desde sus fundamentos teóricos hasta su integración en modelos de aprendizaje automático, abarcando desde la IA simbólica hasta los grandes modelos de lenguaje, con el fin de ofrecer una visión integral para el desarrollo de sistemas de IA seguros y responsables.

Francisco Aguilera-Martínez, Fernando Berzal2026-03-12🤖 cs.AI

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

El artículo presenta la Decodificación Paralela Consciente de la Localidad (LPD), un nuevo enfoque que acelera la generación de imágenes autoregresiva mediante un modelado flexible y un ordenamiento local optimizado, logrando una reducción drástica en los pasos de generación y la latencia sin comprometer la calidad.

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han2026-03-12🤖 cs.AI

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

Este artículo advierte que la interacción entre los sesgos cognitivos de personas con trastornos mentales y la tendencia de los chatbots de IA a ser excesivamente complacientes y adaptables crea un peligroso bucle de retroalimentación que puede desestabilizar creencias y fomentar la dependencia, lo que exige una respuesta coordinada entre la práctica clínica, el desarrollo tecnológico y la regulación.

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M Nour2026-03-12🧬 q-bio

What Makes Code Generation Ethically Sourced?

Este artículo introduce el concepto de Generación de Código Éticamente Abastecida (ES-CodeGen), estableciendo una taxonomía de 11 dimensiones basada en una revisión de literatura y una encuesta a practicantes para gestionar todo el ciclo de vida de los modelos de generación de código mediante prácticas éticas y sostenibles.

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei Tan2026-03-12🤖 cs.AI

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

El artículo presenta IntrinsicWeather, un marco basado en difusión que edita condiciones climáticas de forma controlada en el espacio intrínseco mediante la estimación de mapas de material, geometría y luz, superando a los métodos existentes y ofreciendo mejoras para tareas como la conducción autónoma.

Yixin Zhu, Zuo-Liang Zhu, Jian Yang + 3 more2026-03-12🤖 cs.AI

Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

Este artículo expone por primera vez los riesgos de privacidad en la caché KV de los modelos de lenguaje grandes, demostrando cómo un atacante puede reconstruir entradas sensibles mediante tres vectores de ataque, y propone KV-Cloak, un mecanismo de defensa ligero y reversible que elimina estas vulnerabilidades sin degradar el rendimiento ni la precisión del modelo.

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin2026-03-12💬 cs.CL

The Yokai Learning Environment: Tracking Beliefs Over Space and Time

Este artículo presenta el Entorno de Aprendizaje Yokai (YLE), un nuevo benchmark de código abierto para la coordinación cero-shot que supera las limitaciones del entorno Hanabi al requerir que los agentes cooperen mediante el seguimiento de creencias sobre cartas móviles y el razonamiento bajo pistas ambiguas, revelando así que los métodos de vanguardia que dominan Hanabi fallan en mantener modelos internos consistentes con socios desconocidos en este nuevo entorno.

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas Bulling2026-03-12🤖 cs.AI

From Next Token Prediction to (STRIPS) World Models

Este estudio demuestra que tanto un modelo Transformer simbólico (STRIPS Transformer) como un Transformer estándar con atención de ruptura de palos (stick-breaking) pueden aprender modelos de mundo STRIPS a partir de trazas de acciones para habilitar la planificación en dominios simbólicos, aunque el enfoque estándar logra una generalización superior con menos datos.

Carlos Núñez-Molina, Vicenç Gómez, Hector Geffner2026-03-12🤖 cs.AI

Global Minimizers of Sigmoid Contrastive Loss

Este artículo explica teóricamente las ventajas de sincronizar la temperatura inversa y el sesgo entrenables en la pérdida de contraste sigmoidea, introduciendo el concepto de "Constelaciones" para justificar el éxito de SigLIP, explicar la brecha modal observada en modelos como CLIP y SigLIP, y determinar la dimensión necesaria para generar representaciones de alta calidad.

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

El artículo presenta RADAR, un marco de enrutamiento ligero e interpretable que optimiza el equilibrio entre rendimiento y coste en modelos de razonamiento asignando dinámicamente consultas de mayor dificultad a pares de modelo-presupuesto con mayor capacidad, basándose en un modelo de respuesta a ítems inspirado en la psicometría.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang2026-03-12🤖 cs.AI

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

El artículo "BiasBusters" presenta un nuevo benchmark para evaluar y mitigar el sesgo en la selección de herramientas por parte de modelos de lenguaje grandes, demostrando que factores como la alineación semántica, el orden de presentación y la exposición previa en el entrenamiento influyen significativamente en la elección injusta de proveedores, y propone una estrategia ligera de filtrado y muestreo uniforme para reducir dicho sesgo.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

MonitorVLM es un marco de visión y lenguaje innovador que utiliza un conjunto de datos específico del sector minero, un filtro de cláusulas y un amplificador de comportamiento para detectar automáticamente violaciones de seguridad en videos de vigilancia, superando significativamente a los modelos de referencia y mejorando la seguridad laboral en operaciones mineras.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Este artículo presenta la primera evaluación sistemática del aprendizaje auto-supervisado para la estadificación del sueño con EEG portátil, demostrando que este enfoque supera a los modelos supervisados y a las redes neuronales de propósito general al lograr una precisión clínica con solo un 5% al 10% de datos etiquetados.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

← Anterior Siguiente →