Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

Este artículo presenta "Talk-to-Your-Slides", un agente de edición de diapositivas de alta eficiencia que utiliza la manipulación de datos estructurados mediante lenguaje en lugar de la percepción visual, logrando una mayor velocidad, fidelidad y reducción de costos en comparación con los agentes basados en GUI, además de introducir el nuevo conjunto de datos TSBench para su evaluación.

Kyudan Jung, Hojun Cho, Jooyeol Yun + 3 more2026-03-04💬 cs.CL

REFLEX: Metacognitive Reasoning for Reflective Zero-Shot Robotic Planning with Large Language Models

El paper presenta REFLEX, un marco que integra el aprendizaje metacognitivo en modelos de lenguaje grandes para permitir que agentes robóticos descompongan habilidades, reflexionen sobre fallos y generen soluciones creativas en tareas de planificación sin demostraciones previas, superando significativamente a los enfoques existentes.

Wenjie Lin, Jin Wei-Kocsis, Jiansong Zhang + 4 more2026-03-04💬 cs.CL

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Este trabajo presenta HSSBench, un nuevo benchmark multilingüe con más de 13.000 muestras generadas colaborativamente que evalúa la capacidad de los modelos de lenguaje grandes multimodales para realizar razonamiento interdisciplinario en humanidades y ciencias sociales, un área donde los modelos actuales muestran deficiencias significativas.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Search Arena: Analyzing Search-Augmented LLMs

Este trabajo presenta "Search Arena", un conjunto de datos masivo y de código abierto con más de 24,000 interacciones humanas para evaluar modelos de lenguaje aumentados con búsqueda, revelando que las preferencias de los usuarios a menudo se basan en la cantidad de citas más que en su veracidad y que la integración de búsqueda web mejora el rendimiento incluso en contextos no especializados.

Mihran Miroyan, Tsung-Han Wu, Logan King + 8 more2026-03-04💬 cs.CL

LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Este artículo introduce el "Factor de Ramificación" (BF) como métrica para demostrar que la alineación de los modelos de lenguaje reduce drásticamente la diversidad de sus salidas al concentrar las probabilidades en trayectorias de baja entropía, un efecto que también explica la estabilidad de las cadenas de pensamiento y que puede replicarse en modelos base mediante el uso de tokens estilísticos específicos.

Chenghao Yang, Sida Li, Ari Holtzman2026-03-04🤖 cs.AI

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Este trabajo demuestra que es posible predecir la precisión de las respuestas de los LLMs y su nivel de confianza analizando únicamente las activaciones internas tras la lectura de la pregunta pero antes de generar cualquier respuesta, revelando un "vector de corrección anticipada" que generaliza en diversos dominios, aunque falla en tareas de razonamiento matemático.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL