cs.CL artículos | Gist.Science

Adaptive Social Learning via Mode Policy Optimization for Language Agents

Este artículo presenta ASL, un marco de aprendizaje social adaptativo que utiliza el algoritmo AMPO para optimizar la política de modos de razonamiento en agentes de lenguaje, logrando un mejor rendimiento y una mayor eficiencia en tokens mediante la adaptación dinámica de la profundidad del razonamiento según el contexto social.

Minzheng Wang, Yongbin Li, Haobo Wang + 6 more2026-03-04🤖 cs.AI

Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

Este artículo presenta "Talk-to-Your-Slides", un agente de edición de diapositivas de alta eficiencia que utiliza la manipulación de datos estructurados mediante lenguaje en lugar de la percepción visual, logrando una mayor velocidad, fidelidad y reducción de costos en comparación con los agentes basados en GUI, además de introducir el nuevo conjunto de datos TSBench para su evaluación.

Kyudan Jung, Hojun Cho, Jooyeol Yun + 3 more2026-03-04💬 cs.CL

Efficient Agent Training for Computer Use

El artículo presenta PC Agent-E, un marco de entrenamiento eficiente que, partiendo de solo 312 trayectorias humanas anotadas y enriqueciéndolas mediante síntesis con Claude 3.7 Sonnet, logra superar tanto a los modelos entrenados solo con datos humanos como al propio Claude 3.7 Sonnet en el nuevo benchmark WindowsAgentArena-V2.

Yanheng He, Jiahe Jin, Pengfei Liu2026-03-04🤖 cs.AI

REFLEX: Metacognitive Reasoning for Reflective Zero-Shot Robotic Planning with Large Language Models

El paper presenta REFLEX, un marco que integra el aprendizaje metacognitivo en modelos de lenguaje grandes para permitir que agentes robóticos descompongan habilidades, reflexionen sobre fallos y generen soluciones creativas en tareas de planificación sin demostraciones previas, superando significativamente a los enfoques existentes.

Wenjie Lin, Jin Wei-Kocsis, Jiansong Zhang + 4 more2026-03-04💬 cs.CL

BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage

El artículo presenta BitBypass, un nuevo ataque de jailbreak en caja negra que utiliza camuflaje de flujo de bits separado por guiones para eludir la alineación de seguridad de modelos de lenguaje avanzados, demostrando una mayor eficacia y sigilo que los métodos existentes.

Kalyan Nakka, Nitesh Saxena2026-03-04💬 cs.CL

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

DiaBlo es un método de ajuste fino eficiente en parámetros que actualiza únicamente los bloques diagonales de las matrices de peso, logrando una convergencia estable y un rendimiento competitivo comparable al ajuste completo sin depender de productos de matrices de bajo rango ni estrategias de inicialización auxiliares.

Selcuk Gurses, Aozhong Zhang, Yanxia Deng + 5 more2026-03-04🤖 cs.AI

Go-Browse: Training Web Agents with Structured Exploration

El artículo presenta Go-Browse, un método que utiliza una búsqueda gráfica estructurada para recopilar datos de exploración web a gran escala, permitiendo que un modelo de lenguaje de 7B parámetros supere a GPT-4o mini y establezca un nuevo estado del arte en el benchmark WebArena.

Apurva Gandhi, Graham Neubig2026-03-04💬 cs.CL

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Este trabajo presenta HSSBench, un nuevo benchmark multilingüe con más de 13.000 muestras generadas colaborativamente que evalúa la capacidad de los modelos de lenguaje grandes multimodales para realizar razonamiento interdisciplinario en humanidades y ciencias sociales, un área donde los modelos actuales muestran deficiencias significativas.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Search Arena: Analyzing Search-Augmented LLMs

Este trabajo presenta "Search Arena", un conjunto de datos masivo y de código abierto con más de 24,000 interacciones humanas para evaluar modelos de lenguaje aumentados con búsqueda, revelando que las preferencias de los usuarios a menudo se basan en la cantidad de citas más que en su veracidad y que la integración de búsqueda web mejora el rendimiento incluso en contextos no especializados.

Mihran Miroyan, Tsung-Han Wu, Logan King + 8 more2026-03-04💬 cs.CL

You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Models

Este artículo presenta ManyICL, un enfoque de ajuste fino en contexto con muchos ejemplos que utiliza un objetivo de entrenamiento novedoso para tratar cada respuesta en el contexto como un objetivo supervisado, logrando así un rendimiento cercano al ajuste fino dedicado y mitigando el olvido catastrófico en modelos de lenguaje grandes.

Wenchong He, Liqian Peng, Zhe Jiang + 1 more2026-03-04🤖 cs.AI

LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Este artículo introduce el "Factor de Ramificación" (BF) como métrica para demostrar que la alineación de los modelos de lenguaje reduce drásticamente la diversidad de sus salidas al concentrar las probabilidades en trayectorias de baja entropía, un efecto que también explica la estabilidad de las cadenas de pensamiento y que puede replicarse en modelos base mediante el uso de tokens estilísticos específicos.

Chenghao Yang, Sida Li, Ari Holtzman2026-03-04🤖 cs.AI

LEDOM: Reverse Language Model

El artículo presenta LEDOM, un modelo de lenguaje autoregresivo invertido que, al entrenarse de derecha a izquierda, desarrolla capacidades de razonamiento únicas y mejora el rendimiento en tareas matemáticas mediante una estrategia de recompensa inversa que combina probabilidades forward y backward para penalizar las alucinaciones.

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

El artículo presenta Skywork-Reward-V2, una serie de modelos de recompensa de código abierto que alcanzan el estado del arte en múltiples benchmarks gracias al entrenamiento con SynPref-40M, un conjunto de datos masivo de 40 millones de pares de preferencias curado mediante una sinergia escalable entre anotación humana y automatización por IA.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

Este trabajo presenta un marco de simulación de encuestadores virtuales que utiliza grandes modelos de lenguaje para generar y validar ítems de encuestas psicológicas mediante la modelación de mediadores de rasgos, logrando así una identificación eficiente y rentable de ítems de alta validez constructiva.

Sungjib Lim, Woojung Song, Eun-Ju Lee + 1 more2026-03-04💬 cs.CL

Not All Errors Are Created Equal: ASCoT Addresses Late-Stage Fragility in Efficient LLM Reasoning

El método ASCoT aborda la fragilidad de las etapas tardías en el razonamiento de los modelos de lenguaje grandes mediante la poda semántica y una verificación adaptativa, logrando una reducción significativa en el uso de tokens con una caída mínima en la precisión.

Dongxu Zhang, Yujun Wu, Yiding Sun + 5 more2026-03-04💬 cs.CL

Link Prediction for Event Logs in the Process Industry

Este trabajo presenta un modelo de vinculación de registros que adapta tareas de procesamiento de lenguaje natural para resolver la fragmentación en los libros de turnos de la industria de procesos alemana, mejorando significativamente la calidad de los datos y la recuperación de conocimientos mediante la predicción de enlaces.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

Este estudio demuestra que es posible predecir con notable precisión la calidad de la traducción automática de GPT-4o en 203 idiomas utilizando únicamente características como la fertilidad de los tokens y metadatos lingüísticos, sin necesidad de ejecutar el sistema de traducción.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

El estudio demuestra que la ineficiencia en la tokenización de lenguas africanas impone un "impuesto de tokens" que reduce la precisión y aumenta los costos computacionales, aunque los modelos de razonamiento logran mitigar parcialmente estas disparidades.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Este trabajo demuestra que es posible predecir la precisión de las respuestas de los LLMs y su nivel de confianza analizando únicamente las activaciones internas tras la lectura de la pregunta pero antes de generar cualquier respuesta, revelando un "vector de corrección anticipada" que generaliza en diversos dominios, aunque falla en tareas de razonamiento matemático.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

Este trabajo propone un método de filtrado de datos basado en priores de corpus que, al sustituir el costoso cálculo de perplejidad por estadísticas de frecuencia de términos, logra un rendimiento superior en múltiples benchmarks con una reducción de tiempo de más de 1000 veces.

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

← Anterior Siguiente →