cs.CL artículos | Gist.Science

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

El artículo presenta DoWhatISay (DOWIS), un dataset multilingüe de instrucciones habladas y escritas diseñado para evaluar de manera realista a los modelos de lenguaje grandes de voz, revelando que las instrucciones textuales superan a las habladas en la mayoría de los casos, excepto en tareas con salida de voz.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Este estudio demuestra que los modelos de lenguaje de vanguardia, especialmente Claude, superan en persuasión política a la publicidad electoral tradicional y que la eficacia de las estrategias de generación de contenido varía significativamente según el modelo, estableciendo un nuevo marco para evaluar los riesgos persuasivos de estas tecnologías.

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

El artículo presenta MSSR, un marco de repetición de experiencias que estima la fuerza de la memoria a nivel de muestra y programa ensayos en intervalos adaptativos para mitigar el olvido catastrófico y mantener una adaptación rápida durante el ajuste fino continuo de modelos de lenguaje grandes.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan ZhaWed, 11 Ma🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

El estudio revela que habilitar el razonamiento en modelos de lenguaje mejora la recuperación de conocimientos paramétricos en preguntas factuales simples mediante dos mecanismos: un efecto de búfer computacional y una primación factual, aunque advierte que la generación de hechos intermedios alucinatorios puede aumentar las alucinaciones finales, lo que sugiere priorizar trayectorias de razonamiento libres de errores para mejorar la precisión.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Esta encuesta presenta una revisión exhaustiva del paradigma de fusión de modelos en la era de los grandes modelos de lenguaje, estructurada bajo la taxonomía FUSE (Fundamentos, Estrategias de Unificación, Escenarios y Ecosistema) para analizar sus métodos teóricos, algoritmos, aplicaciones prácticas y desafíos futuros.

Mingyang Song, Mao ZhengWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

El estudio demuestra que, a diferencia de los humanos, el razonamiento en los modelos de lenguaje grandes aumenta consistentemente la honestidad al navegar por un espacio de representación donde las respuestas engañosas son inestables y las honestas son más robustas.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

El artículo presenta CREATE, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento asociativo creativo de los modelos de lenguaje mediante la generación de conexiones diversas y específicas entre conceptos, demostrando que incluso los modelos más avanzados tienen dificultades para saturar esta tarea compleja.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

El artículo presenta Llama-Mob, un modelo de lenguaje grande (Llama-3-8B) ajustado mediante instrucciones que supera a los métodos actuales en la predicción de movilidad urbana a largo plazo y demuestra una fuerte capacidad de generalización cero-shot entre diferentes ciudades.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru SezakiTue, 10 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Este artículo propone un modelo integrador que explica cómo la identidad del hablante modula la comprensión del lenguaje mediante la interacción de procesos perceptivos basados en la memoria y expectativas superiores, distinguiendo entre efectos de familiaridad individual y de grupos demográficos, y sugiriendo su aplicación en el desarrollo del lenguaje, la cognición social y la interacción con agentes de inteligencia artificial.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Este artículo presenta un cuello de botella discreto clave-valor (DKVB) para modelos de lenguaje pequeños que facilita el aprendizaje continuo eficiente, mitigando el olvido catastrófico mediante actualizaciones localizadas y una inicialización independiente de la tarea, logrando un rendimiento competitivo con menores costos computacionales incluso en escenarios sin identificación de tarea.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

El artículo presenta HarmonicEval, una métrica de evaluación automática sin referencia que genera puntuaciones integrales y por criterio mediante un enfoque ascendente, y introduce el benchmark MMHE con 18.000 juicios humanos para demostrar su superior correlación con la evaluación humana en escenarios multimodales y multitarea.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Este trabajo investiga el papel del colapso de embeddings en el Prompt-Tuning, demostrando que los priors de embeddings influyen significativamente en la posición de los embeddings ajustados y que las capacidades de generalización de los modelos de lenguaje pueden funcionar en regiones activas diversas y no necesariamente localizadas en un único clúster.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Este artículo presenta un marco de ensamblaje basado en un único modelo que mejora la traducción automática neuronal para pares de idiomas de recursos limitados mediante la generación de candidatos a través de traducción pivote y su posterior agregación para obtener una traducción final de mayor calidad.

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Este estudio presenta GRADIEND, un enfoque novedoso que utiliza gradientes de modelos para identificar y reescribir neuronas específicas con el fin de eliminar sesgos sociales como género, raza y religión, manteniendo al mismo tiempo las capacidades generales del modelo.

Jonathan Drechsel, Steffen HerboldTue, 10 Ma🤖 cs.LG

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Este trabajo demuestra que el uso de Low-Rank Adaptation (LoRA) en el aprendizaje federado para modelos de lenguaje grandes reduce significativamente la memorización no deseada de datos de entrenamiento, mejorando la privacidad sin sacrificar el rendimiento en diversos dominios de alto riesgo.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin JaggiTue, 10 Ma🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

El artículo presenta LaVCa, un enfoque basado en modelos de lenguaje grande que genera descripciones en lenguaje natural de la selectividad de los voxels en la corteza visual, superando a los métodos anteriores al revelar propiedades funcionales más detalladas y diferenciaciones finas en el procesamiento visual humano.

Takuya Matsuyama, Shinji Nishimoto, Yu TakagiTue, 10 Ma🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

El artículo presenta el marco COD (Clustering-On-Difficulty), que agrupa tareas por sus características de dificultad para predecir con alta precisión el rendimiento a escala de los modelos de lenguaje grandes, logrando un error promedio de solo 1,55 % en ocho benchmarks clave.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang LiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

El artículo presenta HaLoRA, un método de adaptación de bajo rango consciente del hardware que combina arquitecturas de memoria de computación híbrida (RRAM para pesos preentrenados y SRAM para ramas LoRA) con una pérdida de entrenamiento específica para mitigar el ruido de la RRAM, logrando una reducción del 97% en el consumo energético y mejoras significativas en el rendimiento en tareas de razonamiento.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Este estudio revela que, aunque los Grandes Modelos de Lenguaje (LLM) tienden a sobrerrepresentar a las mujeres en sus historias generadas debido al ajuste fino y al aprendizaje por refuerzo, paradójicamente siguen asignándoles roles ocupacionales que reflejan estereotipos de género más que la realidad laboral actual.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan ChenTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG

← Anterior Siguiente →