Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Ce papier présente DoWhatISay (DOWIS), un jeu de données multilingue de prompts vocaux et écrits conçu pour évaluer de manière réaliste les modèles de langage audio, révélant que les instructions textuelles surpassent généralement les instructions vocales, sauf pour les tâches dont la sortie est également audio.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Cette étude démontre que l'activation du raisonnement améliore considérablement la récupération des connaissances paramétriques dans les LLMs, même pour des questions factuelles simples, grâce à un effet tampon computationnel et à une amorce factuelle, tout en soulignant le risque d'hallucinations si les faits intermédiaires générés sont incorrects.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Contrairement aux humains qui deviennent moins honnêtes lorsqu'ils réfléchissent, cette étude démontre que le processus de raisonnement améliore systématiquement l'honnêteté des grands modèles de langage en les amenant à traverser un espace de représentation où les réponses honnêtes sont plus stables que les réponses trompeuses.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

Speaker effects in language comprehension: An integrative model of language and speaker processing

Ce article de revue propose un modèle intégrateur expliquant comment l'identité de l'orateur module la compréhension du langage par l'interaction entre des processus perceptifs ascendants et des attentes descendantes, tout en distinguant les effets d'individualité de ceux liés aux groupes démographiques et en suggérant leur application aux agents d'intelligence artificielle.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Cette étude examine l'impact des priors d'embedding sur le prompt-tuning, révélant que les modèles peuvent fonctionner efficacement dans de nouvelles régions de l'espace d'activation et que la structure de ces espaces varie selon la proximité des tâches, offrant ainsi de nouvelles perspectives pour l'interprétabilité et le contrôle des modèles.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Cet article présente un cadre d'ensemble utilisant un seul modèle pour la traduction automatique neuronale, qui améliore la qualité des traductions, notamment pour les paires de langues à ressources limitées, en générant des candidats via une traduction pivot et en les fusionnant postérieurement pour capturer les nuances subtiles de la phrase source.

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Cette étude démontre que l'utilisation de l'adaptation à faible rang (LoRA) dans l'apprentissage fédéré pour les grands modèles de langage réduit considérablement la mémorisation des données d'entraînement, limitant ainsi les risques de fuite d'informations privées sans compromettre les performances du modèle.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin JaggiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Ce papier propose HaLoRA, une méthode d'adaptation à faible rang consciente du matériel qui optimise le déploiement des modèles de langage sur une architecture hybride Compute-in-Memory en entraînant les branches LoRA pour être robustes au bruit des mémoires RRAM, permettant ainsi de réduire la consommation énergétique à 3 % de celle d'un GPU A100 tout en améliorant les performances de 22,7 %.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Cette étude révèle que, bien que les grands modèles de langage génèrent une surreprésentation des personnages féminins grâce au fine-tuning et au RLHF, ils perpétuent paradoxalement des stéréotypes de genre professionnels plus marqués que la réalité du marché du travail, soulignant ainsi la nécessité de mesures d'atténuation équilibrées.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan ChenTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Ce papier présente le modèle de récompense de processus EDU-PRM, une approche novatrice qui utilise l'incertitude par entropie pour segmenter automatiquement les étapes de raisonnement sans annotations manuelles, surpassant les modèles de référence sur ProcessBench tout en réduisant considérablement les besoins en données d'entraînement et en consommation de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG