Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Die Arbeit stellt mit DoWhatISay (DOWIS) ein multilinguales Datenset aus gesprochener und geschriebener Sprache vor, um Sprach-große Sprachmodelle (SLLMs) realistischer zu evaluieren und zeigt, dass gesprochene Prompts im Vergleich zu Textprompts oft schlechter abschneiden, es sei denn, die Ausgabe ist ebenfalls sprachbasiert.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Die Studie zeigt, dass das Aktivieren von Reasoning in LLMs auch bei einfachen Faktenfragen die Parametrische Wissensabrufleistung signifikant steigert, indem es einen rechnerischen Puffereffekt und einen semantischen Priming-Mechanismus nutzt, wobei jedoch Halluzinationen in den Zwischenschritten das Risiko von Fehlern im Endergebnis erhöhen.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Die Studie zeigt, dass im Gegensatz zum menschlichen Verhalten das Nachdenken bei großen Sprachmodellen die Ehrlichkeit erhöht, da der Prozess des moralischen Abwägens das Modell durch einen verzerrten Repräsentationsraum führt, in dem ehrliche Antworten stabiler sind als täuschende.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Das Paper stellt CREATE vor, einen Benchmark zur Bewertung der Fähigkeit von KI-Modellen, assoziatives kreatives Denken durch die Generierung spezifischer und vielfältiger Verbindungen zwischen Konzepten zu testen, wobei Ergebnisse zeigen, dass selbst fortschrittliche Modelle Schwierigkeiten haben, die Komplexität dieser Aufgabe vollständig zu meistern.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Dieser Übersichtsartikel stellt ein integratives Modell vor, das Sprach- und Sprecherverarbeitung durch das Zusammenspiel von wahrnehmungsbasierten Bottom-up-Prozessen und erwartungsbasierten Top-down-Prozessen erklärt, wobei sowohl individuelle Vertrautheit als auch soziale Demografie die Sprachwahrnehmung auf mehreren Ebenen modulieren und neue Forschungsrichtungen im Bereich der KI-Sprecher eröffnen.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Die vorgestellte Arbeit führt einen diskreten Key-Value-Bottleneck für Encoder-only-Sprachmodelle ein, der durch lokalisierte Updates und eine neue Initialisierungstechnik effizientes kontinuierliches Lernen ermöglicht, katastrophales Vergessen reduziert und auch in Szenarien ohne Task-ID wettbewerbsfähige Ergebnisse bei geringeren Rechenkosten erzielt.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Die Arbeit stellt HarmonicEval vor, ein referenzfreies, umfassendes Evaluationsmaß für Vision-Language-Modelle, das in einem Bottom-up-Verfahren kriterienspezifische Scores aggregiert, und führt gleichzeitig den MMHE-Benchmark mit 18.000 menschlichen Urteilen über vier multimodale Aufgaben ein, um die Generalisierbarkeit automatischer Metriken in Multi-Task-Szenarien zu verbessern.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Die vorgestellte Arbeit stellt ein neues Ensemble-Framework für neuronale maschinelle Übersetzung vor, das mithilfe von Pivot-Übersetzungen und einer nachträglichen Aggregation mit nur einem einzigen Modell die Übersetzungsqualität für ressourcenarme Sprachpaare verbessert, ohne die hohen Trainingskosten herkömmlicher Mehrfachmodelle zu verursachen.

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Die vorgestellte Arbeit stellt HaLoRA vor, eine hardwarebewusste Low-Rank-Adaptionsmethode, die durch die Kombination von RRAM-basierten Vorkenntnissen und SRAM-basierten LoRA-Zweigen die Energieeffizienz von LLMs drastisch verbessert und gleichzeitig die durch RRAM-Rauschen verursachten Genauigkeitsverluste durch ein neuartiges Trainingsverfahren kompensiert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG