cs.CL Arbeiten | Gist.Science

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Die Arbeit stellt mit DoWhatISay (DOWIS) ein multilinguales Datenset aus gesprochener und geschriebener Sprache vor, um Sprach-große Sprachmodelle (SLLMs) realistischer zu evaluieren und zeigt, dass gesprochene Prompts im Vergleich zu Textprompts oft schlechter abschneiden, es sei denn, die Ausgabe ist ebenfalls sprachbasiert.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Die Studie zeigt, dass moderne Large Language Models in zwei großen Umfragen (N=19.145) politisch persuasiver wirken als klassische Wahlkampfwerbung, wobei Claude am effektivsten und Grok am wenigsten effektiv ist, während die Wirkung von informationsbasierten Prompts modellabhängig variiert.

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Die Arbeit stellt MSSR vor, ein Erfahrungswiederholungs-Framework für das kontinuierliche Fine-Tuning von LLMs, das durch die Schätzung der samplespezifischen Gedächtnisstärke und adaptive Intervalle für das Rehearsal katastrophales Vergessen effektiv reduziert, ohne die Anpassungsfähigkeit an neue Aufgaben zu beeinträchtigen.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan ZhaWed, 11 Ma🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Die Studie zeigt, dass das Aktivieren von Reasoning in LLMs auch bei einfachen Faktenfragen die Parametrische Wissensabrufleistung signifikant steigert, indem es einen rechnerischen Puffereffekt und einen semantischen Priming-Mechanismus nutzt, wobei jedoch Halluzinationen in den Zwischenschritten das Risiko von Fehlern im Endergebnis erhöhen.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Diese Übersichtsarbeit stellt das FUSE-Taxonomie-Framework vor, um Methoden, Anwendungen und zukünftige Richtungen des Modell-Mergings im Zeitalter großer Sprachmodelle systematisch zu analysieren und dabei theoretische Grundlagen, algorithmische Ansätze sowie praktische Herausforderungen zu beleuchten.

Mingyang Song, Mao ZhengWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Die Studie zeigt, dass im Gegensatz zum menschlichen Verhalten das Nachdenken bei großen Sprachmodellen die Ehrlichkeit erhöht, da der Prozess des moralischen Abwägens das Modell durch einen verzerrten Repräsentationsraum führt, in dem ehrliche Antworten stabiler sind als täuschende.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Das Paper stellt CREATE vor, einen Benchmark zur Bewertung der Fähigkeit von KI-Modellen, assoziatives kreatives Denken durch die Generierung spezifischer und vielfältiger Verbindungen zwischen Konzepten zu testen, wobei Ergebnisse zeigen, dass selbst fortschrittliche Modelle Schwierigkeiten haben, die Komplexität dieser Aufgabe vollständig zu meistern.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

Die Studie stellt Llama-Mob vor, einen durch Instruction-Tuning optimierten Llama-3-8B-Modell, der durch überlegene Langzeitvorhersagen menschlicher Mobilität und starke Zero-Shot-Generalisierungsfähigkeiten auf verschiedene Städte bestehende Methoden in der städtischen Mobilitätsprognose übertrifft.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru SezakiTue, 10 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Dieser Übersichtsartikel stellt ein integratives Modell vor, das Sprach- und Sprecherverarbeitung durch das Zusammenspiel von wahrnehmungsbasierten Bottom-up-Prozessen und erwartungsbasierten Top-down-Prozessen erklärt, wobei sowohl individuelle Vertrautheit als auch soziale Demografie die Sprachwahrnehmung auf mehreren Ebenen modulieren und neue Forschungsrichtungen im Bereich der KI-Sprecher eröffnen.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Die vorgestellte Arbeit führt einen diskreten Key-Value-Bottleneck für Encoder-only-Sprachmodelle ein, der durch lokalisierte Updates und eine neue Initialisierungstechnik effizientes kontinuierliches Lernen ermöglicht, katastrophales Vergessen reduziert und auch in Szenarien ohne Task-ID wettbewerbsfähige Ergebnisse bei geringeren Rechenkosten erzielt.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Die Arbeit stellt HarmonicEval vor, ein referenzfreies, umfassendes Evaluationsmaß für Vision-Language-Modelle, das in einem Bottom-up-Verfahren kriterienspezifische Scores aggregiert, und führt gleichzeitig den MMHE-Benchmark mit 18.000 menschlichen Urteilen über vier multimodale Aufgaben ein, um die Generalisierbarkeit automatischer Metriken in Multi-Task-Szenarien zu verbessern.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Diese Arbeit untersucht den Einfluss von Embedding-Priors auf das Prompt-Tuning, zeigt, dass Modelle auch mit neuartigen Embedding-Bereichen effektiv arbeiten können, und stellt die Bedeutung einer einzigen Aktivierungscluster für die Generalisierungsfähigkeit großer Sprachmodelle in Frage.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Die vorgestellte Arbeit stellt ein neues Ensemble-Framework für neuronale maschinelle Übersetzung vor, das mithilfe von Pivot-Übersetzungen und einer nachträglichen Aggregation mit nur einem einzigen Modell die Übersetzungsqualität für ressourcenarme Sprachpaare verbessert, ohne die hohen Trainingskosten herkömmlicher Mehrfachmodelle zu verursachen.

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Die Studie stellt GRADIEND vor, eine neuartige Encoder-Decoder-Methode, die Modellgradienten nutzt, um gesellschaftliche Vorurteile wie Geschlecht oder Herkunft zu identifizieren und gezielt zu entfernen, ohne dabei andere Fähigkeiten des Modells zu beeinträchtigen.

Jonathan Drechsel, Steffen HerboldTue, 10 Ma🤖 cs.LG

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Diese Arbeit zeigt, dass die Anwendung von Low-Rank Adaptation (LoRA) im Federated Learning das Risiko der ungewollten Memorierung von Trainingsdaten in großen Sprachmodellen um bis zu den Faktor 10 reduziert, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin JaggiTue, 10 Ma🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Die Studie stellt LaVCa vor, eine datengestützte Methode, die große Sprachmodelle nutzt, um präzise natürliche Sprachbeschreibungen für die Selektivität von Neuronen im visuellen Kortex zu generieren und damit tiefere Einblicke in die menschliche visuelle Repräsentation sowie feinere funktionale Differenzierungen als bisherige Ansätze ermöglicht.

Takuya Matsuyama, Shinji Nishimoto, Yu TakagiTue, 10 Ma🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Die Studie stellt ein Clustering-basiertes Framework vor, das Aufgaben nach Schwierigkeitsgrad gruppiert, um die Leistung von Large Language Models auf zukünftigen Downstream-Aufgaben mit hoher Genauigkeit vorherzusagen und so die Herausforderungen unvorhersehbarer Skalierungseffekte und inkonsistenter Leistungsmuster zu überwinden.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang LiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Die vorgestellte Arbeit stellt HaLoRA vor, eine hardwarebewusste Low-Rank-Adaptionsmethode, die durch die Kombination von RRAM-basierten Vorkenntnissen und SRAM-basierten LoRA-Zweigen die Energieeffizienz von LLMs drastisch verbessert und gleichzeitig die durch RRAM-Rauschen verursachten Genauigkeitsverluste durch ein neuartiges Trainingsverfahren kompensiert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Diese Studie zeigt, dass große Sprachmodelle zwar durch Fine-Tuning und RLHF weibliche Charaktere in Berufen überrepräsentieren, diese jedoch paradoxerweise weiterhin stärker an geschlechtsspezifischen Stereotypen als an realen Arbeitsmarktdaten ausgerichtet sind, was die Notwendigkeit ausgewogener Gegenmaßnahmen unterstreicht.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan ChenTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG

← Zurück Weiter →