cs.CL papers | Gist.Science

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Dit paper introduceert DoWhatISay (DOWIS), een meertalige dataset met gesproken en geschreven instructies om Speech Large Language Models realistischer te evalueren, waarbij blijkt dat tekstprompts vaak beter presteren dan gesproken prompts, behalve bij taken met spraakoutput.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Deze studie toont aan dat frontier-large-language-modellen, met name Claude, politieke standpunten effectiever kunnen beïnvloeden dan traditionele campagnemethoden, waarbij de effectiviteit van informatieve prompts en de prestaties per model sterk variëren.

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Dit paper introduceert MSSR, een ervaringherhaalframework voor continue fine-tuning van grote taalmodellen dat op basis van geschatte geheugensterkte van individuele samples adaptieve herhalingsintervallen toepast om catastrofale vergeten te verminderen zonder de aanpassingssnelheid te vertragen.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan ZhaWed, 11 Ma🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Deze paper toont aan dat redenering de parametrische kennis van LLM's zelfs bij eenvoudige feitelijke vragen verbetert door een computationeel buffer-effect en feitelijke priming, maar waarschuwt dat halucinaties in tussenstappen de uiteindelijke nauwkeurigheid kunnen ondermijnen.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Dit overzichtspaper introduceert het FUSE-taxonomiekader om de theorie, methoden, toepassingen en het ecosysteem van modelmerging in de era van grote taalmodellen gestructureerd te analyseren en toekomstige uitdagingen te identificeren.

Mingyang Song, Mao ZhengWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

In tegenstelling tot mensen, die bij nadenken minder eerlijk worden, blijkt dat redenering bij grote taalmodellen de eerlijkheid verhoogt doordat het proces de modellen door een vertegenwoordigingsruimte leidt waar eerlijke antwoorden stabieler zijn dan leugenachtige.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Dit paper introduceert CREATE, een nieuwe benchmark voor het evalueren van het vermogen van taalmodellen tot associatief redeneren door concepten op specifieke en diverse manieren met elkaar te verbinden, waarbij blijkt dat de meest geavanceerde modellen beter presteren maar dat het benchmark nog niet verzadigd is en 'thinking'-modellen niet altijd effectiever zijn.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

Dit paper introduceert Llama-Mob, een instructie-getrainde Llama-3-8B-versie die door middel van vraag-en-antwoordinteracties superieure prestaties levert bij het voorspellen van langdurige menselijke mobiliteit in steden en sterke zero-shot generalisatie toont naar andere steden.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru SezakiTue, 10 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Dit artikel presenteert een integratief model waarin taal- en sprekerverwerking functioneel verbonden zijn via multi-niveau probabilistische verwerking, waarbij zowel bottom-up perceptie als top-down verwachtingen de taalinterpretatie beïnvloeden en onderscheid maken tussen effecten van individuele vertrouwdheid en sociale demografische verwachtingen.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Dit paper introduceert een discrete key-value bottleneck (DKVB) voor encoder-only taalmodellen die catastrofale vergetelheid effectief tegengaat door middel van lokale updates, zelfs in uitdagende single-head scenario's zonder taak-ID's, terwijl het tegelijkertijd lagere rekenkosten biedt dan bestaande methoden.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Dit paper introduceert HarmonicEval, een referentievrije, meervoudige evaluatiemethode voor Vision-Language Models die criteria-specifieke scores combineert, en presenteert het MMHE-benchmark met 18.000 menselijke beoordelingen om de prestaties van dergelijke methoden in multi-task scenario's te valideren.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Dit onderzoek onderzoekt de invloed van inbeddings-priors op prompt-tuning en onthult dat modellen effectief kunnen werken met inbeddings in nieuwe gebieden van de activeringsruimte, terwijl het een duidelijke clustering van activeringen voor verre taken versus vergelijkbare NLP-taken laat zien.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Deze paper introduceert een pivot-gebaseerd ensemble-framework dat met één enkel model diverse vertaalkandidaten genereert en deze post-hoc samenvoegt om de vertaalkwaliteit voor taalkoppels met beperkte bronnen te verbeteren zonder de hoge rekentkosten van traditionele ensemble-methoden.

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Dit paper introduceert GRADIEND, een nieuwe encoder-decoder-methode die modelgradiënten gebruikt om bias-gerelateerde neurale kenmerken te identificeren en modellen effectief te debiasen zonder hun andere vaardigheden te verliezen.

Jonathan Drechsel, Steffen HerboldTue, 10 Ma🤖 cs.LG

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Dit paper toont aan dat het gebruik van Low-Rank Adaptation (LoRA) in federatief leren voor grote taalmodellen de onbedoelde memorisatie van trainingsdata tot wel tien keer vermindert zonder significante prestatieverliezen, zelfs in risicovolle domeinen zoals geneeskunde, recht en financiën.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin JaggiTue, 10 Ma🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Het artikel introduceert LaVCa, een data-gedreven methode die grote taalmodellen gebruikt om gedetailleerde natuurlijke taalbeschrijvingen te genereren voor de selectiviteit van neurale populaties in de visuele cortex, waarmee de beperkingen van bestaande diepe-neurale-netwerkmodellen worden overwonnen en fijnmazigere inzichten in menselijke visuele representaties worden verkregen.

Takuya Matsuyama, Shinji Nishimoto, Yu TakagiTue, 10 Ma🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Dit paper introduceert het Clustering-On-Difficulty (COD)-framework, dat taken clusteren op basis van hun schaalingsmoeilijkheid om een nauwkeurige voorspelling van de downstream-prestaties van grote taalmodellen mogelijk te maken, zelfs bij het optreden van emergente fenomenen.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang LiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Dit paper introduceert HaLoRA, een hardwarebewuste methode die de energie-efficiëntie van een hybride Compute-in-Memory-architectuur combineert met de nauwkeurigheid van Large Language Models door een robuuste Low-Rank Adaptatie te trainen die de inherente ruis van RRAM-geheugen compenseert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Hoewel grote taalmodellen vrouwelijke karakters vaker genereren dan in de realiteit het geval is, vertonen hun verhalen over beroepen nog steeds een sterkere overeenkomst met genderstereotypen dan met feitelijke arbeidsmarktgegevens, wat wijst op de blijvende uitdaging om deze vooroordelen effectief te mitigeren.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan ChenTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Deze paper introduceert EDU-PRM, een nieuw trainingsframework dat gebruikmaakt van entropie-gedreven onzekerheid om complexe redeneerstappen automatisch te segmenteren zonder dure handmatige annotaties, waardoor het op het ProcessBench-benchmark presteert met slechts 1,5% van de trainingsdata en tegelijkertijd de nauwkeurigheid verhoogt terwijl het tokenverbruik met 32% daalt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG

← Vorige Volgende →