Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models

Dit paper introduceert een rekenkundig efficiënt en interpreteerbaar framework dat kleine, vooroordeel-gebaseerde en anti-vooroordeel-expertmodellen gebruikt om tijdens het decoderen een debiasings-signaal toe te voegen aan de output van grote taalmodellen, waardoor vooroordelen op basis van geslacht, ras en religie worden verminderd zonder de prestaties te schaden.

Schrasing Tong, Eliott Zemour, Jessica Lu, Rawisara Lohanimit, Lalana Kagal2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Deze survey biedt een gestructureerd overzicht van hoe grote multimodale taalmodellen het wetenschappelijke proces transformeren door onderzoekers te ondersteunen bij literatuuronderzoek, het genereren van ideeën, experimenten, contentcreatie en evaluatie, terwijl het ook de methoden, beperkingen en ethische risico's van deze AI-gestuurde ontdekkingen belicht.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Dit onderzoek toont aan dat het gebruik van fine-grained conditionele activatiesturing, met name via de nieuwe K-CAST-methode, de redeneervertrekken in grote taalmodellen effectief kan verminderen door plausibiliteit van inhoud te scheiden van formele geldigheid, wat leidt tot een aanzienlijke verbetering in de nauwkeurigheid van logisch redeneren.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI