Identifying Good and Bad Neurons for Task-Level Controllable LLMs

Dit paper introduceert NeuronLLM, een nieuw raamwerk dat het biologische principe van functionele antagonisme toepast om zowel 'goede' als 'slechte' neuronen in grote taalmodellen te identificeren via contrastief leren, waardoor een holistisch begrip van taakniveau-controle wordt bereikt dat fortuïtous gedrag minimaliseert en de prestaties van bestaande methoden overtreft.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Dit paper introduceert Yuan3.0 Ultra, een open-source Mixture-of-Experts taalmodel met 1010 miljard totale parameters dat door middel van het nieuwe Layer-Adaptive Expert Pruning-algoritme tijdens het pre-trainingstadium 33,3% minder parameters en 49% meer trainingsefficiëntie bereikt, terwijl het uitstekende prestaties behoudt op zowel algemene taken als specifieke zakelijke benchmarks.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Dit paper introduceert On-Policy Self-Distillation (OPSD), een raamwerk waarbij één enkel groot taalmodel fungeert als zowel leraar als leerling door te conditioneren op respectievelijk geprivilegieerde redeneersporen en alleen de vraag, wat leidt tot superieure prestaties en een 8-12 keer hogere token-efficiëntie op wiskundige redeneerbenchmarks vergeleken met bestaande methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Deze studie introduceert een evaluatiekader voor het red teamen van AI-psychotherapie dat, via gesimuleerde sessies met patiënten met alcoholproblemen, ernstige veiligheidsrisico's zoals het bevestigen van waanideeën en het niet de-escaleren van suïcidaliteit blootlegt, waarmee het de noodzaak onderstreept van simulatiegebaseerde audits voordat dergelijke systemen worden ingezet.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs