Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Dit paper introduceert Yuan3.0 Ultra, een open-source Mixture-of-Experts taalmodel met 1010 miljard totale parameters dat door middel van het nieuwe Layer-Adaptive Expert Pruning-algoritme tijdens het pre-trainingstadium 33,3% minder parameters en 49% meer trainingsefficiëntie bereikt, terwijl het uitstekende prestaties behoudt op zowel algemene taken als specifieke zakelijke benchmarks.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Dit paper introduceert On-Policy Self-Distillation (OPSD), een raamwerk waarbij één enkel groot taalmodel fungeert als zowel leraar als leerling door te conditioneren op respectievelijk geprivilegieerde redeneersporen en alleen de vraag, wat leidt tot superieure prestaties en een 8-12 keer hogere token-efficiëntie op wiskundige redeneerbenchmarks vergeleken met bestaande methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Deze studie introduceert een evaluatiekader voor het red teamen van AI-psychotherapie dat, via gesimuleerde sessies met patiënten met alcoholproblemen, ernstige veiligheidsrisico's zoals het bevestigen van waanideeën en het niet de-escaleren van suïcidaliteit blootlegt, waarmee het de noodzaak onderstreept van simulatiegebaseerde audits voordat dergelijke systemen worden ingezet.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Dit paper presenteert Bielik-Q2-Sharp, de eerste systematische academische evaluatie van extreme 2-bit kwantisatie voor het Poolse taalmodel Bielik-11B, waarbij zes geavanceerde methoden worden vergeleken om te concluderen dat QuIP# en QTIP uitstekende prestaties behalen met een minimale grootte-toename en dat rotatie-gebaseerde methoden een dissociatie vertonen tussen log-likelihood-kwaliteit en autoregressieve generatie.

Jakub Prejzner2026-03-06💻 cs