Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

Dit paper introduceert SynthKG en Distill-SynthKG, een pipeline die synthetische document-KG-paren genereert om een kleiner model te trainen dat niet alleen superieure kennisgrafiek-kwaliteit levert ten opzichte van grotere baselines, maar ook de prestaties verbetert in zoekopdrachten en vraagbeantwoording via een nieuw grafiekgebaseerd ophaalframework.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

Dit artikel introduceert en valideert een nieuwe familie van activeringsfuncties gebaseerd op orthonormale bases, waaronder polynomen en trigonometrische functies, die door middel van eenvoudige initialisatie stabiel kunnen worden getraind in diepe modellen zoals GPT-2 en ConvNeXt zonder explosie of verdwijning van gradiënten, terwijl ze tevens nauwkeurige benaderingen bieden voor klassieke activeringen die nuttig zijn voor fine-tuning.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Deze paper introduceert een nieuwe reinforcement learning-methode die grote taalmodellen direct fine-tuned om hun antwoorden op feitelijke vragen te koppelen aan nauwkeurig gekalibreerde betrouwbaarheidsinschattingen, waardoor zowel over- als ondervertrouwen wordt gestraft en de modellen een algemeen bewustzijn van hun eigen zekerheid ontwikkelen.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Deze studie analyseert 92 open-source taalmodellen en toont aan dat het meenemen van ontwerpfactoren zoals data-samenstelling en architecturale keuzes, naast modelgrootte, de voorspelling van downstream-prestaties aanzienlijk verbetert en inzicht biedt in hoe specifieke ontwerpbeslissingen de eindcapaciteiten vormen.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Dit paper introduceert een nieuw generatief model en bewijst dat next-token prediction leidt tot representaties die de logaritmen van de posterieure kansen op latente, mensinterpreteerbare concepten benaderen, wat de lineaire representatiehypothese theoretisch onderbouwt en empirisch wordt gevalideerd op verschillende LLM-families.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL