GPUTOK: GPU Accelerated Byte Level BPE Tokenization
Dit paper introduceert GPUTOK, een GPU-versnelde byte-level BPE-tokenizer die bij lange contexten tot 7,6 keer sneller is dan bestaande CPU-oplossingen terwijl het de outputkwaliteit behoudt.
1892 papers
Dit paper introduceert GPUTOK, een GPU-versnelde byte-level BPE-tokenizer die bij lange contexten tot 7,6 keer sneller is dan bestaande CPU-oplossingen terwijl het de outputkwaliteit behoudt.
Deze studie toont aan dat het vergroten van de recursiediepte bij Recursive Language Models, ondanks de belofte van onbeperkte context, leidt tot 'overdenken' dat de prestaties op eenvoudige taken verslechtert en de uitvoeringstijd en kosten exponentieel doet stijgen.
StitchCUDA is een geautomatiseerd multi-agent framework dat rubric-gebaseerde agente versterkende leer gebruikt om volledige, hoogpresterende GPU-programma's te genereren en zo de beperkingen van eerdere methoden die zich enkel op individuele kernels richtten, overbrugt.
Dit artikel introduceert Credibility Governance, een sociaal mechanisme dat collectieve zelfcorrectie bevordert door de invloed van actoren te herschikken op basis van hun langetermijnovereenstemming met bewijs, waardoor online platforms robuuster worden tegen manipulatie en valse informatie.
Deze paper introduceert een pause-bewuste, dynamische decodingstrategie voor multimodale grote taalmodellen die real-time gamecommentaar genereert dat qua timing en inhoud beter aansluit bij menselijke spraak zonder dat finetuning nodig is.
Deze paper introduceert M3IRT, een multimodaal en multidimensionaal item response theory-framework dat cross-modale redeneervermogens van multimodale grote taalmodellen nauwkeuriger evalueert en benchmarks optimaliseert door te onderscheiden tussen vragen die op basis van één modality of alleen door cross-modale integratie kunnen worden opgelost.
Dit paper introduceert een methode voor ITLC bij SemEval-2026 Taak 11 die syllogismen omzet naar canonieke logische representaties en deterministische parsing toepast om inhoudseffecten in meertalige redeneertaken te verminderen, wat resulteert in top-5 prestaties zonder complexe fine-tuning.
Dit paper introduceert HateMirage, een nieuw, verklaarbaar dataset van 4.530 YouTube-commentaren die subtiel haatzaaien op basis van desinformatie analyseren via drie dimensies (doelwit, intentie en implicatie) om de beperkingen van bestaande modellen voor overt haatzaaien te overbruggen.
Het artikel introduceert Graph-GRPO, een nieuw framework dat Group Relative Policy Optimization toepast om de stabiliteit en effectiviteit van het leren van communicatietopologieën in multi-agent systemen op basis van grote taalmodellen te verbeteren door relatieve prestaties binnen een groep van topologieën te gebruiken in plaats van absolute beloningen.
Deze paper introduceert \textsc{ASEGR}, een tweestapsframework dat ongestructureerde productrecensies via een groot taalmodel distilleert naar gestructureerde zintuiglijke kenmerken, die vervolgens worden geïntegreerd in sequentiële aanbevelingsmodellen om de prestaties en interpretatieerbaarheid te verbeteren.
Dit artikel introduceert DiSE, een efficiënte zelfevaluatiemethode voor diffusie-taalmodellen die de kwaliteit van gegenereerde sequenties kwantificeert via token-regeneratie, waardoor zowel betrouwbaardere onzekerheidsmeting als adaptieve generatie met flexibele lengte mogelijk wordt.
Deze paper introduceert KMP-Bench, een uitgebreid benchmark voor K-8 wiskundepedagogiek, en KMP-Pile, een groot dataset, om de pedagogische intelligentie van LLM's te evalueren en aan te tonen dat fijnafstemming op pedagogisch rijke data de effectiviteit van AI-tutors aanzienlijk verbetert.
Deze studie toont aan dat krachtige multimodale grote taalmodellen documentinformatie-extractie even effectief kunnen uitvoeren zonder OCR, mits ze worden ondersteund door zorgvuldig ontworpen schema's, voorbeelden en instructies.
Dit artikel introduceert GLEAN, een betrouwbaar verificatiekader voor LLM-agenten in hoog-risico domeinen zoals klinische diagnose, dat door richtlijn-gebaseerde bewijsaccumulatie en actieve verificatie de nauwkeurigheid en kalibratie aanzienlijk verbetert.
Dit artikel toont aan dat gespecialiseerde kennis-tracering-modellen voor educatieve toepassingen grotere voorspellingsnauwkeurigheid bieden en aanzienlijk sneller en goedkoper zijn dan grote taalmodellen (LLMs).
Dit artikel biedt een verenigde informatie-theoretische uitleg voor de frequentieverdeling van fonemen in wereldwijd talen door macroscopische patronen die overeenkomen met een Dirichlet-verdeling en microscopische voorspellingen gebaseerd op een Maximum Entropy-model te combineren.
Dit onderzoek toont aan dat grote visueel-taalmodellen diagrammen beter begrijpen dan relaties tussen elementen, omdat informatie over knopen en structurele kenmerken al vroeg in de visuele encoder lineair gecodeerd is, terwijl randinformatie pas later in de taalmodulatie ontstaat, wat de moeite met het interpreteren van richtingen en relaties verklaart.
Eval4Sim is een evaluatiekader dat de nauwkeurigheid van door persona's gestuurde gesprekken meet door drie complementaire dimensies te analyseren: de impliciete codering van achtergrondkennis, de consistentie van de identiteit en de natuurlijkheid van de conversatiestroom, waarbij afwijkingen van menselijke gesprekspatronen worden bestraft in plaats van alleen optimalisatie te stimuleren.
Dit paper introduceert ACE-Merging, een data-vrij raamwerk dat inter-taak interferentie bij het samenvoegen van modellen effectief oplost door een adaptieve schatting van de covariantie te gebruiken, wat leidt tot nieuwe state-of-the-art resultaten zonder extra trainingsdata.
Dit paper introduceert Contextualized Defense Instructing (CDI), een nieuw privacyverdedigingsparadigma voor LLM-agenten dat via versterkingslering contextbewuste, proactieve richtlijnen genereert om privacy en nuttigheid effectiever te balanceren dan bestaande statische methoden.