Ensembling Language Models with Sequential Monte Carlo

Deze paper introduceert een unificerend framework en een byte-level Sequential Monte Carlo-algoritme om meerdere taalmodellen met verschillende vocabulaires te combineren in ff-ensembles, waardoor er consistent kan worden gesampled uit geaggregeerde verdelingen die superieure prestaties leveren ten opzichte van traditionele gemiddelde waarschijnlijkheidsbenaderingen.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Dit paper introduceert de Distributed Partial Information Puzzle (DPIP) en een bijbehorend multimodaal dataset om de uitdagingen van het modelleren van gemeenschappelijke grond onder epistemische asymmetrie te onderzoeken, waarbij blijkt dat zowel moderne grote taalmodellen als axiomatische benaderingen op basis van dynamische epistemische logica moeite hebben met het nauwkeurig bijhouden van taakvoortgang en geloofsstaten.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

FlashAttention-4 is een nieuwe implementatie die algoritme- en kernel-pipelining co-design combineert om de asymmetrische hardware-schaalbaarheid van Blackwell GPU's (zoals de B200) te benutten, waardoor een tot 2,7× hogere snelheid en tot 71% TFLOP-utilisatie wordt bereikt, terwijl de volledige expressiviteit behouden blijft met 20-30× snellere compilatietijden dankzij een CuTe-DSL in Python.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Dit onderzoek onthult dat de vaak waargenomen samenhang tussen massale activeringen en attentie-zinks in Transformer-modellen voornamelijk een architecturaal artefact is dat wordt veroorzaakt door de pre-norm-configuratie, waarbij deze fenomenen in werkelijkheid verschillende functies vervullen: massale activeringen fungeren als globale, impliciete parameters, terwijl attentie-zinks lokaal de aandacht verstoren en biasen naar korte afhankelijkheden.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Dit paper introduceert een nieuwe methode voor open-vocabulaire geïntegreerde segmentatie van gecamoufleerde objecten door gebruik te maken van text-naar-beeld diffusiemodellen om multi-schaal tekstuele en visuele kenmerken te combineren, waardoor objecten die zich vermommen in hun omgeving toch effectief kunnen worden geïdentificeerd.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Deze studie toont aan dat taalmodellen, door het manipuleren van hun trainingsdata, leren dat de passiviseerbaarheid van werkwoorden in het Engels zowel door frequentie (verankering) als door semantiek (aangedaanheid) wordt bepaald, wat aantoont dat dergelijke uitzonderingen op algemene grammaticale patronen uit linguïstische input kunnen worden afgeleid.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL