Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Die Studie zeigt, dass für Mixture-of-Experts-Modelle die optimale Sparsamkeit nicht allein durch den Trainingsverlust bestimmt wird, sondern durch das Zusammenspiel von aktiven FLOPs für das logische Schlussfolgern und dem Verhältnis von Gesamt-Token zu Parametern für das Auswendiglernen, was eine Revision der klassischen skalierbaren Berechnungsgesetze erfordert.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

BinaryShield ist ein bahnbrechendes System, das durch die Umwandlung von verdächtigen Prompts in datenschutzkonforme Fingerabdrücke mittels PII-Bereinigung, semantischer Einbettung und binärer Quantisierung die sichere, grenzüberschreitende Weitergabe von Bedrohungsinformationen zwischen LLM-Diensten ermöglicht, ohne die Compliance-Anforderungen zu verletzen.

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

Die Arbeit stellt SVDecode vor, eine theoretisch fundierte und parameter-effiziente Methode, die durch die Ableitung eines Steuerungsvektors aus dem KL-Divergenz-Gradienten die Ausgabe-Verteilung von Large Language Models direkt während des Dekodierprozesses anpasst und so die Leistung bei Downstream-Aufgaben signifikant verbessert, ohne zusätzliche trainierbare Parameter zu benötigen.

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

Die Arbeit stellt Group Tree Optimization (GTO) vor, eine Methode, die durch die Ausrichtung des Trainings auf die Baum-Decodierungspolicy und die Einführung einer baumbasierten Belohnungsfunktion die Diskrepanz zwischen Entwurfs- und Zielpolitik bei der spekulativen Decodierung überwindet und so die Akzeptanzlänge sowie die Inferenzgeschwindigkeit von Large Language Models signifikant verbessert.

Shijing Hu, Jingyang Li, Zhihui Lu + 1 more2026-03-03💬 cs.CL

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

Die vorgestellte Arbeit stellt T2PAM und den darauf aufbauenden, effizienten Algorithmus ROSA vor, die durch die Nutzung von Echtzeit-Feedback als Belohnungssignal und eine theoretisch fundierte, einstufige Parameteranpassung die Fähigkeit von Large Language Models verbessern, sich während multi-turn Interaktionen an Benutzerpräferenzen anzupassen und Fehler selbst zu korrigieren.

Chenxing Wei, Hong Wang, Ying He + 2 more2026-03-03💬 cs.CL