Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding
Diese Arbeit untersucht die strukturelle Äquivalenz und Effizienz von grammatikbeschränktem Decodieren, indem sie einen Invarianzsatz für Orakel beweist, strukturelle Mehrdeutigkeitskosten quantifiziert, untere Schranken für den Rechenaufwand herleitet und die Verzerrung durch Hard-Masking mittels Doob-h-Transform analysiert, um Optimierungsmöglichkeiten für Transformer-Architekturen aufzuzeigen.