Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding
Este artigo estabelece fundamentos teóricos para a decodificação restrita a gramáticas, demonstrando que gramáticas linguisticamente equivalentes podem gerar custos de processamento drasticamente diferentes e propondo métricas de ambiguidade estrutural e limites inferiores para otimizar a eficiência em modelos de linguagem.