Compiler-First State Space Duality and Portable Autoregressive Caching for Inference
Este artigo demonstra que o algoritmo de dualidade do espaço de estados do Mamba-2 pode ser implementado inteiramente usando primitivas padrão do XLA, eliminando a dependência de kernels CUDA personalizados e permitindo uma inferência autônoma com cache que funciona de forma idêntica em CPUs, GPUs NVIDIA e TPUs a partir de uma única fonte JAX.