MSPT: Efficient Large-Scale Physical Modeling via Parallelized Multi-Scale Attention
Il paper introduce MSPT, un'architettura Transformer multi-scala che combina l'attenzione locale e globale per simulare efficientemente fenomeni fisici su larga scala con milioni di elementi su una singola GPU, ottenendo prestazioni all'avanguardia con un ridotto consumo di risorse.