From Next Token Prediction to (STRIPS) World Models
Dit onderzoek toont aan dat zowel gespecialiseerde symbolische modellen als standaard transformatoren met stick-breaking-attention effectief STRIPS-wereldmodellen kunnen leren uit actietraces om planning over onbekende toestanden en doelen mogelijk te maken, waarbij de standaardtransformatoren echter beter generaliseren en makkelijker te optimaliseren zijn.