Not all tokens are needed(NAT): token efficient reinforcement learning
Het artikel introduceert NAT (Not All Tokens Are Needed), een framework dat de trainingskosten van reinforcement learning voor lange redeneringen verlaagt door alleen een subset van tokens te updaten via Horvitz-Thompson-herschaling, terwijl het prestatieniveau van volledige token-training behouden blijft.