Prever a ordem dos próximos tokens melhora a modelagem de linguagem