Die Vorhersage der Reihenfolge bevorstehender Token verbessert das Sprachmodellieren.