今後のトークンの順序を予測することで、言語モデリングが改善されます
8.96K