Ist es nicht verrückt, dass jedes Token in einem Sprachmodell ein funktionales Programm ist, das alle vorhergehenden Tokens als Argumente nimmt und ein Token zurückgibt? Weißt du?