🚨 NVIDIA は不可能なことをやり遂げました。 彼らは、10兆個のトークンで12Bパラメータの言語モデルを完全に4ビットの精度でトレーニングしました。 これは NVFP4 と呼ばれ、フロンティア AI モデルのトレーニング方法を再定義する可能性があります。 これが重要な理由は次のとおりです。 NVFP4 は、FP8 と比較して 2 〜 3× 高速な演算スループットと 50% 少ないメモリを実現します。 •精度。実質的に同じです。(MMLU-Pro:FP8 = 62.62%、NVFP4 = 62.58%) • 安定性の問題?ランダム アダマール変換、確率的丸め、および 2D スケーリングを使用して解決 • NVIDIA Blackwell GPU で完全にトレーニングされ、10T トークンで安定した最初の 4 ビット実行 精度を損なうことなく、大規模な4ビット事前学習の実証に成功したのは初めてです。 次世代のフロンティア モデルは、妥協することなく、より速く、より安価で、より環境に優しいものになります。