• 20 sierpnia: xAI mówi, że jeśli model ma >50% na MASK, to uruchamia swój próg "utraty kontroli". • 26 sierpnia: Grok CF1 uzyskał 72%, a xAI powiedział, że nie stanowi to ryzyka. Wydaje się, że obie te rzeczy są prawdziwe, MASK nie jest bardzo przerażającym benchmarkiem, a xAI powinno wyjaśnić, dlaczego zmieniło zdanie w ciągu tygodnia.