Stiamo aggiornando il modo in cui misuriamo gli orizzonti temporali dei modelli sui compiti software (TH 1.0→1.1). La metodologia aggiornata incorpora più compiti da HCAST, espandendo il nostro totale da 170 a 228. Questo produce stime più precise, specialmente su orizzonti più lunghi.