Мы обновляем способ измерения временных горизонтов моделей для программных задач (TH 1.0→1.1). Обновленная методология включает больше задач из HCAST, увеличивая общее количество с 170 до 228. Это дает более точные оценки, особенно на более длинных горизонтах.