推論努力が「高」(xhighではなく)であるGPT-5.3-Codexは、当社のソフトウェアタスク群で約6.5時間(95%の信頼区間)の時間範囲を約6.5時間(95%の信頼区間は3時間から17時間)と推定しています。OpenAIはこの評価のためにAPIアクセスを提供しました。