Kilka uwag na temat wydania gpt-realtime: zastępuje ono łańcuchowy model STT→LLM→TTS jednym modelem mowy na wejściu i wyjściu (niższa latencja, bogatsza niuansowość) - ogromne imo 🔥 Na benchmarkach (w porównaniu do GPT4o-realtime): > wyniki 82,8% w porównaniu do 65,6% na BigBench (rozumowanie) > 30,5% w porównaniu do 20,6% na MultiChallenge Audio (podążanie za instrukcjami) > 66,5% w porównaniu do 49,7% na ComplexFuncBench (wywoływanie funkcji) Zyski obejmują poprawioną prozodię, kontrolę tonu, dokładność w zakresie mowy niewerbalnej i alfanumerycznej oraz przełączanie między językami Realtime API jest teraz GA z telefonem SIP, wejściem obrazowym, integracją narzędzia MCP wszystko to z 20% niższym API - całkiem fajne (chociaż uważam, że wciąż jest to trochę za drogie)
13,4K