Beberapa catatan tentang rilis gpt-realtime itu menggantikan STT→LLM→TTS yang dirantai dengan model speech-in/speech-out tunggal (latensi lebih rendah, nuansa yang lebih kaya) - imo 🔥 besar Pada tolok ukur (vs GPT4o-realtime): > mencetak 82.8% vs 65.6% di BigBench (penalaran) > 30.5% vs 20.6% pada MultiChallenge Audio (instruksi berikut) > 66.5% vs 49.7% di ComplexFuncBench (panggilan fungsi) Keuntungan termasuk peningkatan prosodi, kontrol nada, akurasi non-verbal dan alfanumerik, dan peralihan multibahasa Realtime API sekarang GA dengan telepon SIP, input gambar, integrasi alat MCP semua ini dengan API 20% lebih rendah - cukup manis (meskipun saya pikir itu masih agak terlalu mahal)
10,94K