Některé poznámky k vydání gpt-realtime nahrazuje zřetězené STT→LLM→TTS jediným modelem speech-in/speech-out (nižší latence, bohatší nuance) - obrovské imo 🔥 O benchmarcích (vs GPT4o-realtime): > skóre 82.8% vs 65.6% na BigBench (uvažování) > 30.5% vs 20.6% na MultiChallenge Audio (instrukce následuje) > 66.5 % vs 49.7 % na ComplexFuncBench (volání funkcí) Mezi výhody patří vylepšená prozódie, ovládání tónu, neverbální a alfanumerická přesnost a vícejazyčné přepínání Realtime API nyní GA se SIP telefonem, obrázkovým vstupem, integrací MCP nástroje to vše s o 20% nižším API - docela sladké (i když si myslím, že je to stále trochu příliš drahé)
8,89K