Enkele opmerkingen over de gpt-realtime release: het vervangt de keten STT→LLM→TTS door een enkel spraak-in/spraak-uit model (lagere latentie, rijkere nuance) - enorm, vind ik 🔥 Op benchmarks (vs GPT4o-realtime): > scoort 82,8% vs 65,6% op BigBench (redeneren) > 30,5% vs 20,6% op MultiChallenge Audio (instructie volgen) > 66,5% vs 49,7% op ComplexFuncBench (functie-aanroep) Winst omvat verbeterde prosodie, toonbeheersing, niet-verbale en alfanumerieke nauwkeurigheid, en meertalige schakeling. Realtime API is nu GA met SIP-telefoon, afbeeldingsinvoer, MCP-toolintegratie. dit alles met 20% lagere API - best leuk (hoewel ik denk dat het nog steeds een beetje te duur is)
13,4K