Några anteckningar om gpt-realtidsutgåvan: den ersätter kedjade STT→LLM→TTS med en enda tal-in/tal-ut-modell (lägre latens, rikare nyans) - enorm imo 🔥 Om riktmärken (jämfört med GPT4o-realtid): > får 82,8 % jämfört med 65,6 % på BigBench (resonemang) > 30,5 % jämfört med 20,6 % på MultiChallenge Audio (instruktion följer) > 66,5 % jämfört med 49,7 % på ComplexFuncBench (funktionsanrop) Vinsterna inkluderar förbättrad prosodi, tonkontroll, icke-verbal och alfanumerisk noggrannhet och flerspråkig växling Realtids-API nu GA med SIP-telefon, bildinmatning, MCP-verktygsintegration allt detta med 20% lägre API - ganska sött (även om jag tycker att det fortfarande är lite för dyrt)
14,66K