Algunas notas sobre la versión gpt-realtime reemplaza STT→LLM→TTS encadenado con un solo modelo de entrada / salida de voz (menor latencia, matices más ricos) - enorme en mi opinión 🔥 En puntos de referencia (frente a GPT4o-realtime): > obtiene una puntuación del 82,8% frente al 65,6% en BigBench (razonamiento) > 30,5% frente al 20,6% en MultiChallenge Audio (seguimiento de instrucciones) > 66,5% frente al 49,7% de ComplexFuncBench (llamada a funciones) Las ganancias incluyen prosodia mejorada, control de tono, precisión no verbal y alfanumérica y cambio multilingüe API en tiempo real ahora GA con teléfono SIP, entrada de imagen, integración de herramientas MCP todo esto con un 20% menos de API, bastante dulce (aunque creo que todavía es un poco demasiado caro)
9.04K