Algumas notas sobre o lançamento do gpt-realtime: ele substitui o modelo encadeado STT→LLM→TTS por um único modelo de entrada/saída de fala (menor latência, nuances mais ricas) - enorme na minha opinião 🔥 Nos benchmarks (vs GPT4o-realtime): > pontua 82,8% vs 65,6% no BigBench (raciocínio) > 30,5% vs 20,6% no MultiChallenge Audio (seguindo instruções) > 66,5% vs 49,7% no ComplexFuncBench (chamada de função) Os ganhos incluem prosódia melhorada, controle de tom, precisão não verbal e alfanumérica, e troca multilíngue A API em tempo real agora está GA com telefone SIP, entrada de imagem, integração da ferramenta MCP tudo isso com 20% a menos no custo da API - bem legal (embora eu ache que ainda é um pouco caro)
9,04K