Một số ghi chú về bản phát hành gpt-realtime, nó thay thế mô hình STT→LLM→TTS chuỗi bằng một mô hình đầu vào/đầu ra giọng nói duy nhất (độ trễ thấp hơn, sắc thái phong phú hơn) - rất lớn theo ý kiến của tôi 🔥 Về các chỉ số (so với GPT4o-realtime): > điểm số 82.8% so với 65.6% trên BigBench (lập luận) > 30.5% so với 20.6% trên MultiChallenge Audio (tuân theo hướng dẫn) > 66.5% so với 49.7% trên ComplexFuncBench (gọi hàm) Các cải tiến bao gồm ngữ điệu tốt hơn, kiểm soát âm sắc, độ chính xác không lời và chữ số, và chuyển đổi đa ngôn ngữ API Realtime giờ đã GA với điện thoại SIP, đầu vào hình ảnh, tích hợp công cụ MCP tất cả điều này với API thấp hơn 20% - thật tuyệt (mặc dù tôi nghĩ vẫn còn hơi đắt một chút)
10,91K