Fakta bahwa semua mode suara AI besar didukung oleh model bodoh, apalagi model bodoh yang dirancang untuk memiliki ketidaklancaran yang memalsukan obrolan manusia ("um"), meremehkan nilai suara dalam mengelola agen. "Mode suara yang serius" untuk bekerja akan sangat berguna
Ada model yang lebih baik di luar sana: suara AI telah menjadi pokok media selama lebih dari satu abad. Dan ada alasan mengapa komputer dari Star Trek tidak tertawa dan menghela nafas dan berkata "um" dan memberi tahu Anda betapa hebatnya Anda di tengah-tengah tugas berisiko tinggi.
Juga sangat sulit untuk membuat mode suara pintar ini dengan API saat ini. Anda pada dasarnya perlu mentranskripsikan suara ke dalam model pintar menggunakan satu alat dan kemudian menggunakan TTS menggunakan alat lain, yang tidak memiliki bolak-balik dan interupsi yang mampu dilakukan oleh suara multimoda penuh.
234