El hecho de que todos los grandes modos de voz de IA estén impulsados por modelos tontos, y mucho menos por modelos aduladores que están diseñados para tener disfluencias que fingen un chat humano ("mmm"), resta valor a la voz en la gestión de agentes. Un "modo voz seria" para el trabajo sería muy útil
Existen modelos mejores: las voces de IA han sido un pilar de los medios durante casi un siglo. Y hay una razón por la que el ordenador de Star Trek no se rió, suspiró y dijo "mmm" y te dijo lo genial que fuiste en medio de una tarea de alto riesgo.
También es sorprendentemente difícil crear este modo de voz inteligente con las APIs actuales. Básicamente necesitas transcribir la voz a un modelo inteligente usando una herramienta y luego usar TTS con otra, que no tiene el vaivén y la interrupción que puede ofrecer la voz multimodal completa.
209