O facto de todos os grandes modos de voz de IA serem alimentados por modelos estúpidos, para não falar de modelos estúpidos e bajuladores que são projetados para ter disfluências que imitam uma conversa humana ("hum"), subestima o valor da voz na gestão de agentes. Um "modo de voz sério" para o trabalho seria muito útil
Existem modelos melhores por aí: as vozes de IA têm sido um pilar da mídia durante a maior parte de um século. E há uma razão pela qual o computador de Star Trek não ria, suspirava, dizia "hum" e te dizia o quão incrível você era no meio de uma tarefa de alto risco.
É também notavelmente difícil fazer este modo de voz inteligente com as APIs atuais. Você precisa basicamente transcrever a voz em um modelo inteligente usando uma ferramenta e depois usar TTS com outra, que não tem a interatividade e a capacidade de interrupção que a voz multimodal completa é capaz de.
137