所有大型 AI 语音模式都由愚蠢的模型驱动,更不用说那些设计成具有假人类对话的流畅性障碍(“嗯”)的谄媚愚蠢模型,这低估了语音在管理代理中的价值。 一个用于工作的“严肃语音模式”将非常有用。
有更好的模型存在:AI声音在媒体中已经成为主流,历经近一个世纪。而且,星际迷航中的计算机没有在高风险任务中咯咯笑、叹气、说“嗯”并告诉你有多棒,这背后是有原因的。
使用当前的API,制作这种智能语音模式也非常困难。你基本上需要使用一个工具将语音转录为智能模型,然后使用另一个工具进行文本转语音(TTS),这没有完整多模态语音所能实现的双向交互和可中断性。
156