大手AI音声モードがすべて愚かなモデルで動いているという事実は、ましてや人間の会話を偽装する不流暢さを持つおべっか使いの愚かなモデルであるという事実は、マネージャーエージェントにおける音声の価値を過小評価しています。 仕事用の「真面目な音声モード」があればとても便利でしょう
より良いモデルもあります。AIの声はほぼ1世紀にわたりメディアの定番でした。そして、スター・トレックのコンピューターが、ハイステークスな課題の真っ最中に「えっと」と言って「えっと」と言わなかったのには理由があります。
また、現在のAPIではこのスマートボイスモードを作るのが非常に難しいです。基本的には、あるツールで音声をスマートモデルに書き起こし、別のツールでTTSを使う必要があり、フルマルチモーダル音声のようなやり取りや割り込み性がありません。
136