حقيقة أن جميع أوضاع الصوت الكبيرة في الذكاء الاصطناعي تعتمد على نماذج غبية، ناهيك عن نماذج غبية متملقة مصممة لتكون فيها أخطاء تزييف الدردشة البشرية ("أم"), تقلل من قيمة الصوت في إدارة الوكلاء. وضع "الصوت الجاد" للعمل سيكون مفيدا جدا
هناك نماذج أفضل في السوق: أصوات الذكاء الاصطناعي كانت جزءا أساسيا من وسائل الإعلام لأكثر من قرن. وهناك سبب يجعل الكمبيوتر من ستار تريك لا يضحك أو يتنهد ويقول "أم" ويخبرك كم كنت رائعا في وسط مهمة عالية المخاطر.
كما أنه من الصعب جدا صنع هذا الوضع الصوتي الذكي مع واجهات برمجة التطبيقات الحالية. تحتاج أساسا إلى نسخ الصوت إلى نموذج ذكي باستخدام أداة واحدة ثم استخدام TTS باستخدام أداة أخرى، والتي لا تحتوي على أي من التفاعلات أو الانقطاع التي يمكن أن يقدمها الصوت متعدد الوسائط الكامل.
‏‎137‏