Det faktum at alle de store AI-stemmemodusene drives av dumme modeller, for ikke å snakke om smiskende dumme modeller som er designet for å ha forstyrrelser som etterligner en menneskelig chat ("eh"), undervurderer verdien av stemme i håndtering av agenter. En «seriøs stemmemodus» for jobb ville vært veldig nyttig
Det finnes bedre modeller der ute: AI-stemmer har vært en bærebjelke i media i nesten et århundre. Og det er en grunn til at datamaskinen fra Star Trek ikke fniste og sukket og sa «eh» og fortalte deg hvor fantastisk du var midt i en oppgave med høye innsatser.
Det er også bemerkelsesverdig vanskelig å lage denne smarte talemodusen med dagens API-er. Du må i praksis transkribere stemme til en smart modell med ett verktøy og så bruke TTS med et annet, som ikke har den frem-og-tilbake-effekten og avbruddsmuligheten som full multimodal stemme kan tilby.
233