Presentiamo Voice-Agents: un nuovo framework di agenti vocali di livello enterprise 🗣️👾 Creare flussi di lavoro agentici abilitati alla voce è diventato più facile, veloce e affidabile. Voice-Agents è un nuovo framework Python pronto per la produzione che offre integrazione senza soluzione di continuità con diversi fornitori di TTS/STT, streaming in tempo reale e tutto ciò di cui hai bisogno per costruire assistenti agentici conversazionali. > Supporto multi-fornitore: OpenAI, ElevenLabs e Groq > Streaming in tempo reale per interazioni agenti a bassa latenza > Pronto per la produzione con logging di livello enterprise, telemetria e gestione degli errori Scopri di più ⬇️🧵
2 / Supporto TTS Multi-Provider Passa tra i fornitori senza sforzo con un'API unificata. Che tu abbia bisogno delle voci naturali di OpenAI, delle opzioni espressive di ElevenLabs o dell'inferenza veloce di Groq, Voice-Agents gestisce tutto con interfacce coerenti. > 10+ voci di OpenAI (alloy, nova, shimmer e altre) > 30+ voci di ElevenLabs con controllo vocale avanzato > La funzione stream_tts() unificata funziona con tutti i fornitori Esempi:
3 / Architettura di Streaming in Tempo Reale Progettata per sistemi basati su agenti che necessitano di streaming audio a bassa latenza. Voice-Agents elabora i chunk audio man mano che arrivano, consentendo conversazioni naturali senza pause o ritardi imbarazzanti. > StreamingTTSCallback parla automaticamente frasi complete dagli output degli agenti > Streaming basato su generatori per FastAPI e applicazioni web > Rilevamento intelligente delle frasi per pause naturali nel parlato Github:
4 / Capacità avanzate di riconoscimento vocale in testo Trascrizione ad alta precisione alimentata da OpenAI Whisper e ElevenLabs STT. Supporta più formati di input, diarizzazione degli speaker, timestamp e rilevamento della lingua per un'elaborazione audio completa. > Trascrizione audio basata su file e in tempo reale > Diarizzazione degli speaker ed estrazione dei timestamp > Supporto per array numpy, file audio e audio in streaming Esempi:
5 / Infrastruttura Pronta per la Produzione Funzionalità di livello enterprise integrate in ogni componente. Dalla gestione delle connessioni e supporto per HTTP/2 a una gestione degli errori completa e sicurezza dei tipi, Voice-Agents è progettato per la scalabilità. > Client HTTP ottimizzato con gestione delle connessioni e keepalive > Suggerimenti di tipo completi e tipi Literal per un migliore supporto IDE > Utilità audio integrate: registrazione, riproduzione, conversione di formato
6 / Casi d'uso: Da agenti di trading a assistenti vocali Voice-Agents alimenta applicazioni nel mondo reale in vari settori. Crea sistemi di trading abilitati alla voce, assistenti AI conversazionali, servizi di trascrizione in tempo reale e applicazioni multi-modali con esperienze interattive ricche. > Agenti di trading abilitati alla voce con narrazione di mercato in tempo reale > Assistenti AI conversazionali con sintesi vocale naturale > Sistemi di trascrizione di riunioni e elaborazione di interviste
7 / Integrazione Seamless Swarms Parte dell'ecosistema Swarms, il framework di orchestrazione multi-agente di livello enterprise. Voice-Agents si integra direttamente con gli agenti Swarms, abilitando sistemi multi-agente con supporto vocale pronti all'uso. > Funziona senza problemi con la classe Swarms Agent > Callback in streaming per risposte in tempo reale degli agenti > Inizia: pip install voice-agents
11