Presentamos Voice-Agents: Un nuevo marco de agentes de voz de nivel empresarial 🗣️👾 Crear flujos de trabajo con agentes habilitados para voz ahora es más fácil, rápido y confiable. Voice-Agents es un nuevo marco de Python listo para producción que proporciona integración sin problemas con múltiples proveedores de TTS/STT, transmisión en tiempo real y todo lo que necesitas para construir asistentes conversacionales. > Soporte de múltiples proveedores: OpenAI, ElevenLabs y Groq > Transmisión en tiempo real para interacciones de agentes de baja latencia > Listo para producción con registro de nivel empresarial, telemetría y manejo de errores Aprende más ⬇️🧵
2 / Soporte TTS de Múltiples Proveedores Cambia entre proveedores sin esfuerzo con una API unificada. Ya sea que necesites las voces naturales de OpenAI, las opciones expresivas de ElevenLabs o la rápida inferencia de Groq, Voice-Agents lo maneja todo con interfaces consistentes. > Más de 10 voces de OpenAI (alloy, nova, shimmer, y más) > Más de 30 voces de ElevenLabs con control de voz avanzado > La función stream_tts() unificada funciona en todos los proveedores Ejemplos:
3 / Arquitectura de Streaming en Tiempo Real Construida para sistemas basados en agentes que necesitan streaming de audio de baja latencia. Voice-Agents procesa los fragmentos de audio a medida que llegan, permitiendo conversaciones naturales sin pausas o retrasos incómodos. > StreamingTTSCallback habla automáticamente oraciones completas a partir de las salidas del agente > Streaming basado en generadores para FastAPI y aplicaciones web > Detección inteligente de oraciones para pausas naturales en el habla Github:
4 / Capacidades avanzadas de conversión de voz a texto Transcripción de alta precisión impulsada por OpenAI Whisper y ElevenLabs STT. Soporta múltiples formatos de entrada, diarización de hablantes, marcas de tiempo y detección de idiomas para un procesamiento de audio integral. > Transcripción de audio basada en archivos y en tiempo real > Diarización de hablantes y extracción de marcas de tiempo > Soporte para arreglos numpy, archivos de audio y audio en streaming Ejemplos:
5 / Infraestructura lista para producción Características de nivel empresarial integradas en cada componente. Desde agrupamiento de conexiones y soporte para HTTP/2 hasta un manejo de errores completo y seguridad de tipos, Voice-Agents está diseñado para escalar. > Cliente HTTP optimizado con agrupamiento de conexiones y keepalive > Sugerencias de tipo completas y tipos literales para mejor soporte en IDE > Utilidades de audio integradas: grabación, reproducción, conversión de formato
6 / Casos de uso: Desde agentes de trading hasta asistentes de voz Los agentes de voz impulsan aplicaciones del mundo real en diversas industrias. Crea sistemas de trading habilitados para voz, asistentes de IA conversacionales, servicios de transcripción en tiempo real y aplicaciones multimodales con experiencias interactivas ricas. > Agentes de trading habilitados para voz con narración del mercado en tiempo real > Asistentes de IA conversacionales con síntesis de voz natural > Sistemas de transcripción de reuniones y procesamiento de entrevistas
7 / Integración de Swarms Sin Costuras Parte del ecosistema de Swarms, el marco de orquestación multi-agente de nivel empresarial. Voice-Agents se integra directamente con los agentes de Swarms, permitiendo sistemas multi-agente habilitados para voz desde el primer momento. > Funciona sin problemas con la clase de Agente de Swarms > Retornos de streaming para respuestas de agentes en tiempo real > Comienza: pip install voice-agents
15