1/ Introductie van de nieuwe backend van RL Swarm: GenRL. Een modulaire leerbibliotheek voor versterking die is gebouwd voor gedistribueerde, fouttolerante training - die RL Swarm nu vanaf de grond af aanstuurt. 🧵
2/ Elke werknemer voert zijn eigen omgevingsinstantie uit, draagt asynchroon bij aan een gedeelde implementatiebuffer en werkt de modelgewichten onafhankelijk bij, zodat er geen centrale controller nodig is.
3/ GenRL stelt RL Swarm in staat om met elke omgeving te werken, intuïtief beschreven door middel van code. Deze lancering bevat Reasoning Gym out-of-the-box, waardoor toegang wordt gegeven tot >100 door de gemeenschap gemaakte omgevingen zonder dat er extra configuratie nodig is.
4/ Wat is er nieuw: – Modulaire GenRL-backend – Uitgebreid configuratieoppervlak - Vooraf gebouwde Docker-image voor eenvoudige implementatie - Reasoning Gym-omgeving om het vermogen om modellen te redeneren te verbeteren - Nieuwe multi-task zwerm
5/ Nu live op het Gensyn testnet. U kunt RL-Swarm vandaag nog met GenRL uitvoeren. Volledige code + setup:
52,24K