1/ Przedstawiamy nowy backend RL Swarm: GenRL. Modułowa biblioteka uczenia się ze wzmocnieniem stworzona z myślą o rozproszonym, odpornym na awarie szkoleniu - teraz napędza RL Swarm od podstaw. 🧵
2/ Każdy proces roboczy uruchamia własną instancję środowiska, asynchronicznie współtworzy udostępniony bufor wdrażania i aktualizuje wagi modelu niezależnie, dzięki czemu nie jest wymagany centralny kontroler.
3/ GenRL pozwala RL Swarm pracować z dowolnym środowiskiem, opisanym intuicyjnie za pomocą kodu. Ta premiera zawiera Reasoning Gym od razu po wyjęciu z pudełka, dając dostęp do >100 środowisk stworzonych przez społeczność bez konieczności dodatkowej konfiguracji.
4/ Co nowego: – Modułowy backend GenRL – Rozszerzona powierzchnia konfiguracyjna – Wstępnie utworzony obraz Dockera dla łatwego wdrożenia – Środowisko Reasoning Gym w celu zwiększenia możliwości rozumowania modelu – Nowy rój wielozadaniowy
5/ Teraz na żywo w sieci testowej Gensyn. Już dziś możesz uruchomić RL-Swarm z GenRL. Pełny kod + konfiguracja:
157