Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/
Przedstawiamy nowy backend RL Swarm: GenRL.
Modułowa biblioteka uczenia się ze wzmocnieniem stworzona z myślą o rozproszonym, odpornym na awarie szkoleniu - teraz napędza RL Swarm od podstaw. 🧵
2/
Każdy proces roboczy uruchamia własną instancję środowiska, asynchronicznie współtworzy udostępniony bufor wdrażania i aktualizuje wagi modelu niezależnie, dzięki czemu nie jest wymagany centralny kontroler.
3/
GenRL pozwala RL Swarm pracować z dowolnym środowiskiem, opisanym intuicyjnie za pomocą kodu.
Ta premiera zawiera Reasoning Gym od razu po wyjęciu z pudełka, dając dostęp do >100 środowisk stworzonych przez społeczność bez konieczności dodatkowej konfiguracji.
4/
Co nowego:
– Modułowy backend GenRL
– Rozszerzona powierzchnia konfiguracyjna
– Wstępnie utworzony obraz Dockera dla łatwego wdrożenia
– Środowisko Reasoning Gym w celu zwiększenia możliwości rozumowania modelu
– Nowy rój wielozadaniowy
5/
Teraz na żywo w sieci testowej Gensyn.
Już dziś możesz uruchomić RL-Swarm z GenRL.
Pełny kod + konfiguracja:
157
Najlepsze
Ranking
Ulubione