Vuoden 2020 artikkelissamme määrittelimme käyttöönoton tehokkuuden RL-algoritmissa. Johtopäätös on, että suorituskyky rajoittuu enemmän käyttöönottojen tiheyteen kuin näytteisiin. Verkko-opiskelu on avainasemassa, ja juuri näin "post-training" tuli suosituksi LLM:issä. Sunnuntai on 💯 #schmidhubering