Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Rakennus @EurekaLabsAI. Aiemmin AI @ Teslan johtaja, perustajatiimi @ OpenAI, CS231n/PhD @ Stanford. Tykkään treenata suuria syviä hermoverkkoja.
Esikoulutuksen aikakaudella internet-tekstillä oli merkitystä. Haluat ensisijaisesti suuren, monipuolisen ja laadukkaan kokoelman Internet-asiakirjoja, joista voit oppia.
Valvotun hienosäädön aikakaudella se oli keskusteluja. Sopimustyöntekijöitä palkataan luomaan vastauksia kysymyksiin, vähän kuten Stack Overflow'ssa / Quorassa tai jne., mutta suunnattu LLM-käyttötapauksiin.
Kumpikaan edellä mainituista ei katoa (imo), mutta tällä vahvistusoppimisen aikakaudella se on nyt ympäristöjä. Toisin kuin edellä mainitut, ne antavat LLM:lle mahdollisuuden todella olla vuorovaikutuksessa - ryhtyä toimiin, nähdä tuloksia jne. Tämä tarkoittaa, että voit toivoa pärjääväsi paljon paremmin kuin tilastoasiantuntijan jäljitelmä. Ja niitä voidaan käyttää sekä mallien koulutukseen että arviointiin. Mutta aivan kuten ennenkin, ydinongelma on nyt se, että tarvitaan laaja, monipuolinen ja laadukas ympäristövalikoima harjoituksiksi, joita vastaan LLM voi harjoitella.
Jollain tapaa mieleeni tulee OpenAI:n ensimmäinen projekti (kuntosali), joka oli täsmälleen kehys, jonka toivottiin rakentavan suuren kokoelman ympäristöjä samaan skeemaan, mutta tämä oli paljon ennen LLM:iä. Ympäristöt olivat siis tuon ajan yksinkertaisia akateemisia ohjaustehtäviä, kuten kärrytanko, ATARI jne. @PrimeIntellect ympäristökeskus (ja GitHubin "todentajien" säilö) rakentaa modernisoidun version, joka on suunnattu erityisesti LLM:ille, ja se on loistava ponnistus/idea. Ehdotin, että joku rakentaisi jotain vastaavaa aiemmin tänä vuonna:
Ympäristöillä on se ominaisuus, että kun kehyksen runko on paikallaan, yhteisö/teollisuus voi periaatteessa rinnakkaistua monilla eri aloilla, mikä on jännittävää.
Viimeinen ajatus - henkilökohtaisesti ja pitkällä aikavälillä suhtaudun myönteisesti ympäristöihin ja agenttien vuorovaikutukseen, mutta olen karhussa erityisesti vahvistusoppimisen suhteen. Mielestäni palkitsemisfunktiot ovat super sus, ja luulen, että ihmiset eivät käytä RL:ää oppimiseen (ehkä he käyttävät joihinkin motorisiin tehtäviin jne., mutta eivät älyllisiin ongelmanratkaisutehtäviin). Ihmiset käyttävät erilaisia oppimisparadigmoja, jotka ovat huomattavasti tehokkaampia ja otostehokkaampia ja joita ei ole vielä kunnolla keksitty ja skaalattu, vaikka varhaisia luonnoksia ja ideoita on olemassa (vain yhtenä esimerkkinä ajatus "järjestelmän nopeasta oppimisesta", päivityksen siirtämisestä tokeneihin/konteksteihin, ei painoihin, ja valinnaisesti tislaamalla painoihin erillisenä prosessina, vähän kuten uni tekee).

Prime Intellect28.8. klo 03.16
Esittelyssä ympäristökeskus
RL-ympäristöt ovat keskeinen pullonkaula tekoälyn kehityksen seuraavalle aallolle, mutta suuret laboratoriot lukitsevat ne
Rakensimme yhteisöalustan avointen ympäristöjen joukkoistamiseen, jotta kuka tahansa voi osallistua avoimen lähdekoodin AGI:hen
797,23K
Jatkamme matkaa kohti optimaalista LLM-avusteista koodauskokemusta. Erityisesti huomaan, että sen sijaan, että kavennaisin täydelliseen yhteen asiaan, käyttöni monipuolistuu yhä enemmän muutamiin työnkulkuihin, joiden edut ja haitat "ompelen":
Henkilökohtaisesti LLM-apuni leipä ja voi (~75%?) on edelleen vain (kohdistin) -välilehti valmis. Tämä johtuu siitä, että olen huomannut, että konkreettisten koodin/kommenttien kirjoittaminen itse ja koodin oikeaan osaan on suuren kaistanleveyden tapa kommunikoida "tehtävämäärittely" LLM:lle, eli kyse on ensisijaisesti tehtävämäärittelybiteistä - tarvitaan liikaa bittejä ja liian paljon viivettä välittääkseni sen, mitä haluan tekstinä, Ja on nopeampaa vain esitellä se koodissa ja oikeassa paikassa. Joskus välilehden täydellinen malli on ärsyttävä, joten kytken sen päälle/pois päältä usein.
Seuraava kerros on korostaa konkreettinen koodinpätkä ja pyytää jonkinlaista muutosta.
Seuraava kerros ylöspäin on Claude Code / Codex / jne., joka toimii Cursorin puolella, johon menen suurempia toimintoja, jotka on myös melko helppo määrittää kehotteessa. Nämä ovat erittäin hyödyllisiä, mutta silti kaiken kaikkiaan ristiriitaisia ja toisinaan hieman turhauttavia. En juokse YOLO-tilassa, koska he voivat mennä pois raiteilta ja tehdä typeriä asioita, joita et halunnut/tarvinnut, ja ESC:tä melko usein. En myöskään ole oppinut olemaan tuottava käyttämällä useampaa kuin yhtä instanssia rinnakkain - yksi tuntuu jo tarpeeksi vaikealta. En ole keksinyt hyvää tapaa säilyttää CLAUDE[.]MD hyvä tai ajan tasalla. Minun on usein tehtävä "siivouksia" koodaustyylin tai koodin maun vuoksi. Esimerkiksi ne ovat liian puolustavia ja käyttävät usein liikaa try/catch-lauseita, ne usein monimutkaistavat abstraktioita liikaa, ne paisuttavat koodia liikaa (esim. sisäkkäinen if-the-else rakentuu, kun luettelon ymmärtäminen tai yksirivinen jos-niin-muuten toimisi), tai ne kopioivat koodipaloja sen sijaan, että loisivat mukavan apufunktion, ja muuta sellaista... heillä ei periaatteessa ole makuaistia. Ne ovat välttämättömiä tapauksissa, joissa siirryn tunnelmallisemmalle koodausalueelle, jossa olen vähemmän perehtynyt (esim. kirjoittamalla viime aikoina ruostetta tai sql-komentoja tai mitä tahansa muuta, mitä olen tehnyt vähemmän aiemmin). Yritin myös CC:tä opettaa minulle asioita kirjoittamansa koodin rinnalla, mutta se ei toiminut ollenkaan - se todella haluaa vain kirjoittaa koodia paljon enemmän kuin selittää mitään matkan varrella. Yritin saada CC:n tekemään hyperparametrien virityksen, mikä oli erittäin huvittavaa. Ne ovat myös erittäin hyödyllisiä kaikenlaisissa pienemmillä panoksilla kertaluonteisissa mukautetuissa visualisoinneissa tai apuohjelmissa tai virheenkorjauskoodissa, joita en muuten koskaan kirjoittaisi, koska se olisi kestänyt aivan liian kauan. Esimerkiksi CC voi takoa 1 000 riviä kertaluonteista laajaa visualisointia/koodia vain tietyn virheen tunnistamiseksi, joka poistetaan heti sen löytämisen jälkeen. Se on niukkuuden jälkeinen koodin aikakausi - voit vain luoda ja sitten poistaa tuhansia rivejä supermukautettua, erittäin lyhytaikaista koodia nyt, se on ok, se ei ole enää tämä kallis asia.
Viimeinen puolustuskerros on GPT5 Pro, johon menen vaikeimpiin asioihin. Esimerkiksi minulle on käynyt muutaman kerran nyt, että minä / kursori / CC olemme kaikki jumissa bugissa 10 minuuttia, mutta kun kopioin ja liitän koko jutun 5 Prohon, se sammuu 10 minuutiksi, mutta löytää sitten todella hienovaraisen virheen. Se on erittäin vahva. Se voi kaivaa esiin kaikenlaisia esoteerisia asiakirjoja ja papereita ja muuta sellaista. Olen käyttänyt sitä myös muihin lihavampiin tehtäviin, esim. ehdotuksiin abstraktioiden siivoamiseksi (ristiriitaisia tuloksia, joskus hyviä ideoita, mutta ei kaikkia), tai kokonaiseen kirjallisuuskatsaukseen siitä, miten ihmiset tekevät sitä tai tätä, ja se tulee takaisin hyvillä asiaankuuluvilla resursseilla/vihjeillä.
Joka tapauksessa koodaus tuntuu täysin räjähtäneeltä, ja siinä on mahdollisuus useisiin koodauksen "tyyppeihin" ja sitten useisiin työkaluihin etuineen/haittaineen. On vaikea välttää ahdistusta siitä, että ei ole kollektiivisesti mahdollisen rajalla, mistä johtuu satunnainen sunnuntai-ajatussuihku ja hyvä määrä uteliaisuutta siitä, mitä muut löytävät.
614,69K
Saan ~10 roskapostipuhelua päivässä (erilaisia automaattisia vastaajaviestejä, "lainan ennakkohyväksyntä" jne.) ja ~5 roskapostiviestiä päivässä (yleensä tietojenkalastelu).
- Minulla on AT&T Active Armor, kaikki yllä oleva lipsahtaa edelleen läpi.
- Kaikki yllä olevat ovat aina uusista, yksilöllisistä numeroista, joten estäminen ei toimi.
- Olen kaikilla Älä soita -listoilla.
- Minulla on iOS "Silence Unknown Callers" päällä, mutta vaikka se nappaisi ja hiljentäisi heidät, saan silti ilmoitukset.
En ole varma, näkevätkö muut ihmiset jotain vastaavaa vai keksivätkö he mitään, mikä toimii
3,84K
Johtavat
Rankkaus
Suosikit