Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nawet po gwałtownym postępie w ciągu ostatnich 3 miesięcy, wydajność AI pozostaje związana z znajomością zadania. W dziedzinach, które można gęsto próbować (poprzez programatyczne generowanie + weryfikację), wydajność jest w zasadzie nieograniczona i będzie nadal rosnąć z obecnych poziomów. W nowych, nieznanych dziedzinach wydajność pozostaje niska, a dalszy postęp wciąż wymaga nowych pomysłów, a nie tylko większej ilości danych i mocy obliczeniowej.

21 godz. temu
Ok, myślę, że mój eksperyment z pozostawieniem AI do pracy 24/7 kończy się tutaj. To nie działa. Kod eksploduje w złożoności, wyniki nie są zbyt dobre, AI nie potrafi przejść przez trudne ściany (wciąż jest całkowicie niezdolne do nawet *pojęcia* SupGen), a koszty są szalone (wydałem ~1k w ciągu ostatnich 2 dni). Najlepsze wyniki są w kompilatorze JS, głównie dlatego, że jest znajomy (w porównaniu do inets), ale nie warto tracić kontroli nad bazą kodu.
Myślę, że marzenie o tym, aby AI pracowały w tle i robiły realne postępy w rzeczach, które mają znaczenie (tj. naprawdę nowych rzeczach), jeszcze nie nadeszło. To wciąż maszyna utknęła na własnych danych treningowych, niezdolna do myślenia poza schematami. Jest świetna w budowaniu rzeczy, które już zostały zbudowane. Ale nie w nowych rzeczach.
Ponadto programowanie w normalny sposób ma niedocenianą zaletę, że robisz dwie rzeczy jednocześnie: budujesz bazę kodu *i* ją poznajesz. AI robi tylko połowę z tego. Druga połowa jest oczywiście niemożliwa 🤔
Dla benchmarków, które celują w nowe zadania, powszechną formą oszustwa benchmarkowego, która wykorzystuje tę lukę, jest generowanie gęstego próbkowania potencjalnych zadań poprzez ręczne parametryzowanie przestrzeni, a następnie brutalne wymuszanie. Bardzo kosztowne, ale działa. Niewiele można zrobić, aby przywrócić ważność benchmarku, poza zwiększeniem wymiarowości przestrzeni zadań.
64
Najlepsze
Ranking
Ulubione
