Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Навіть після стрімкого прогресу за останні 3 місяці продуктивність ШІ залежить від знайомства із завданням. У доменах, які можна щільно вибірково (через програмне генерування + верифікацію), продуктивність фактично не обмежена і постійно зростає від поточних рівнів. У нових, незнайомих сферах продуктивність залишається низькою, а подальший прогрес все ще потребує нових ідей, а не лише додаткових даних і обчислень.

17 годин тому
Гаразд, думаю, мій експеримент із тим, щоб ШІ працював над справами 24/7, на цьому закінчується. Це не працює. Код вибухає в складності, результати не дуже хороші, ШІ не може подолати жорсткі бар'єри (він досі повністю не може навіть *зрозуміти* SupGen), і це шалено дорого (витратили ~1k за останні 2 дні). Найкращі результати мають на компіляторі JS, переважно тому, що він знайомий (у порівнянні з inets), але не варто втрачати контроль над кодом.
Я думаю, що мрія про те, щоб штучний інтелект працював над фоном і досягав реального прогресу у справжньому важливому (тобто справді нових речах), ще не настала. Вона досі машина, що застрягла на власних навчальних даних, не здатна мислити нестандартно. Він чудово підходить для будівництва вже побудованих речей. Але не нові речі
Також програмування зазвичай має недооцінену перевагу — ти робиш дві речі одночасно: створюєш кодову базу *і* її вивчиш. Штучний інтелект робить лише половину цього. Інша половина очевидно неможлива 🤔
Для бенчмарків, що націлені на нові завдання, поширеною формою хакінгу бенчмарків, яка вирішує цю прогалину, є створення щільної вибірки потенційних завдань шляхом ручної параметризації простору та подальшого перебору. Дуже дорого, але працює. Тут мало що можна зробити, щоб відновити валідність бенчмарків, окрім збільшення розмірності простору завдань.
51
Найкращі
Рейтинг
Вибране
