Навіть після стрімкого прогресу за останні 3 місяці продуктивність ШІ залежить від знайомства із завданням. У доменах, які можна щільно вибірково (через програмне генерування + верифікацію), продуктивність фактично не обмежена і постійно зростає від поточних рівнів. У нових, незнайомих сферах продуктивність залишається низькою, а подальший прогрес все ще потребує нових ідей, а не лише додаткових даних і обчислень.
Taelin
Taelin17 годин тому
Гаразд, думаю, мій експеримент із тим, щоб ШІ працював над справами 24/7, на цьому закінчується. Це не працює. Код вибухає в складності, результати не дуже хороші, ШІ не може подолати жорсткі бар'єри (він досі повністю не може навіть *зрозуміти* SupGen), і це шалено дорого (витратили ~1k за останні 2 дні). Найкращі результати мають на компіляторі JS, переважно тому, що він знайомий (у порівнянні з inets), але не варто втрачати контроль над кодом. Я думаю, що мрія про те, щоб штучний інтелект працював над фоном і досягав реального прогресу у справжньому важливому (тобто справді нових речах), ще не настала. Вона досі машина, що застрягла на власних навчальних даних, не здатна мислити нестандартно. Він чудово підходить для будівництва вже побудованих речей. Але не нові речі Також програмування зазвичай має недооцінену перевагу — ти робиш дві речі одночасно: створюєш кодову базу *і* її вивчиш. Штучний інтелект робить лише половину цього. Інша половина очевидно неможлива 🤔
Для бенчмарків, що націлені на нові завдання, поширеною формою хакінгу бенчмарків, яка вирішує цю прогалину, є створення щільної вибірки потенційних завдань шляхом ручної параметризації простору та подальшого перебору. Дуже дорого, але працює. Тут мало що можна зробити, щоб відновити валідність бенчмарків, окрім збільшення розмірності простору завдань.
51