Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ngay cả sau sự tiến bộ mạnh mẽ trong 3 tháng qua, hiệu suất của AI vẫn gắn liền với sự quen thuộc với nhiệm vụ. Trong các lĩnh vực có thể được lấy mẫu dày đặc (thông qua việc tạo ra và xác minh theo chương trình), hiệu suất thực sự không bị giới hạn và sẽ tiếp tục tăng từ mức hiện tại. Trong các lĩnh vực mới, chưa quen thuộc, hiệu suất vẫn thấp và sự tiến bộ thêm vẫn cần những ý tưởng mới, không chỉ là nhiều dữ liệu và tính toán hơn.

16 giờ trước
Được rồi, tôi nghĩ thí nghiệm để AI làm việc 24/7 của tôi kết thúc ở đây. Nó không hiệu quả. Mã nguồn trở nên phức tạp, kết quả không tốt lắm, AI không thể vượt qua những bức tường khó khăn (nó vẫn hoàn toàn không thể *hiểu* SupGen), và chi phí thì cực kỳ đắt đỏ (đã tiêu tốn khoảng 1k trong 2 ngày qua). Kết quả tốt nhất là trên trình biên dịch JS, chủ yếu vì nó quen thuộc (so với inets), nhưng không đáng để mất kiểm soát đối với mã nguồn.
Tôi nghĩ giấc mơ có AI làm việc ở nền tảng và tạo ra tiến bộ thực sự trong những thứ quan trọng (tức là, những thứ thực sự mới mẻ) vẫn chưa đến. Nó vẫn là một cỗ máy bị kẹt cứng vào dữ liệu huấn luyện của chính nó, không thể suy nghĩ ngoài khuôn khổ. Nó rất tuyệt để xây dựng những thứ đã được xây dựng. Nhưng không phải những thứ mới.
Ngoài ra, việc lập trình bình thường có lợi thế không được đánh giá cao là bạn đang làm hai việc cùng một lúc: xây dựng một mã nguồn *và* học nó. AI chỉ làm được một nửa trong số đó. Nửa còn lại thì rõ ràng là không thể 🤔
Đối với các tiêu chuẩn đánh giá nhắm vào các nhiệm vụ mới, một hình thức hack tiêu chuẩn đánh giá phổ biến để tận dụng khoảng trống này là tạo ra một mẫu dày đặc các nhiệm vụ tiềm năng bằng cách tham số hóa thủ công không gian và sau đó thực hiện brute-force. Rất tốn kém nhưng nó hoạt động. Không có nhiều điều bạn có thể làm để khôi phục tính hợp lệ của tiêu chuẩn đánh giá ở đây ngoài việc tăng cường độ chiều của không gian nhiệm vụ.
47
Hàng đầu
Thứ hạng
Yêu thích
