Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Xây dựng @EurekaLabsAI. Trước đây là Giám đốc AI @ Tesla, nhóm sáng lập @ OpenAI, CS231n / PhD @ Stanford. Tôi thích đào tạo các mạng nơ-ron sâu lớn.
Trong thời đại tiền huấn luyện, điều quan trọng là văn bản trên internet. Bạn chủ yếu muốn có một bộ tài liệu internet lớn, đa dạng và chất lượng cao để học hỏi.
Trong thời đại tinh chỉnh có giám sát, đó là các cuộc trò chuyện. Những người lao động hợp đồng được thuê để tạo ra câu trả lời cho các câu hỏi, giống như những gì bạn thấy trên Stack Overflow / Quora, hoặc v.v., nhưng hướng tới các trường hợp sử dụng LLM.
Cả hai điều trên đều không biến mất (theo ý kiến của tôi), nhưng trong thời đại học tăng cường này, giờ đây là các môi trường. Khác với những điều trên, chúng cho LLM cơ hội thực sự tương tác - thực hiện hành động, xem kết quả, v.v. Điều này có nghĩa là bạn có thể hy vọng làm tốt hơn nhiều so với việc bắt chước chuyên gia thống kê. Và chúng có thể được sử dụng cho cả huấn luyện và đánh giá mô hình. Nhưng cũng giống như trước đây, vấn đề cốt lõi bây giờ là cần một bộ môi trường lớn, đa dạng và chất lượng cao, như các bài tập cho LLM thực hành.
Theo một cách nào đó, tôi nhớ đến dự án đầu tiên của OpenAI (gym), đó chính là một khung làm việc hy vọng xây dựng một bộ sưu tập lớn các môi trường theo cùng một sơ đồ, nhưng điều này diễn ra trước khi có LLM. Vì vậy, các môi trường đó là những nhiệm vụ kiểm soát học thuật đơn giản của thời đó, như cartpole, ATARI, v.v. Trung tâm môi trường @PrimeIntellect (và kho `verifiers` trên GitHub) xây dựng phiên bản hiện đại hóa nhắm đến LLM, và đó là một nỗ lực/ý tưởng tuyệt vời. Tôi đã đề xuất rằng ai đó xây dựng một cái gì đó giống như vậy vào đầu năm nay:
Các môi trường có đặc điểm là một khi khung xương của nó đã được thiết lập, về nguyên tắc, cộng đồng/ngành công nghiệp có thể song song hóa trên nhiều lĩnh vực khác nhau, điều này thật thú vị.
Suy nghĩ cuối cùng - cá nhân và lâu dài, tôi lạc quan về các môi trường và tương tác tác nhân nhưng tôi bi quan về học tăng cường cụ thể. Tôi nghĩ rằng các hàm thưởng là rất đáng ngờ, và tôi nghĩ rằng con người không sử dụng RL để học (có thể họ làm cho một số nhiệm vụ vận động, v.v., nhưng không phải cho các nhiệm vụ giải quyết vấn đề trí tuệ). Con người sử dụng các mô hình học khác nhau mà mạnh mẽ hơn và hiệu quả hơn trong việc lấy mẫu và chưa được phát minh và mở rộng đúng cách, mặc dù đã có những phác thảo và ý tưởng ban đầu (chỉ là một ví dụ, ý tưởng "học hỏi từ hệ thống nhắc nhở", chuyển việc cập nhật sang các token/ngữ cảnh chứ không phải trọng số và tùy chọn tinh chế thành trọng số như một quá trình riêng biệt giống như giấc ngủ).

Prime Intellect03:16 28 thg 8
Giới thiệu về Environments Hub
Các môi trường RL là nút thắt chính cho làn sóng tiến bộ AI tiếp theo, nhưng các phòng thí nghiệm lớn đang khóa chúng lại
Chúng tôi đã xây dựng một nền tảng cộng đồng để crowdsourcing các môi trường mở, để bất kỳ ai cũng có thể đóng góp cho AGI mã nguồn mở
719,11K
Tiếp tục hành trình trải nghiệm lập trình tối ưu với sự hỗ trợ của LLM. Cụ thể, tôi nhận thấy rằng thay vì tập trung vào một điều hoàn hảo, việc sử dụng của tôi ngày càng đa dạng hơn trên một vài quy trình làm việc mà tôi "ghép lại" những ưu/nhược điểm của chúng:
Cá nhân tôi, phần lớn (~75%?) sự hỗ trợ từ LLM của tôi vẫn chỉ là hoàn thành tab (Cursor). Điều này là vì tôi thấy rằng việc viết những đoạn mã/nhận xét cụ thể cho chính mình và ở đúng phần của mã là một cách giao tiếp "đặc tả nhiệm vụ" với LLM có băng thông cao, tức là chủ yếu là về các phần đặc tả nhiệm vụ - việc giao tiếp những gì tôi muốn bằng văn bản tốn quá nhiều phần và quá nhiều độ trễ, và nhanh hơn nhiều khi chỉ cần thể hiện nó trong mã và ở đúng chỗ. Đôi khi mô hình hoàn thành tab thật phiền phức nên tôi thường bật/tắt nó nhiều lần.
Lớp tiếp theo là làm nổi bật một đoạn mã cụ thể và yêu cầu một loại sửa đổi nào đó.
Lớp tiếp theo là Claude Code / Codex / v.v., chạy bên cạnh Cursor, mà tôi sử dụng cho những chức năng lớn hơn cũng khá dễ để chỉ định trong một lời nhắc. Chúng rất hữu ích, nhưng vẫn hỗn hợp tổng thể và đôi khi hơi gây thất vọng. Tôi không chạy ở chế độ YOLO vì chúng có thể đi lệch hướng và làm những điều ngớ ngẩn mà bạn không muốn/cần và tôi thường ESC khá nhiều. Tôi cũng chưa học được cách làm việc hiệu quả với nhiều phiên bản song song - một phiên bản đã cảm thấy đủ khó khăn. Tôi chưa tìm ra cách tốt để giữ cho CLAUDE[.]md tốt hoặc cập nhật. Tôi thường phải thực hiện một lượt "dọn dẹp" cho phong cách lập trình, hoặc các vấn đề về thẩm mỹ mã. Ví dụ, chúng quá phòng thủ và thường lạm dụng các câu lệnh try/catch, chúng thường làm phức tạp hóa các trừu tượng, chúng làm mã phình to (ví dụ, một cấu trúc if-else lồng nhau khi một comprehension danh sách hoặc một câu lệnh if-then-else một dòng sẽ hoạt động), hoặc chúng sao chép các đoạn mã thay vì tạo ra một hàm trợ giúp tốt, những thứ như vậy... chúng cơ bản không có cảm giác thẩm mỹ. Chúng là không thể thiếu trong những trường hợp mà tôi dần dần bước vào một lãnh thổ lập trình theo cảm hứng mà tôi ít quen thuộc hơn (ví dụ, viết một số mã rust gần đây, hoặc các lệnh sql, hoặc bất cứ điều gì khác mà tôi đã làm ít hơn trước đây). Tôi cũng đã thử CC để dạy tôi những điều bên cạnh mã mà nó đang viết nhưng điều đó không hoạt động chút nào - nó thực sự muốn chỉ viết mã nhiều hơn là muốn giải thích bất cứ điều gì trong quá trình. Tôi đã cố gắng để CC thực hiện việc tinh chỉnh siêu tham số, điều đó thật sự thú vị. Chúng cũng rất hữu ích trong tất cả các loại hình trực quan hóa tùy chỉnh một lần hoặc mã gỡ lỗi mà tôi sẽ không bao giờ viết nếu không vì nó sẽ mất quá nhiều thời gian. Ví dụ, CC có thể tạo ra 1.000 dòng mã/trực quan hóa một lần chỉ để xác định một lỗi cụ thể, mà sẽ bị xóa ngay sau khi chúng tôi tìm thấy nó. Đây là thời đại mã sau khan hiếm - bạn có thể chỉ cần tạo ra và sau đó xóa hàng ngàn dòng mã siêu tùy chỉnh, siêu tạm thời bây giờ, không sao cả, nó không còn là một thứ quý giá và tốn kém nữa.
Lớp phòng thủ cuối cùng là GPT5 Pro, mà tôi sử dụng cho những điều khó khăn nhất. Ví dụ, đã có vài lần tôi / Cursor / CC đều bị mắc kẹt vào một lỗi trong 10 phút, nhưng khi tôi sao chép dán toàn bộ vào 5 Pro, nó đi tìm trong 10 phút nhưng sau đó thực sự tìm thấy một lỗi rất tinh vi. Nó rất mạnh. Nó có thể tìm ra tất cả các loại tài liệu và bài báo kỳ lạ. Tôi cũng đã sử dụng nó cho các nhiệm vụ nặng nề khác, ví dụ, gợi ý về cách dọn dẹp các trừu tượng (kết quả hỗn hợp, đôi khi có ý tưởng tốt nhưng không phải tất cả), hoặc một bài đánh giá tài liệu toàn diện về cách mọi người làm điều này hay điều kia và nó trở lại với các tài nguyên / chỉ dẫn liên quan tốt.
Dù sao, việc lập trình cảm thấy hoàn toàn mở ra với khả năng trên một số "loại" lập trình và sau đó là một số công cụ với những ưu/nhược điểm của chúng. Thật khó để tránh cảm giác lo âu về việc không ở trên ranh giới của những gì có thể xảy ra một cách tập thể, do đó là những suy nghĩ ngẫu nhiên trong buổi tắm chủ nhật và một lượng tò mò tốt về những gì người khác đang tìm thấy.
614,38K
Tôi nhận được khoảng 10 cuộc gọi rác mỗi ngày (các tin nhắn thoại tự động khác nhau, "phê duyệt khoản vay trước" v.v.) và khoảng 5 tin nhắn rác mỗi ngày (thường là lừa đảo).
- Tôi có AT&T Active Armor, nhưng tất cả những điều trên vẫn lọt qua.
- Tất cả những điều trên đều đến từ các số mới, độc nhất nên việc chặn không hiệu quả.
- Tôi đã đăng ký vào tất cả các danh sách Không Gọi.
- Tôi đã bật tính năng "Im lặng cuộc gọi không xác định" trên iOS, nhưng ngay cả khi nó bắt và im lặng chúng, tôi vẫn nhận được thông báo.
Không chắc liệu người khác có thấy điều gì tương tự hoặc tìm ra cách nào hiệu quả.
3,54K
Hàng đầu
Thứ hạng
Yêu thích