Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

駿HaYaO

Con chim sẻ sống trên Internet

Giải pháp tản nhiệt bằng tinh thể kim cương (Diamond Thermal Solution) có mục đích chính là đối phó với áp lực tản nhiệt của hệ thống và phòng máy do TDP của GPU AI NVIDIA tăng nhanh: 1. Ưu điểm giảm nhiệt của vật liệu kim cương Đường dẫn nhiệt của "nắp đồng + TIM + tấm lạnh" đã trở nên khá căng thẳng khi đạt khoảng 700W, với trở kháng nhiệt chủ yếu bị kẹt ở khu vực giao diện vài trăm micromet giữa chip và tấm lạnh. Độ dẫn nhiệt của đồng khoảng 400 W/m·K, trong khi kim cương polycrystalline CVD cao cấp có thể đạt 1000–1500 W/m·K, và kim cương đơn tinh thể thậm chí gần 2000 W/m·K, tức là ít nhất gấp 3–5 lần đồng. Việc đưa kim cương vào cấp độ chip (thay thế cho vật liệu TIM hiện tại) có thể giảm trở kháng nhiệt theo chiều dọc hơn 50% với cùng độ dày và diện tích, thực tế có thể giảm nhiệt độ tiếp xúc của GPU cấp 1–2kW xuống 10–20°C, hoặc trong điều kiện giữ nguyên giới hạn nhiệt độ, có thể tiêu thụ thêm vài trăm watt công suất. Điều này cho phép B200/B300 tiến tới 1.2–1.4kW, Rubin/Ultra tiến tới 2.3–3.5kW, trong khi vẫn sử dụng cùng một bộ phần cứng làm mát bằng chất lỏng hoặc ngâm, có thể kéo dài thêm vài thế hệ, đồng thời để lại không gian thiết kế nhiệt cho việc lắp đặt thêm nhiều GPU trong một máy và tủ. 2. Tăng cường độ tin cậy và tuổi thọ của gói Khi công suất tiêu thụ tăng lên 2,000W hoặc thậm chí 3,000W trở lên, độ chênh lệch nhiệt độ và ứng suất nhiệt mà gói, bảng mạch và bo mạch phải chịu sẽ tăng lên gấp bội, nhẹ thì gây ra biến dạng gói và bọt khí TIM, nặng thì dẫn đến mỏi hàn, nứt RDL/cục nổi, ảnh hưởng đến độ tin cậy lâu dài. Tản nhiệt bằng kim cương không chỉ dẫn nhiệt tốt theo chiều dọc mà còn có độ dẫn nhiệt trong mặt phẳng rất cao, có thể nhanh chóng phân tán hotspot trong khoảng cách vài milimét, làm giảm đáng kể nhiệt độ đỉnh 300–500W vốn tập trung ở các khu vực cục bộ. Điều này giống như giúp gói và bảng mạch "giải áp": sự không tương thích giữa sự giãn nở nhiệt của silicon, vật liệu gói và bảng mạch được làm dịu, kéo dài chu kỳ biến dạng gói và mỏi hàn. Đối với các GPU tiêu thụ cao như Rubin / Rubin Ultra / Feynman, dịch vụ đào tạo và suy diễn LLM lâu dài có thể hoạt động gần với tần số danh nghĩa một cách ổn định hơn, giảm thiểu lãng phí sức mạnh tính toán do quá nhiệt dẫn đến giảm tần số hoặc chạy lại bất thường, đồng thời nâng cao tổng thể MTBF và tuổi thọ. 3. Giảm chi phí phòng máy và linh hoạt mở rộng Khi TDP của một GPU cao hơn, tổng công suất của cả tủ máy nhanh chóng đạt gần hoặc vượt 120kW, 130kW, cơ sở hạ tầng phân phối điện và làm mát của phòng máy cần phải được cải cách lớn. Nếu không nâng cao khả năng dẫn nhiệt ở đầu chip, chỉ có thể tiếp tục lắp đặt các CDU, tháp làm mát và cấu trúc phân phối điện đắt tiền hơn, và thường bị buộc phải kéo nhiệt độ nước làm mát xuống rất thấp, mở lưu lượng đến mức tối đa để kiểm soát nhiệt độ. Sau khi áp dụng tản nhiệt bằng tinh thể kim cương, mỗi GPU có nhiệt độ thấp hơn và giảm tần suất giảm xung ở cùng nhiệt độ nước và lưu lượng, thực tế nâng cao "sức mạnh tính toán ổn định trên mỗi tủ" mà mỗi tủ có thể cung cấp; đồng thời, do trở kháng nhiệt giảm, cũng có cơ hội cho phép nhiệt độ nước cao hơn một chút hoặc lưu lượng thấp hơn, giảm tiêu thụ năng lượng của bơm và chiller. Quan trọng hơn, nó mở ra sự linh hoạt thiết kế nhiệt cho các GPU cấp 3.5kW–5kW như Rubin Ultra, Feynman, cho phép các nhà sản xuất hệ thống và nhà cung cấp đám mây khi lập kế hoạch cho cụm AI thế hệ tiếp theo có thể xem tản nhiệt bằng kim cương như một "tùy chọn nâng cấp cấp vật liệu", biến tản nhiệt từ việc khắc phục sau vào một phần của thiết kế cấu trúc ban đầu, thay vì phải chờ đến khi nhiệt độ quá cao mới tìm cách giải quyết.

Hàng đầu

Thứ hạng

Yêu thích