Đăng vào: 2026-05-28
Nếu bạn đã dành thời gian xem xét hạ tầng AI một cách nghiêm túc, bạn đã biết câu chuyện về khả năng tính toán. Nhiều GPU hơn, cụm lớn hơn, chip nhanh hơn, nhiều vốn hơn. Nhưng phần không nhận được đủ sự chú ý, và thẳng thắn mà nói phần khiến các nhà vận hành trung tâm dữ liệu thức trắng đêm, chính là nhiệt.
Nhiệt thô, không ngừng, và không thể thương lượng với định luật vật lý. Bởi đây là điều: bạn có thể đổ cả nghìn tỷ đô la vào việc xây dựng AI, nhưng nếu không thể làm mát phần cứng, chẳng gì trong đó hoạt động được. Làm mát bằng chất lỏng cho trung tâm dữ liệu đã lặng lẽ trở thành nút cổ chai quyết định liệu cả siêu chu kỳ hạ tầng này có thực sự mang lại hiệu quả hay không.
Và vào năm 2026, sau nhiều năm ngành công nghiệp chần chừ và dậm chân tại chỗ, phương hướng đã rõ ràng. Làm mát bằng chất lỏng không còn là một lựa chọn cao cấp cho các khối lượng công việc chuyên biệt nữa. Đối với các cụm AI có mật độ cao nhất, nó đang trở thành một phần của yêu cầu hạ tầng cơ bản.

Làm mát bằng chất lỏng cho trung tâm dữ liệu ngày càng trở nên quan trọng vì mật độ tủ (rack) AI tại các doanh nghiệp hạ tầng AI đang vượt quá khả năng làm mát bằng không khí có thể xử lý hiệu quả.
Các hệ thống quy mô tủ GB200 và GB300 cho thấy hạ tầng AI đang chuyển sang các tải nhiệt trên 100 kW.
Làm mát bằng chất lỏng cải thiện khả năng tản nhiệt bằng cách đưa chất làm lạnh sát hơn tới chip, giảm gánh nặng cho hệ thống làm mát bằng không khí.
Quá trình chuyển đổi không diễn ra suôn sẻ: các nhà vận hành vẫn cần các bộ phân phối chất làm lạnh, phát hiện rò rỉ, việc cải tạo và các thiết kế nhiệt lai.
Vấn đề thực sự không chỉ là hiệu suất. Mà là liệu trung tâm dữ liệu có thể vận hành phần cứng AI mật độ cao ở công suất đầy đủ hay không.
Để hiểu tại sao, hãy xem các thế hệ chip mới nhất thực sự yêu cầu gì về mặt nhiệt. Sự bùng nổ của nhóm cổ phiếu tăng trưởng công nghệ đã thúc đẩy hệ thống NVIDIA GB200 NVL72 cho thấy mật độ công suất ở cấp tủ đã tiến xa đến mức nào.
Các cấu hình công bố liệt kê khoảng 132 kW cho mỗi tủ, với phần lớn tải nhiệt đó được xử lý bằng làm mát bằng chất lỏng thay vì bằng không khí. Một hệ thống quy mô tủ đơn lẻ có thể kết hợp 72 GPU Blackwell và 36 CPU Grace, tạo ra mật độ nhiệt mà theo tiêu chuẩn trung tâm dữ liệu truyền thống chỉ vài năm trước đây sẽ là cực kỳ lớn.
Thách thức không trừu tượng. Ở những mật độ này, các nhà vận hành đang đối mặt với đồng thời nhiều ràng buộc khó khăn:
Nhu cầu lưu lượng không khí tăng mạnh: Quạt phải đẩy nhiều không khí hơn qua bố trí máy chủ chật hơn, làm tăng tiêu thụ điện và áp lực cơ khí.
Nhiệt độ đầu vào thấp hơn trở nên không thực tế: Làm lạnh không khí mạnh đến mức đủ để làm mát các tủ trên 100 kW tạo ra gánh nặng về năng lượng và cơ sở vật chất riêng.
Các điểm nóng trở nên khó kiểm soát hơn: Các cụm GPU mật độ cao gom nhiệt quanh bộ xử lý, bộ nhớ, kết nối mạng và các thành phần nguồn.
Diện tích sàn trở nên ít khoan nhượng hơn: Việc trải dàn phần cứng ra để cho làm mát bằng không khí hiệu quả làm giảm mật độ tính toán và làm suy yếu hiệu quả kinh tế của việc triển khai AI.
Đó là lý do vì sao làm mát một tủ ở mật độ này bằng không khí không phải là giải pháp thực tế về dài hạn ở quy mô lớn. Và yêu cầu chỉ ngày càng tăng từ đây. GB300 NVL72, phiên bản Blackwell tiếp theo, hỗ trợ lên tới 142 kW cho mỗi tủ trong các thiết kế tham chiếu được đồng phát triển cho hạ tầng AI mật độ cao.
Các gia tốc AI cao cấp đang tiến tới ngưỡng công suất khoảng 1,000W cho mỗi chip, và làm mát bằng không khí về cơ bản đã hết chỗ để phát triển đối với những triển khai AI có mật độ công suất cao nhất. Các mật độ tủ vượt 100 kW đang biến làm mát nhúng và làm mát trực tiếp tới chip thành kiến trúc thực tế cho các cụm AI mật độ cao. Đây không phải là một dự báo xa vời. Nó đã là thực tế vận hành cho bất kỳ ai triển khai hạ tầng AI nghiêm túc ngày nay.
Nhiều chuyển đổi công nghệ thường được khung là “tương lai đang đến.” Trường hợp này khác. Các nhà vận hành trung tâm dữ liệu trì hoãn nâng cấp hạ tầng làm mát bằng chất lỏng không chỉ tụt hậu về hiệu quả. Họ còn gánh rủi ro về công suất. Bạn không thể chạy phần cứng ở công suất đầy đủ nếu không có hệ thống làm mát. Nó mang tính nhị phân như vậy.
Đây là lúc câu chuyện trở nên hấp dẫn hơn về khía cạnh đầu tư và vận hành, bởi luận điểm về hiệu quả mạnh hơn hầu hết mọi người nghĩ.
Chất lỏng về mặt truyền nhiệt hiệu quả hơn không khí khoảng 3,000 lần. Đó không phải là cải thiện cận biên. Đó là một loại giải pháp khác hẳn.
Theo truyền thống, làm mát chiếm một tỷ lệ lớn trong tiêu thụ điện của trung tâm dữ liệu, thường được trích dẫn lên đến 40% trong môi trường truyền thống. Điều đó khiến hiệu quả nhiệt trở thành một trong những lĩnh vực quan trọng nhất mà các nhà vận hành có thể giảm cả chi phí hoạt động và nhu cầu năng lượng.
| Đòn bẩy kinh tế | Tại sao làm mát bằng chất lỏng làm thay đổi phương trình |
|---|---|
| Năng lượng làm mát | Làm mát bằng chất lỏng có thể giảm đáng kể năng lượng cần thiết để loại bỏ nhiệt, mặc dù mức tiết kiệm phụ thuộc vào mật độ, khí hậu, thiết kế dàn lạnh và chiến lược sử dụng nước. |
| Mật độ rack | Việc loại nhiệt gần nguồn (gần chip) cho phép các nhà vận hành đặt nhiều khả năng tính toán hơn trong cùng diện tích sàn. |
| Sử dụng phần cứng | Kiểm soát nhiệt tốt hơn giảm rủi ro chip giảm tốc khi chịu tải liên tục. |
| Kinh tế cơ sở | Mật độ cao hơn có thể cải thiện lợi tức trên quỹ đất khan hiếm, công suất điện và kết nối cáp quang. |
| Độ bền vận hành | Nhiệt độ ổn định hơn có thể giảm ứng suất nhiệt, mặc dù lợi ích phụ thuộc vào thiết kế và chất lượng bảo trì. |
Ở quy mô của các hyperscaler, nơi hóa đơn điện chạy đến hàng tỷ mỗi năm, chênh lệch hiệu quả đó không phải là ghi chú phụ. Đó là một yếu tố có ý nghĩa trong kinh tế đơn vị.
Hệ thống làm mát bằng chất lỏng quy mô rack NVIDIA GB200 NVL72 phản ánh cùng lập luận. Khi chất làm mát được dẫn trực tiếp đến chip thay vì dựa vào không khí để mang nhiệt đi nhanh đủ, các nhà vận hành ngừng chống lại quy luật vật lý và bắt đầu tận dụng nó. Mật độ cao hơn trở nên khả thi vì nhiệt được loại bỏ gần nguồn hơn.

Còn có vấn đề giảm xung do nhiệt, vốn thường bị đánh giá thấp. Trong môi trường làm mát bằng không khí chạy gần giới hạn nhiệt, các chip tự động giảm tốc độ xung nhịp để tránh quá nhiệt. Đó là một lực cản âm thầm, kéo dài đối với chính các khối lượng công việc mà các trung tâm dữ liệu này tồn tại để xử lý.
Các hệ thống làm mát bằng chất lỏng cung cấp kiểm soát nhiệt chặt chẽ hơn so với thiết kế làm mát bằng không khí, giúp các chip hiệu năng cao duy trì khối lượng công việc nặng hơn với ít biến động nhiệt hơn. Đối với các công việc huấn luyện AI, nơi thời gian hoàn thành ảnh hưởng trực tiếp tới chi phí hạ tầng, thông lượng đỉnh duy trì so với chu kỳ tăng vọt-rồi-phục hồi là một khác biệt vận hành có ý nghĩa.
Ngoài hóa đơn điện, còn có các luận điểm về độ tin cậy và mật độ tích lũy nhanh chóng. Nhiệt độ ổn định hơn có thể giảm ứng suất do chu kỳ nhiệt, điều này có thể làm giảm rủi ro hỏng hóc và kéo dài tuổi thọ thành phần, mặc dù lợi ích thực tế phụ thuộc vào cường độ khối lượng công việc, thiết kế chất làm mát và kỷ luật bảo trì.
Khi một cụm GPU đại diện cho hàng trăm triệu vốn đầu tư, cải thiện độ tin cậy đó không hề nhỏ. Nó thay đổi các giả định khấu hao, ngân sách bảo trì và kế hoạch chu kỳ làm mới.
Về mật độ: vì các hệ thống chất lỏng nhỏ gọn hơn nhiều so với hạ tầng xử lý không khí cần thiết để làm mát tải tương đương, một số nhà vận hành đã chứng kiến sự gia tăng đáng kể về mật độ tính toán trên mỗi rack sau khi chuyển đổi. Trong một thị trường nơi quỹ đất, công suất điện và kết nối cáp quang ngày càng khan hiếm và đắt đỏ, nhồi nhét nhiều khả năng tính toán hơn vào cùng một diện tích là một lợi thế cơ cấu mà tích lũy theo thời gian.
Làm mát trực tiếp tới chip vẫn là kiến trúc trưởng thành nhất và được triển khai rộng rãi cho nhiều thiết kế rack AI. Làm mát ngâm đang mở rộng song song để phục vụ các triển khai mật độ cực đoan nhất.
Cả hệ thống dùng chất lỏng điện môi một pha lẫn hai pha đều đang được mở rộng, với hệ thống hai pha được định giá cao cho các triển khai mật độ cực đoan. Đây không phải là dự án nghiên cứu ngách. Chúng là cơ sở hạ tầng sản xuất mà các nhà vận hành lớn nhất thế giới đang đặt cược bằng vốn thực.
Microsoft đã triển khai hệ thống làm mát bằng chất lỏng “Sidekick” với các plate lạnh trực tiếp tới chip cho các chip Azure Maia AI Accelerator của mình, và đồng thời đang khám phá vi lưu (microfluidics) để đẩy hiệu quả hơn nữa. Khi các nhà điều hành đám mây lớn đang cải tạo lại các trung tâm dữ liệu hiện có thay vì chỉ chờ các dự án xây mới, điều đó cho bạn thấy độ cấp bách của quá trình chuyển đổi.
Làm mát bằng chất lỏng không phải là một công tắc thần kỳ. Nó đem lại những gánh nặng vận hành riêng.
Các nhà vận hành cần các đơn vị phân phối chất làm mát, hệ thống phát hiện rò rỉ, quản lý áp suất, kiểm soát chất lượng lưu chất, quy trình bảo trì, đào tạo nhân sự và phối hợp chặt chẽ hơn giữa tầng CNTT và cơ sở hạ tầng. Các trung tâm dữ liệu hiện có có thể không có đường ống, khả năng chịu tải sàn, hệ thống thải nhiệt hoặc phân phối điện cần thiết để hỗ trợ các tủ (rack) AI mật độ cao nhất nếu không có cải tạo lớn.
Đó là lý do tại sao các hệ thống lai sẽ vẫn phổ biến. Làm mát bằng không khí sẽ không biến mất. Nó sẽ tiếp tục làm mát các tủ có mật độ thấp hơn, thiết bị lưu trữ, thiết bị mạng và các thành phần phụ bên trong các hệ thống mật độ cao. Sự chuyển dịch không phải là từ không khí sang chất lỏng chỉ sau một đêm. Đó là chuyển từ kiến trúc làm mát ưu thế bằng không khí sang kiến trúc nhiệt do chất lỏng dẫn dắt.
Những nhà vận hành mạnh nhất sẽ không chỉ mua thiết bị làm mát bằng chất lỏng. Họ sẽ thiết kế lại cơ sở xung quanh nhiệt, điện và khả năng tính toán như một hệ thống tích hợp.
Dữ liệu thị trường ở thời điểm này đang nói lên nhiều điều. Một ước tính thị trường dự báo thị trường làm mát bằng chất lỏng cho trung tâm dữ liệu sẽ tăng từ khoảng USD 5.1 tỷ vào năm 2025 lên USD 6.41 tỷ vào năm 2026, với thị trường có xu hướng đạt hơn USD 16 tỷ vào năm 2030. Đó là một câu chuyện tăng trưởng cơ cấu thực sự, chứ không phải một chu kỳ thổi phồng với nhu cầu mơ hồ.

Sổ đặt hàng từ nhà cung cấp là một trong những dấu hiệu rõ ràng nhất cho thấy làm mát bằng chất lỏng đã tiến ra khỏi các dự án thí điểm. Nhu cầu giờ đây đang thể hiện qua các đơn hàng, tiến độ giao hàng và kế hoạch năng lực.
Hàng tồn đọng trong phần này của chuỗi cung ứng cho thấy nhu cầu đang trở nên mang tính cấu trúc, không chỉ mang tính thử nghiệm. Chúng cho thấy nguồn cung bị hạn chế đang đáp ứng nhu cầu cấu trúc vẫn đang gia tăng.
Các nhà cung cấp đám mây hàng đầu được dự báo sẽ chi hàng trăm tỷ đô la cho cơ sở hạ tầng vào năm 2026, với một phần lớn hướng tới tài sản AI vật lý. Mỗi đô la trong chi phí đầu tư cho GPU tạo ra nhu cầu phụ trợ cho các hệ thống làm mát giữ cho các GPU đó hoạt động và đạt hiệu năng. Ở mật độ tủ (rack) trên 100 kW, hạ tầng làm mát không còn là một khoản mục phụ. Nó là một phần của ngân sách tính toán AI.
Sức ép quy định đang thúc đẩy việc áp dụng nhanh hơn, đặc biệt ở châu Âu và Nhật Bản, nơi các chính phủ đang thắt chặt điều kiện hoạt động của các trung tâm dữ liệu quy mô lớn. Các yêu cầu về bền vững không còn là những cam kết mập mờ cho tương lai. Chúng đang định hình lại các thời hạn mua sắm ngay bây giờ.
Năm 2026, khả năng triển khai và mở quy mô hạ tầng làm mát tiên tiến là lợi thế cạnh tranh quyết định. Làm mát bằng chất lỏng không còn có thể được xem là một công nghệ mới nổi hay một tùy chọn bổ sung cho AI mật độ cao.
Những nhà vận hành vẫn đang phòng vệ trong chuyển đổi không phải đang đưa ra quyết định phân bổ vốn thận trọng. Họ đang chịu một loại rủi ro khác: nút cổ chai nhiệt giới hạn mật độ tính toán, chi phí điện về cơ cấu cao hơn so với đối thủ, mức sử dụng tủ (rack) thấp hơn và một trần cho năng lực mở rộng AI đúng vào lúc nhu cầu đang ở mức mạnh nhất. Khoảng cách giữa các cơ sở đã chuyển đổi và những cơ sở chưa chuyển đổi đã có thể đo lường được, và mỗi thế hệ GPU mới lại càng làm rộng khoảng cách đó.
Cuộc cách mạng AI chạy trên các chip. Các chip chạy nhờ làm mát bằng chất lỏng. Và ở thời điểm này, những nhà vận hành hiểu điều đó sớm không chỉ dẫn đầu về cơ sở hạ tầng. Họ dẫn đầu về mọi thứ mà cơ sở hạ tầng đó tạo điều kiện cho.