Điểm yếu khiến AMD Instinct MI325X khó cạnh tranh với NVIDIA GB200 Blackwell
Mặc dù đối với “phàm phu tục tử” như chúng ta, chiếc server 8 GPU đã quá nhiều. Nhưng với các công ty tập đoàn BIG TECH, nó không khác gì “muỗi đốt inox”. Ở đây nếu ai từng làm server, IoT app, quản trị IT doanh nghiệp… chắc sẽ hiểu tại sao các công ty lớn cần hạ tầng ICT mạnh. Cụm datacenter càng mạnh thì càng có khả năng phục vụ được nhiều khách hàng, chống chịu tấn công mạng bền hơn, cũng như là down time ít hơn khi cần bảo trì nâng cấp. Với cấu hình tối đa 72 GPU, GB200 đáp ứng điều này tốt hơn MI325X và Gaudi 3.
MI325X lẫn Gaudi 3 hiện chỉ có cấu hình tối đa 8 GPU
Trên thực tế các công ty như Microsoft, Oracle, Amazon, Meta… vốn có khả năng sắm hàng chục – hàng trăm GPU để phục vụ cỗ máy AI thì cái mà họ quan tâm nhiều hơn chính là khả năng liên kết giữa chúng. Sức mạnh tính toán từng con chip cũng quan trọng nhưng không phải duy nhất để quyết định đặt mua một hệ thống. Một rack server chứa được nhiều chip xử lý hơn thường đồng nghĩa với việc nó sẽ xử lý được nhiều dữ liệu hơn. Nó cũng đồng thời dễ triển khai vận hành và bảo trì hơn nhiều cụm server riêng biệt.
Tất nhiên nói đi cũng cần nói lại, Blackwell (GB200/GB300) là dòng sản phẩm đầu tiên NVIDIA có thiết kế dạng rack server. Các thế hệ trước đó gồm cả Hopper (H200) chỉ có cấu hình HGX tối đa 8 GPU (tương tự UBB). Và MI325X lẫn Gaudi 3 chủ yếu được thiết kế để đối đầu với Hopper, không phải Blackwell. Nên sự thua kém về mặt mở rộng hạ tầng datacenter từ AMD lẫn Intel là có thể hiểu được.
Được biết trong tương lai không xa, AMD sẽ triển khai dòng sản phẩm MI400 có thiết kế dạng rack để cạnh tranh với NVIDIA. Nhưng đó sẽ là một câu chuyện khác.