Sự kiện AMD Advancing AI đã được diễn ra, và mod Minh Đức cũng đã có mặt tại sự kiện để gửi tới anh em thông tin về những con chip xử lý mà “đội đỏ” đã tạo ra để phục vụ cả hai thị trường HPC và PC, cả những hệ thống máy chủ nằm bên trong những trung tâm dữ liệu khổng lồ, được các tập đoàn công nghệ vận hành để huấn luyện và chạy những mô hình ngôn ngữ, lẫn những hệ thống máy bàn và laptop dành cho người tiêu dùng chúng ta.
Đầu tiên, hãy đến với chip tăng tốc xử lý AI được nhắc đến nhiều nhất trên các mặt báo công nghệ nước ngoài trong vài tháng gần đây, Instinct MI300X, thứ được coi là vũ khí cạnh tranh của AMD trước những chip GPU AI mạnh nhất của Nvidia hiện tại.
Tận dụng sức mạnh của tiến trình gia công bán dẫn từ TSMC, die chip MI300X sở hữu thiết kế chiplet để tạo ra hiệu năng vận hành những thuật toán AI phức tạp nhất hiện giờ.
Đầu tiên, hãy đến với chip tăng tốc xử lý AI được nhắc đến nhiều nhất trên các mặt báo công nghệ nước ngoài trong vài tháng gần đây, Instinct MI300X, thứ được coi là vũ khí cạnh tranh của AMD trước những chip GPU AI mạnh nhất của Nvidia hiện tại.
Instinct MI300X: Mạnh hơn Nvidia H100 tới 60%
Tận dụng sức mạnh của tiến trình gia công bán dẫn từ TSMC, die chip MI300X sở hữu thiết kế chiplet để tạo ra hiệu năng vận hành những thuật toán AI phức tạp nhất hiện giờ.
MI300X dù đã được AMD giới thiệu từ hồi giữa năm 2023, nhưng tại sự kiện diễn ra vào tối qua theo giờ Việt Nam, những chỉ số mô tả hiệu năng của MI300X lần đầu tiên được AMD công bố, so sánh trực tiếp với GPU AI mạnh nhất hiện giờ, Nvidia Hopper H100:
- Dung lượng bộ nhớ cao hơn 2.4 lần
- Băng thông bộ nhớ cao hơn 1.6 lần
- Xử lý số thực dấu phẩy động FP8 nhanh hơn 1.3 lần
- Xử lý số thực dấu phẩy động FP16 nhanh hơn 1.3 lần
- Xử lý Llama 2 70B nhanh hơn H100 20% nếu so sánh trực tiếp 1 vs 1
- Xử lý FlashAttention 2 nhanh hơn H100 20% nếu so sánh trực tiếp 1 vs 1
- Xử lý Llama 2 70B nhanh hơn H100 40% nếu so sánh hai hệ thống với 8 GPU
- Xử lý Bloom 176B nhanh hơn H100 60% nếu so sánh hai hệ thống với 8 GPU
AMD cho biết thêm, ở khia cạnh huấn luyện thuật toán, MI300X ngang ngửa với H100, nhưng chi phí và tỷ lệ price/performance hấp dẫn hơn nhiều so với Nvidia H100. Khía cạnh cho phép MI300X tỏa sáng là quá trình nội suy để những mô hình ngôn ngữ và những dịch vụ chatbot dựa trên LLM tạo ra những câu trả lời cho người dùng.
Để vận hành con chip AI cực mạnh này, AMD công bố gói phần mềm phát triển ROCm 6.0, được cập nhật để hỗ trợ tối ưu cho những LLM hay AI tạo nội dung. ROCm 6.0 cho phép GPU vận hành nội suy nội dung mới ở những chế độ FP16, Bf16 và FP8. Khi thư viện nội suy được tối ưu, vận hành những chatbot hay mô hình ngôn ngữ trên những hệ thống trang bị MI300X sẽ có tốc độ tăng 2.6 lần.
Về cấu hình con chip, AMD Instinct MI300X sẽ là đối thủ cạnh tranh trực tiếp với Nvidia H100 và Intel Gaudi2. Khác với MI300A là một SoC đúng nghĩa, MI300X chỉ có nhân xử lý AI kiến trúc GPU CDNA 3, bao gồm những CCX được gia công trên tiến trình 5 và 6nm TSMC, tổng cộng 153 tỷ transistor trên con chip.
Thiết kế chip MI300X bắt đầu với cụm interposer với những lớp cầu nối interconnect ứng dụng giải pháp Infinity Fabric thế hệ thứ 4. 28 die interposer bao gồm 8 gói bộ nhớ HBM3, 16 die dummy giữa những gói chip nhớ HBM3, và 4 die chip xử lý. Trên mỗi die chip xử lý là 2 die chứa những transistor logic, gom thành từng compute unit.
Quảng cáo
Mỗi GCD được phát triển từ kiến trúc GPU chuyên biệt xử lý AI mang tên CDNA 3 bao gồm 40 compute unit, tức là 2560 nhân xử lý. 8 GCD nhân với 40 compute unit, chip MI300X sở hữu tổng cộng 320 CU, 20480 nhân xử lý. Để đảm bảo tỷ lệ chip đạt chuẩn, thay vì thiết kế trên giấy tờ, AMD sẽ bán ra thị trường những mẫu MI300X với 304 CU, tức là mỗi chiplet GCD là 38 thay vì 40 CU, tổng cộng 19456 nhân xử lý.
Khía cạnh được cải tiến mạnh trên MI300X chính là bộ nhớ, linh kiện dùng để xử lý lượng dữ liệu khổng lồ và những tham số của những mô hình ngôn ngữ. So với MI250X đang có trên thị trường, MI300X có dung lượng bộ nhớ HBM3 cao hơn 50%, tức là từ 128 lên 192GB. Băng thông bộ nhớ đạt con số khổng lồ 5.3 TB/s, băng thông cầu nối Infinity Fabric đạt ngưỡng 896 GB/s. Để tiện so sánh thì Nvidia H200 chỉ có 141 GB bộ nhớ, Intel Gaudi3 chỉ có 144 GB bộ nhớ. Công suất tiêu thụ điện của MI300X là 750W, cao hơn 50% so với TDP 500W của MI250X, cao hơn 50W so với Nvidia H200.
Một ví dụ máy chủ ứng dụng MI300X là server của Gigabyte mang tên G593-ZX1/ZX2, 8 chip MI300X, 2 chip CPU AMD EPYC 9004. Để vận hành hệ thống như trong hình trên, cần 8 bộ nguồn 3000W, tổng cộng điện năng tiêu thụ 18 kW.
Instinct MI300A đi vào sản xuất thương mại
Nếu như Instinct MI300X chỉ thuần túy là những nhân GPU kiến trúc CDNA 3, thì MI300A lại là một APU đúng nghĩa đen, bao gồm cả nhân CPU, nhân GPU và bộ nhớ HBM3 trên cùng một die chip kích thước lớn. Dự kiến MI300A sẽ ra mắt vào đầu năm 2024, với lời hứa đem lại tốc độ nhanh hơn gấp 4 lần, tiêu thụ điện năng chỉ bằng một nửa so với Nvidia H100.
APU này ứng dụng nhân CPU kiến trúc Zen 4, nhân GPU kiến trúc CDNA 3, cầu nối dữ liệu Infinity Fabric thế hệ thứ 4, với những thông số kỹ thuật như sau:
- Xử lý số thực dấu phẩy động FP64 ở sức mạnh 61 TFLOPS
- Xử lý số thực dấu phẩy động FP32 ở sức mạnh 122 TFLOPS
- Tối đa 128GB RAM HBM3
- Băng thông bộ nhớ tối đa 5.3 TB/s
- 146 tỷ transistor trên bề mặt die
Instinct MI300A được tạo ra phục vụ cho nhu cầu xây dựng những data center và hệ thống HPC vận hành AI, sức mạnh chạm ngưỡng exaflop như những hệ thống siêu máy tính.
Cũng ứng dụng thiết kế chiplet, trên MI300A là hai die xử lý logic. Một trong hai die này được lược bỏ hai GCD với những transistor thiết kế GPU kiến trúc CDNA 3, thay thế bằng 3 CCD kiến trúc Zen 4, tức là thay GPU thành CPU, tổng cộng 24 nhân 48 luồng xử lý. Xét riêng nhân CPU, nó có 24MB bộ nhớ đệm L2, mỗi nhân 1MB, và bộ nhớ đệm L3 riêng, 32MB cho mỗi CCD, hoạt động độc lập với bộ nhớ L2 của cụm nhân GPU CDNA 3:
Bên cạnh 24 nhân CPU Zen 4, là 228 CU kiến trúc CDNA 3, tổng cộng 14592 nhân xử lý, tức là mỗi chiplet có 38 CU. Thay vì nhắm tới nhu cầu vận hành LLM và những thuật toán AI như MI300X, MI300A được tạo ra phục vụ nhu cầu xử lý trên những hệ thống HPC như máy chủ đám mây hay trung tâm dữ liệu.
Theo AMD, Instinct MI300A sẽ được trang bị cho siêu máy tính El-Capitan thế hệ mới, sau khi lắp đặt xong sẽ tạo ra sức mạnh xử lý 2 exaflop. Hiện tại, cũng mới chỉ có AMD là vượt qua được cột mốc 1 exaflop sức mạnh tính toán số thực dấu phẩy động, với hệ thống Frontier. Không chỉ là siêu máy tính mạnh nhất hành tinh theo thống kê của Top500, mà Frontier còn đang là hệ thống siêu máy tính tiết kiệm điện nhất thế giới:
Ryzen 8000 Hawk Point: APU có cả nhân xử lý deep learning
Intel Core 14th Gen tên mã Meteor Lake sẽ có những cụm nhân xử lý NPU phục vụ riêng cho nhu cầu vận hành những thuật toán AI trên hệ điều hành. Và AMD cũng sẽ có những giải pháp tương tự cho máy tính cá nhân, chính xác hơn là những chiếc laptop. Ryzen 8000 Hawk Point sẽ là những con chip dựa trên APU Ryzen 7000 Phoenix. Vẫn là nhân CPU kiến trúc Zen 4, vẫn là nhân GPU kiến trúc RDNA 3, nhưng giờ sẽ có thêm nhân xử lý NPU kiến trúc XDNA.
Ryzen 8000 Hawk Point được chia thành ba phân khúc. Đầu tiên là những chip phân khúc high end, Ryzen 8045HS, xung nhịp cao nhất. Kế đến là những giải pháp tầm trung Ryzen 8040HS. Và cuối cùng là những chip Ryzen 8040U nhắm tới thị trường bình dân. Những thông số kỹ thuật của Hawk Point có thể tổng hợp lại như sau:
- Kiến trúc CPU Zen 4 tiến trình 4nm
- Kiến trúc GPU RDNA 3
- Tối đa 8 nhân 16 luồng xử lý
- Trang bị GPU mạnh nhất là Radeon 780M với 12CU
- Xung nhịp tối đa 5.2 GHz
- Chip xử lý AI kiến trúc XDNA
- Hiệu năng xử lý AI tối đa 16 TOPs
- TDP dao động từ 15 đến 54W
- Ra mắt thị trường vào quý I năm 2024
Ba phân khúc chip APU Ryzen 8000 Hawk Point cụ thể hơn được chia thành những sản phẩm như sau:
- Ryzen 8045HS bao gồm ba sản phẩm cao cấp nhất: Ryzen 9 8945HS, Ryzen 7 8845HS và Ryzen 5 8645HS, TDP dao động từ 35 đến 54W, trang bị từ 6 đến 8 nhân CPU, lựa chọn iGPU Radeon 760M hoặc 780M, xung nhịp boost tối đa của CPU 5.2 GHz.
- Ryzen 8040HS bao gồm hai sản phẩm: Ryzen 7 8840HS và Ryzen 5 8640HS. Những chiếc laptop trang bị hai con chip này được thiết kế để APU vận hành trong khoảng từ 20 đến 30W. Hai lựa chọn CPU tầm trung này sở hữu 8 nhân hoặc 6 nhân CPU, 16MB bộ nhớ đệm, iGPU Radeon 780M hoặc 760M, xung nhịp boost tối đa của CPU 4.9 GHz.
- Ryzen 8040U bao gồm 4 sản phẩm: Ryzen 7 8840U, Ryzen 5 8640U, Ryzen 5 8540U và Ryzen 3 8440U. Hai phiên bản 8540U và 8440U sẽ không có nhân NPU vì dựa trên kiến trúc die hybrid kích thước nhỏ hơn. Cả bốn APU này đều được trang bị GPU tích hợp Radeon 740M với 4 compute unit.
Hawk Point được phát triển và sản xuất để đón đầu xu hướng AI PC, khi những tin đồn xoay quanh Windows 12 đều nói rằng, hệ điều hành máy tính cá nhân mới của Windows sẽ sở hữu nhiều tính năng AI như Copilot xử lý local ngay trên chip xử lý của máy tính chẳng hạn. Vậy nên cả Intel lẫn AMD đều đang phát triển ra những chip xử lý với cụm NPU riêng biệt, chỉ dùng để xử lý những thuật toán AI phục vụ cho trải nghiệm người dùng.
Ryzen 8050 Strix Point: Nhân AI XDNA 2, ra mắt nửa cuối năm 2024
Thế hệ kế tiếp của những APU trang bị cụm nhân xử lý machine learning sẽ có tên mã Strix Point, kiến trúc NPU XDNA 2, sức mạnh xử lý thuật toán mô hình ngôn ngữ hay những thuật toán machine learning cao gấp 3 lần so với kiến trúc XDNA. Trước Strix Point, đầu năm 2024 tới, những APU kiến trúc Hawk Point sẽ được thương mại hóa, với những sản phẩm thương mại dự kiến được giới thiệu chính thức tại CES 2024 diễn ra vào tháng 1 tới. Đến nửa sau năm 2024, Strix Point mới ra mắt thị trường.
Đáng chú ý hơn cả, không chỉ có kiến trúc NPU XDNA 2, nhân CPU của Strix Point cũng sẽ ứng dụng kiến trúc Zen 5 mới nhất của AMD, ra mắt nửa cuối năm sau. Cùng với đó là kiến trúc nhân chip GPU RDNA 3.5 phiên bản cải tiến, dự kiến mang lại hiệu năng còn cao hơn cả Radeon 780M hiện giờ.
Thiết kế kiến trúc Strix Point sẽ được chia thành hai dạng sản phẩm, Mono và Halo. Mono là những die silicon bố cục monolithic, còn Halo sẽ có thiết kế chiplet. Cụ thể hơn, dưới đây là những thông số kỹ thuật của Strix Point Mono:
- Thiết kế monolithic Zen 5 4nm
- Tối đa 12 nhân hybrid Zen 5 và Zen 5C
- Bộ nhớ đệm L3 dùng chung 32MB
- Ở công suất tiêu thụ điện 50W, hiệu năng CPU cao hơn 35% so với thế hệ chip Ryzen 7040
- GPU gồm 16 Compute Unit kiến trúc RDNA 3+
- Sức mạnh tối đa ngang với RTX 3050 Max-Q, đủ chơi game eSports
- Memory Controller 128-bit LPDDR5x
- Tích hợp NPU kiến trúc XDNA 2, sức mạnh khoảng 25 TOPs
Còn thiết kế chiplet Strix Point Halo sẽ có những thông số kỹ thuật cơ bản như sau:
- Nhân CPU dạng chiplet nhiều CCX kiến trúc Zen 5
- Tối đa 16 nhân CPU
- Bộ nhớ đệm L3 64MB
- Ở công suất tiêu thụ điện 90W, hiệu năng CPU cao hơn thế hệ Dragon Range 16 nhân khoảng 25%
- GPU gồm 40 Compute Unit kiến trúc RDNA 3+
- Sức mạnh tối đa ngang ngửa RTX 4070 Max-Q, phục vụ tốt nhu cầu của mọi gamer
- Memory Controller 256-bit LPDDR5x
- Tích hợp NPU kiến trúc XDNA 2, sức mạnh khoảng 50 TOPs
Có thể nói, nếu như Hawk Point được tạo ra để cạnh tranh trực tiếp với thế hệ chip xử lý Meteor Lake sắp ra mắt của Intel, thì Strix Point sẽ là đối thủ cạnh tranh với thế hệ chip Arrow Lake, dự kiến ra mắt thị trường cùng thời điểm nửa cuối năm 2024.