Vào ngày 1 tháng 9 năm 2020, NVIDIA đã tiết lộ dòng sản phẩm GPU chơi game mới của mình: dòng RTX 3000, dựa trên kiến trúc Ampere của họ. Chúng ta sẽ thảo luận về tính năng mới, phần mềm hỗ trợ AI đi kèm và tất cả các chi tiết khiến thế hệ này thực sự tuyệt vời.
Làm quen với GPU RTX 3000 Series
Thông báo chính của NVIDIA là các GPU mới sáng bóng, tất cả đều được xây dựng trên quy trình sản xuất 8 nm tùy chỉnh và tất cả đều mang lại tốc độ lớn trong cả quá trình phân loại và có hi vọng hiệu suất.
Ở phần cuối của đội hình, có RTX 3070 , có giá 499 đô la. Nó hơi đắt đối với thẻ rẻ nhất được NVIDIA công bố vào lần công bố đầu tiên, nhưng đó là một sự ăn cắp tuyệt đối khi bạn biết rằng nó đánh bại RTX 2080 Ti hiện có, một thẻ hàng đầu thường được bán lẻ với giá hơn 1400 đô la. Tuy nhiên, sau thông báo của NVIDIA, giá bán của bên thứ ba đã giảm xuống, với một số lượng lớn trong số đó được bán trên eBay với giá dưới 600 đô la.
Không có điểm chuẩn vững chắc nào kể từ khi thông báo, vì vậy không rõ liệu thẻ có có thật không về mặt khách quan là "tốt hơn" so với 2080 Ti, hoặc nếu NVIDIA đang xoay chuyển tiếp thị một chút. Các điểm chuẩn đang được chạy ở mức 4K và có khả năng đã bật RTX, điều này có thể làm cho khoảng cách trông lớn hơn so với trong các trò chơi đơn thuần, vì dòng 3000 dựa trên Ampere sẽ hoạt động tốt hơn gấp đôi ở khả năng dò tia so với Turing. Tuy nhiên, với tính năng dò tia hiện là thứ không ảnh hưởng nhiều đến hiệu suất và được hỗ trợ trong thế hệ bảng điều khiển mới nhất, nên việc để nó chạy nhanh như hàng đầu của thế hệ trước với gần một phần ba giá là một lợi thế lớn.
Cũng không rõ liệu giá có tiếp tục như vậy hay không. Các thiết kế của bên thứ ba thường thêm ít nhất $ 50 vào thẻ giá và với nhu cầu cao như thế nào, sẽ không ngạc nhiên khi nó được bán với giá $ 600 vào tháng 10 năm 2020.
Ngay trên đó là RTX 3080 ở mức $ 699, nhanh gấp đôi RTX 2080 và nhanh hơn khoảng 25-30% so với 3080.
Sau đó, ở đầu trên cùng, hàng đầu mới là RTX 3090 , rất lớn về mặt hài hước. NVIDIA nhận thức rõ ràng và gọi nó là “BFGPU”, mà công ty nói là viết tắt của “Big Ferocious GPU”.
NVIDIA không hiển thị bất kỳ chỉ số hiệu suất trực tiếp nào, nhưng công ty cho thấy nó đang chạy 8 nghìn trò chơi ở 60 FPS, rất ấn tượng. Được, NVIDIA gần như chắc chắn đang sử dụng DLSS để đạt được mốc đó, nhưng chơi game 8K là chơi game 8K.
Tất nhiên, cuối cùng sẽ có 3060 và các biến thể khác của thẻ định hướng ngân sách hơn, nhưng chúng thường xuất hiện muộn hơn.
Để thực sự làm mát mọi thứ, NVIDIA cần một thiết kế làm mát được cải tiến. 3080 được đánh giá cho 320 watt, khá cao, vì vậy NVIDIA đã lựa chọn thiết kế quạt kép, nhưng thay vì cả hai quạt vwinf được đặt ở phía dưới, NVIDIA đã đặt một quạt ở đầu trên cùng, nơi thường đặt tấm mặt sau. Quạt hướng không khí lên phía trên bộ làm mát CPU và đỉnh của thùng máy.
Đánh giá mức độ hiệu suất có thể bị ảnh hưởng bởi luồng khí xấu trong một trường hợp, điều này hoàn toàn hợp lý. Tuy nhiên, bảng mạch rất chật chội vì điều này có thể sẽ ảnh hưởng đến giá bán của bên thứ ba.
DLSS: Một lợi thế về phần mềm
Theo dõi tia không phải là lợi ích duy nhất của những thẻ mới này. Thực sự, đó là một chút hack — series RTX 2000 và 3000 thì không cái đó tốt hơn nhiều trong việc dò tia thực tế, so với các thế hệ thẻ cũ hơn. Ray theo dõi một cảnh đầy đủ trong phần mềm 3D như Blender thường mất vài giây hoặc thậm chí vài phút cho mỗi khung hình, do đó, việc ép buộc nó trong thời gian dưới 10 mili giây là điều không cần thiết.
Tất nhiên, có phần cứng chuyên dụng để chạy tính toán tia, được gọi là lõi RT, nhưng phần lớn, NVIDIA đã chọn một cách tiếp cận khác. NVIDIA đã cải thiện các thuật toán làm giảm âm lượng, cho phép GPU hiển thị một đường chuyền rất rẻ trông rất khủng khiếp, và bằng cách nào đó — thông qua phép thuật của AI — biến điều đó thành thứ mà một game thủ muốn xem. Khi kết hợp với các kỹ thuật dựa trên rasterization truyền thống, nó sẽ tạo ra một trải nghiệm thú vị được nâng cao bởi các hiệu ứng raytracing.
Tuy nhiên, để thực hiện nhanh việc này, NVIDIA đã bổ sung các lõi xử lý dành riêng cho AI được gọi là lõi Tensor. Quá trình này xử lý tất cả các phép toán cần thiết để chạy các mô hình học máy và thực hiện rất nhanh chóng. Họ là một tổng thể người thay đổi trò chơi cho AI trong không gian máy chủ đám mây , vì AI được nhiều công ty sử dụng rộng rãi.
Ngoài việc giảm âm lượng, công dụng chính của lõi Tensor dành cho game thủ được gọi là DLSS, hay siêu lấy mẫu học sâu. Nó có một khung chất lượng thấp và nâng cấp nó lên chất lượng nguyên bản. Về cơ bản, điều này có nghĩa là bạn có thể chơi game với tốc độ khung hình ở mức 1080p, trong khi xem hình ảnh 4K.
Điều này cũng giúp ích một chút cho hiệu suất dò tia— điểm chuẩn từ PCMag hiển thị RTX 2080 Super running Điều khiển ở chất lượng cực cao, với tất cả các cài đặt dò tia đều được nâng cấp ở mức tối đa. Ở 4K, nó chỉ gặp phải 19 FPS, nhưng khi bật DLSS, nó đạt được 54 FPS tốt hơn nhiều. DLSS là hiệu suất miễn phí cho NVIDIA, được thực hiện bởi các lõi Tensor trên Turing và Ampere. Bất kỳ trò chơi nào hỗ trợ nó và bị giới hạn GPU đều có thể thấy tốc độ tăng nghiêm trọng chỉ từ phần mềm.
DLSS không phải là mới và đã được công bố là một tính năng khi dòng RTX 2000 ra mắt hai năm trước. Vào thời điểm đó, nó được hỗ trợ bởi rất ít trò chơi, vì NVIDIA yêu cầu đào tạo và điều chỉnh mô hình học máy cho từng trò chơi riêng lẻ.
Tuy nhiên, trong thời điểm đó, NVIDIA đã viết lại hoàn toàn, gọi là phiên bản mới DLSS 2.0. Đây là một API có mục đích chung, có nghĩa là bất kỳ nhà phát triển nào cũng có thể triển khai nó và nó đã được hầu hết các bản phát hành lớn lựa chọn. Thay vì làm việc trên một khung, nó lấy dữ liệu vectơ chuyển động từ khung trước đó, tương tự như TAA. Kết quả sắc nét hơn nhiều so với DLSS 1.0 và trong một số trường hợp, thực sự trông tốt hơn và sắc nét hơn cả độ phân giải gốc, vì vậy không có nhiều lý do để không bật tính năng này.
Có một điểm khó khăn - khi chuyển đổi hoàn toàn các cảnh, như trong các đoạn phim cắt cảnh, DLSS 2.0 phải hiển thị khung hình đầu tiên ở chất lượng 50% trong khi chờ dữ liệu vectơ chuyển động. Điều này có thể dẫn đến giảm chất lượng nhỏ trong vài mili giây. Tuy nhiên, 99% mọi thứ bạn xem sẽ được hiển thị đúng cách và hầu hết mọi người không nhận thấy điều đó trong thực tế.
LIÊN QUAN: NVIDIA DLSS là gì và Nó sẽ làm cho Ray Tracing nhanh hơn như thế nào?
Kiến trúc Ampere: Được xây dựng cho AI
Ampe nhanh. Rất nhanh, đặc biệt là ở các tính toán AI. Lõi RT nhanh hơn Turing 1,7 lần và lõi Tensor mới nhanh hơn Turing 2,7 lần. Sự kết hợp của cả hai là một bước nhảy vọt thực sự của thế hệ trong hiệu suất raytracing.
Đầu tháng 5 này, NVIDIA phát hành GPU Ampere A100 , một GPU trung tâm dữ liệu được thiết kế để chạy AI. Với nó, họ đã chi tiết hóa rất nhiều điều khiến Ampere nhanh hơn rất nhiều. Đối với khối lượng công việc tính toán hiệu suất cao và trung tâm dữ liệu, Ampere nói chung nhanh hơn Turing khoảng 1,7 lần. Đối với đào tạo AI, nó nhanh hơn tới 6 lần.
Với Ampere, NVIDIA đang sử dụng một định dạng số mới được thiết kế để thay thế cho tiêu chuẩn ngành “Floating-Point 32,” hoặc FP32, trong một số khối lượng công việc. Ẩn sâu bên trong, mọi số mà máy tính của bạn xử lý đều chiếm một số bit được xác định trước trong bộ nhớ, cho dù đó là 8 bit, 16 bit, 32, 64 hay thậm chí lớn hơn. Những con số lớn hơn sẽ khó xử lý hơn, vì vậy nếu bạn có thể sử dụng kích thước nhỏ hơn, bạn sẽ ít phải bẻ khóa hơn.
FP32 lưu trữ một số thập phân 32 bit và nó sử dụng 8 bit cho phạm vi của số (mức độ lớn hay nhỏ của nó) và 23 bit cho độ chính xác. Tuyên bố của NVIDIA là 23 bit chính xác này không hoàn toàn cần thiết cho nhiều khối lượng công việc AI và bạn có thể nhận được kết quả tương tự và hiệu suất tốt hơn nhiều chỉ trong số 10 bit trong số đó. Giảm kích thước xuống chỉ còn 19 bit, thay vì 32, tạo ra sự khác biệt lớn trong nhiều phép tính.
Định dạng mới này được gọi là Tensor Float 32 và các lõi Tensor trong A100 được tối ưu hóa để xử lý định dạng có kích thước kỳ lạ. Điều này có nghĩa là, bên cạnh việc thu nhỏ khuôn và số lượng lõi tăng lên, cách chúng nhận được tốc độ tăng gấp 6 lần trong quá trình đào tạo AI.
Ngoài định dạng số mới, Ampere đang chứng kiến tốc độ hiệu suất lớn trong các phép tính cụ thể, như FP32 và FP64. Những điều này không trực tiếp chuyển sang FPS cho người dùng nhiều hơn, nhưng chúng là một phần của yếu tố làm cho tốc độ tổng thể nhanh hơn gần ba lần ở các hoạt động Tensor.
Sau đó, để tăng tốc độ tính toán hơn nữa, họ đã đưa ra khái niệm cấu trúc hạt mịn thưa thớt , đó là một từ rất lạ cho một khái niệm khá đơn giản. Mạng nơ-ron hoạt động với danh sách lớn các số, được gọi là trọng số, ảnh hưởng đến kết quả cuối cùng. Càng nhiều số để crunch, nó sẽ càng chậm.
Tuy nhiên, không phải tất cả những con số này đều thực sự hữu ích. Một số trong số chúng thực sự chỉ bằng 0 và về cơ bản có thể bị loại bỏ, dẫn đến tốc độ tăng nhanh khi bạn có thể thu thập nhiều số hơn cùng một lúc. Về cơ bản, Sparsity nén các con số, giúp bạn thực hiện các phép tính ít hơn. “Lõi Tensor thưa thớt” mới được xây dựng để hoạt động trên dữ liệu nén.
Mặc dù có những thay đổi, NVIDIA nói rằng điều này hoàn toàn không ảnh hưởng đến độ chính xác của các mô hình được đào tạo.
Đối với các phép tính INT8 thưa thớt, một trong những định dạng số nhỏ nhất, hiệu suất cao nhất của một GPU A100 duy nhất là hơn 1,25 PetaFLOP, một con số cao đáng kinh ngạc. Tất nhiên, đó chỉ là khi giải mã một loại số cụ thể, nhưng dù sao thì nó cũng rất ấn tượng.