Giới thiệu về Turing Tensor Cores
CEO của Nvidia Jen-Hsun Huang đã giới thiệu Turing GPU với khả năng đưa việc xử lý đồ họa bằng phương thức Ray Tracing (dò tia) thực hiện ngay trong thời gian thực. Turing là kiến trúc GPU mới của Nvidia hướng tới AI, Deep Learning và Ray Tracing (dò tia).
Cốt lõi của các card đồ họa này là Turing GPU gồm:
- Lõi Streaming Multiprocessor (SM) giúp tính toán và mô phỏng chiều sâu.
- Lõi Real Time Raytracing (RTRT) giúp dò tia trong thời gian thực.
- Lõi Tensor cho Deep Learning và AI.
- Hệ thống con video cung cấp Encode HEVC 8K.
- Hệ thống con bộ nhớ với bus 384-bit và GDDR6 tốc độ 14Gb/giây.
- Hệ thống con NVLink chia sẻ bộ đệm khung trên tất cả các card với tốc độ 100Gb/giây.
- Hệ thống con hiển thị có thể hỗ trợ 4 màn hình và Virtual Link.
Hãy cùng tìm hiểu với chúng tôi Tensor Cores, Turing Tensor Cores là gì? Các chức năng của Deep Learning cho Inference trong Turing GPU
Turing Tensor Cores
Tensor Cores là các đơn vị thực thi chuyên biệt được thiết kế đặc biệt để thực hiện các phép nhân tensor/ma trận mà chính là chức năng tính toán cốt lõi được sử dụng trong Deep Learning. Tương tự như Volta Tensor Cores, Turing Tensor Cores cung cấp khả năng tăng tốc cực lớn cho các tính toán ma trận, cốt lõi của việc Deep Learning Neural Network Training và các hoạt động suy luận (Inferencing). Trong Turing GPUs, một phiên bản mới của thiết kế Tensor Core được ra đời để cải tiến việc suy luận. Turing Tensor Cores mới đã thêm INT8 và INT4 Precisions cho khối lượng công việc suy luận có thể chịu được lượng tử hóa và không đòi hỏi FP16 Precision.
Công nghệ NVIDIA Tensor Core đã mang lại sự tăng tốc đáng kinh ngạc cho AI, giảm thời gian đào tạo từ vài tuần xuống hàng giờ và cung cấp khả năng tăng tốc lớn đến suy luận. Công nghệ NVIDIA Turing™ Tensor Core cung cấp khả multi-precision để suy luận AI hiệu quả. Turing Tensor Cores cung cấp một loạt các quy tắc cho đào tạo và suy luận học tập sâu, từ FP32 đến FP16 đến INT8, cũng như INT4, để cung cấp những bước đột phá về hiệu năng đối với GPU NVIDIA trước.
Turing Tensor Cores lần đầu tiên mang đến khả năng AI dựa trên học tập sâu cho PC chơi game GeForce và máy trạm dựa trên Quadro. Một kỹ thuật mới có tên Deep Learning Super Sampling (DLSS) được cung cấp bởi Tensor Cores. DLSS tận dụng mạng lưới nơ ron sâu (deep neural network) để trích xuất các tính năng đa chiều của cảnh được hiển thị và kết hợp thông minh các chi tiết từ nhiều khung hình để tạo ra hình ảnh cuối cùng chất lượng cao. DLSS sử dụng ít mẫu đầu vào hơn các kỹ thuật truyền thống như TAA, đồng thời tránh những khó khăn về thuật toán mà các kỹ thuật này gặp phải với độ trong suốt và các yếu tố cảnh phức tạp khác.
Deep Learning Features for Inference
Turing GPUs mang lại hiệu suất suy luận đặc biệt. Turing Tensor Cores, cùng với các cải tiến liên tục trong TensorRT (framework suy luận thời gian chạy của NVIDIA), thư viện CUDA và CuDNN, cho phép Turing GPUs mang lại hiệu suất vượt trội cho các ứng dụng suy luận. Turing Tensor Cores cũng thêm hỗ trợ cho các phép nhân ma trận INT8 nhanh để tăng tốc đáng kể thông lượng suy luận với độ chính xác tối thiểu. Các phép nhân ma trận INT4 có low-precision mới hiện giờ có thể thực hiện với Turing Tensor Cores và cho phép nghiên cứu và phát triển thành các mạng nơ ron phụ 8 bit.
Một công cụ tăng tốc suy luận AI tuyệt vời không chỉ mang lại hiệu suất tuyệt vời mà còn cả tính linh hoạt để tăng tốc các mạng thần kinh đa dạng, cùng với khả năng lập trình để cho phép các nhà phát triển xây dựng các mạng mới. Độ trễ thấp với thông lượng cao trong khi tối đa hóa việc sử dụng là yêu cầu hiệu suất quan trọng nhất của việc triển khai suy luận một cách đáng tin cậy. NVIDIA Tensor Cores cung cấp đầy đủ các bộ phận của TF TF32, bfloat16, FP16, INT8 và INT4 để cung cấp tính linh hoạt và hiệu suất không thể so sánh được.
Turing GPU TU102 là GPU hiệu suất cao nhất của dòng Turing GPU và card RTX 2080Ti thuộc dòng Turing GPU. Turing Tensor Cores cung cấp khả năng tăng tốc cực lớn cho các tính toán ma trận, cốt lõi của việc Deep Learning Neural Network Training và các hoạt động suy luận (Inferencing). Vì vậy, iRender mang tới cho khách hàng những dòng cấu hình máy chuyên nghiệp phục vụ cho AI Inference, AI Training, Deep Learning, VR/AR,… với kiến trúc Turing GPU này bằng cách cung cấp 6/12 cards RTX 2080Ti, 11GB vRAM, khách hàng có thể lựa chọn đa dạng các gói dịch vụ của GPU Cloud for AI/DL.
Hãy đăng ký tại đây để trải nghiệm dịch vụ của chúng tôi.
Nguồn: nvidia.com; quantrimang.com;