艾達·洛夫萊斯微架構

Nvidia設計的圖形處理單元微架構

Ada LovelaceNvidia開發的圖形處理單元(GPU) 微架構,用於取代上一代安培架構,於 2022 年 9 月 20 日正式宣布。架構名稱首次同時包含名字和姓氏,它以英國數學家Ada Lovelace [1]的名字命名,她通常被認為是第一位計算機程序員。 Nvidia 同時發布了使用該架構的GeForce 40 系列消費級顯卡 [2]和 RTX 6000 Ada Generation 專業工作站顯卡。 [3]據透露,新的 GPU 使用台積電新的5 納米「4N」工藝,與 Nvidia 用於上一代安培架構的三星8 納米和台積電N7工藝相比,效率更高。 [4]

NVIDIA Ada Lovelace
發布於  (2022 年 10 月 12 日12)
設計者 Nvidia
製造商
製造工藝 TSMC 4N
產品系列
台式機系列
專業級/

工作站系列

  • RTX 4000 Ada
  • RTX 6000 Ada
服務器/

數據中心系列

技術規格
時鐘頻率 735 MHz - 2640 MHz
一級緩存 128 KB (每組 SM)
二級緩存 32 MB - 96 MB
顯存類型
顯存頻率 21 - 22.4 Gbps
PCIe版本 PCIe 4.0
圖形API
DirectX DirectX 12 Ultimate (12.2)
Direct3D Direct3D 12
Shader Model Shader Model 6.7
OpenCL OpenCL 3.0
OpenGL OpenGL 4.6
CUDA Compute Capability 8.9
Vulkan Vulkan 1.3
通用計算API
CUDA CUDA Toolkit 11.6
DirectCompute 支持
媒體編解碼引擎
編碼引擎
解碼引擎
色彩深度
  • 8-bit
  • 10-bit
編碼器 NVENC
顯示輸出
歷史
前代產品 Ampere
變體 Hopper (數據中心)
艾達·洛夫萊斯

背景

Nvidia 首席執行官黃仁勛在 2022 年 9 月 20 日的 GTC 2022 主題演講中宣布了 Ada Lovelace 架構,該架構為 Nvidia 的遊戲、工作站和數據中心 GPU 提供動力。 [5]

微架構詳解

Ada Lovelace 架構的架構改進包括以下內容: [6]

  • CUDA 計算能力(版本) 8.9 [7]
  • 台積電4N 工藝(NVIDIA 定製工藝)- 與台積電N4節點不同
  • 第 4 代 Tensor Cores,支持 FP8、FP16、bfloat16、TensorFloat-32 (TF32) 和稀疏加速
  • 第三代光線追蹤核心,並發光線追蹤,着色與計算
  • 着色器執行重新排序 (SER) [8]
  • 視頻編解碼器(NVENC/NVDEC) 支持 8K 10 Bit 60FPS AV1
  • 不支持NVLink [9]

流處理器 (SM)

CUDA 核心

每個 SM 單元包含 128 個 CUDA 核心。

光線追蹤單元 (RT)

Ada Lovelace 採用第三代光追單元。 其中,RTX 4090 具有 128 個光追單元,而上一代 RTX 3090 Ti 為 84 個。這 128 個光追單元可以提供高達 191 TFLOPS 的計算能力,其中每個光追單元 1.49 TFLOPS。 [10] 全新的光線追蹤管線引入了着色器執行重排序 (SER),Nvidia 聲稱它在光追工作負載中能提供 2 倍的性能提升。 [5]

張量核心 (Tensor)

第四代張量核心引入了基於 AI 的 DLSS 3 幀生成技術。Ada Lovelace 中每個 SM 單元包含 4 個張量核心,與上代安培架構非常相似。但是由於包含了更多的 SM 單元,張量核心的總數對比上代有所增加。

核心頻率

Ada Lovelace 架構的核心頻率顯著提高,RTX 4090 的基礎頻率甚至高於 RTX 3090 Ti 的加速 (Boost) 頻率。

RTX 2080 Ti RTX 3090 Ti RTX 4090
架構 圖靈 安培 埃達·洛夫萊斯
基礎頻率 (MHz) 1350 1560 2235
加速頻率 (MHz) 1635 1860 2520

緩存與內存

RTX 2080 Ti RTX 3090 Ti RTX 4090
架構 圖靈 安培 埃達·洛夫萊斯
一級緩存 6.375 MB

(每組SM 96 KB)

10.5 MB

(每組SM 128 KB)

16 MB

(每組SM 128 KB)

二級緩存 5.5 MB 6 MB 72 MB

完整版的 AD102 核心擁有高達 96 MB 的二級緩存,相比基於安培架構的 GA102 核心,有着十六倍的提升。 [11]相較於那些通過較慢GDDR顯存讀取數據的GPU,新的GPU能夠快速訪問大量二級緩存,這有利於複雜的操作,例如光線追蹤。與此同時,通過減少需要頻繁訪問的重要數據對顯存的依賴,較低位寬的顯存也可以和大容量二級緩存協同工作。

每個內存控制器占用一個 32 位連接,最高 12 個連接,組合得到內存總線位寬為 384 位。 Ada Lovelace 架構支持GDDR6GDDR6X顯存。台式機 GeForce RTX 40 系列採用 GDDR6X 顯存,而相應的移動版本和 RTX A6000 工作站 GPU 則使用更節能的 GDDR6 顯存。

效率和工藝

與上一代相比,Ada Lovelace 架構能夠使用更低的電壓。 [5] Nvidia 聲稱,RTX 4090 在與上一代旗艦 RTX 3090 Ti 使用相同 450W 功耗的情況下,性能提高了 2 倍。 [12]

能耗比的提升歸功於更先進的製造工藝。 Ada Lovelace 架構採用TSMC為Nvidia定製的頂尖4N工藝製造。上一代安培架構從 2018 年開始使用三星基於 8nm 的8N工藝節點,在該架構推出時已經是兩年前的製造工藝。 [13] [14] 此外,具有 763 億個晶體管的 AD102 芯片,晶體管密度為 1.255 億/mm 2 ,比 GA102 的 4510 萬/mm 2密度增加了 178%。

媒體引擎

Ada Lovelace 架構採用了新的第 8 代 Nvidia NVENC視頻編碼器,以及從安培架構沿用下來的第 7 代 NVDEC 視頻解碼器。 [15]

NVENC AV1硬件編碼的加入,使得新架構支持高達 8K 60FPS 10 位色深。與H.264H.265編解碼器相比,能夠以更低的比特率實現更高的視頻保真度。 [16] Nvidia 聲稱其採用 Ada Lovelace 架構的 NVENC AV1 編碼器比採用安培架構的 H.264 編碼器效率高 40%。 [17]

輸出接口

Ada Lovelace 架構因仍舊使用 32Gbps 的舊 DisplayPort 1.4a,不支持具備更高數據帶寬的DisplayPort 2.0接口而受到批評。 [18]因此,儘管 GPU 的性能能夠達到更高的幀率,但依然會受到 DisplayPort 1.4a 的刷新率限制。反觀同樣於 2022 年 10 月發布的英特爾Arc GPU 卻帶有 DisplayPort 2.0 接口。在 Ada Lovelace 發布的兩個月後, AMD對標的 RDNA 3 架構發布,RDNA 3 甚至支持 DisplayPort 2.1[19]

核心參數

Ada Lovelace 核心對比
芯片[20] AD102 [21] AD103 [22] AD104 [23] AD106 [24] AD107 [25]
尺寸 608 mm2 378.6 mm2 295 mm2 190 mm2 146 mm2
晶體管 763億 459億 358億 未知
晶體管密度 1.255 億/mm2 1.211 億/mm2 1.214 億/mm2
圖形處理集群

(GPC)

12 7 5 3 2
流處理器

(SM)

144 80 60 36 24
CUDA

核心

18432 10240 7680 4608 3072
紋理映射單元 576 320 240 144 96
渲染輸出單元 192 112 80 64 32
張量核心 576 320 240 144 96
光追單元 144 80 60 36 24
一級緩存 18 MB 10 MB 7.5 MB 4.5 MB 3 MB
每個 SM 單元 128 KB
二級緩存 96 MB 64 MB 48 MB 32 MB

基於 Ada Lovelace 架構的產品

消費級

  • GeForce 40 系列
    • GeForce RTX 4050(移動端)(AD107)
    • GeForce RTX 4060(移動端)(AD107)
    • GeForce RTX 4070(移動端)(AD106)
    • GeForce RTX 4070 (AD104)
    • GeForce RTX 4070 Ti (AD104)
    • GeForce RTX 4080(移動端)(AD104)
    • GeForce RTX 4080 (AD103)
    • GeForce RTX 4090(移動端)(AD103)
    • GeForce RTX 4090 (AD102)

專業級

  • 桌面工作站
    • RTX 4000 SFF Ada Generation
    • RTX 6000 Ada Generation
  • 移動工作站
    • RTX 2000 Max-Q Ada Laptop
    • RTX 2000 Ada Laptop
    • RTX 3000 Ada Laptop
    • RTX 3500 Ada Laptop
    • RTX 4000 Ada Laptop
    • RTX 5000 Ada Laptop
  • 數據中心
    • L4
    • L40
    • L40G
    • L40 CNX
  1. ^ Mujtaba, Hassan. NVIDIA's Next-Gen Ada Lovelace Gaming GPU Architecture For GeForce RTX 40 Series Confirmed. Wccftech. September 15, 2022 [November 18, 2022]. (原始內容存檔於2022-10-01) (美國英語). 
  2. ^ NVIDIA Delivers Quantum Leap in Performance, Introduces New Era of Neural Rendering with GeForce RTX 40 Series. NVIDIA Newsroom (新聞稿). September 20, 2022 [September 20, 2022]. (原始內容存檔於2023-03-15) (美國英語). 
  3. ^ NVIDIA's New Ada Lovelace RTX GPU Arrives for Designers and Creators. Nvidia Newsroom. September 20, 2022 [November 18, 2022]. (原始內容存檔於2023-05-29) (美國英語). 
  4. ^ Machkovec, Sam. Nvidia's Ada Lovelace GPU generation: $1,599 for RTX 4090, $899 and up for 4080. Ars Technica. September 20, 2022 [November 18, 2022]. (原始內容存檔於2023-04-03) (美國英語). 
  5. ^ 5.0 5.1 5.2 Chiappetta, Marco. NVIDIA GeForce RTX 40 Architecture Overview: Ada's Special Sauce Unveiled. HotHardware. September 22, 2022 [April 8, 2023]. (原始內容存檔於2023-06-28) (美國英語). 
  6. ^ NVIDIA Ada Lovelace Architecture. NVIDIA. September 20, 2022 [September 20, 2022]. (原始內容存檔於2023-07-02) (美國英語). 
  7. ^ CUDA C++ Programming Guide. docs.nvidia.com. [April 15, 2023]. (原始內容存檔於2021-05-03). 
  8. ^ Improve Shader Performance and In-Game Frame Rates with Shader Execution Reordering. NVIDIA Technical Blog. October 13, 2022 [April 6, 2023]. (原始內容存檔於2023-05-25) (美國英語). 
  9. ^ btarunr. Jensen Confirms: NVLink Support in Ada Lovelace is Gone. TechPowerUp. September 21, 2022 [November 18, 2022]. (原始內容存檔於2022-10-18) (美國英語). 
  10. ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 30. [April 5, 2023]. (原始內容存檔 (PDF)於2023-07-04) (美國英語). 
  11. ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 12. [April 6, 2023]. (原始內容存檔 (PDF)於2023-07-04) (美國英語). 
  12. ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 12. [April 5, 2023]. (原始內容存檔 (PDF)於2023-07-04) (美國英語). 
  13. ^ James, Dave. Nvidia confirms Samsung 8nm process for RTX 3090, RTX 3080, and RTX 3070. PC Gamer. September 1, 2020 [April 5, 2023]. (原始內容存檔於2023-04-13) (美國英語). 
  14. ^ Bosnjak, Dominik. Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards. SamMobile. September 1, 2020 [April 5, 2023]. (原始內容存檔於2023-04-07) (美國英語). 
  15. ^ Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance (PDF). Nvidia: 25. [April 5, 2023]. (原始內容存檔 (PDF)於2023-07-04) (美國英語). 
  16. ^ Muthana, Prathap; Mishra, Sampurnananda; Patait, Abhijit. Improving Video Quality and Performance with AV1 and NVIDIA Ada Lovelace Architecture. Nvidia Developer. January 18, 2023 [April 5, 2023]. (原始內容存檔於2023-05-20) (美國英語). 
  17. ^ Nvidia Ada Science: How Ada advances the science of graphics with DLSS 3 (PDF). Nvidia: 13. [April 5, 2023]. (原始內容存檔 (PDF)於2023-03-24) (美國英語). 
  18. ^ Garreffa, Anthony. NVIDIA's next-gen GeForce RTX 40 series lack DP2.0 connectivity, silly. TweakTown. September 25, 2022 [April 5, 2023]. (原始內容存檔於2023-04-06) (美國英語). 
  19. ^ Judd, Will. AMD announces 7900 XTX and 7900 XT graphics cards with FSR 3. Eurogamer. November 3, 2022 [April 5, 2023]. (原始內容存檔於2023-04-05) (英國英語). 
  20. ^ NVIDIA confirms Ada 102/103/104 GPU specs, AD104 has more transistors than GA102. VideoCardz. September 23, 2022 [September 23, 2022]. (原始內容存檔於2023-06-03) (美國英語). 
  21. ^ NVIDIA AD102 GPU Specs. TechPowerUp. [December 17, 2022] (美國英語). 
  22. ^ NVIDIA AD103 GPU Specs. TechPowerUp. [December 17, 2022] (美國英語). 
  23. ^ NVIDIA AD104 GPU Specs. TechPowerUp. [October 18, 2022] (美國英語). 
  24. ^ NVIDIA AD106 GPU Specs. TechPowerUp. [December 17, 2022] (美國英語). 
  25. ^ NVIDIA AD107 GPU Specs. TechPowerUp. [December 17, 2022] (美國英語).