新增 RT 與 Tensor ,NVIDIA GeForce RTX 2080/2080Ti Turing 架構、Founders Edition、效能表現一次看懂

T客邦

387

發佈時間: 2019-10-08 22:36

更新時間: 2019-10-08 22:36

訂閱文章

掐指一算,距離 NVIDIA 發表 GeForce GTX 1080 已有 2 年以上的時間,Pascal 架構同時具備高效能與能源效率,繼任者有何表現相當令人期待。Turing 架構不僅包含傳統光柵化運算特化的硬體單元,更有加速光追蹤技法的 RT 單元,以及機器學習 Tensor 單元。

新.三位一體

此次 NVIDIA 宣布利用 Turing 架構推出 GeForce RTX 2070、GeForce RTX 2080、GeForce RTX 2080 Ti 共 3 款顯示卡,首先由 GeForce RTX 2080 作為先鋒,於 9 月 20 日上市,GeForce RTX 2080 Ti 則延遲至 9 月 27 號,GeForce RTX 2070 將於 10 月發售。

Turing 世代晶片設計不僅包含更新過的 SM 核心設計,另外針對市場應用趨勢,加入特化的硬體加速單元,Tensor 核心用以執行與機器學習高度相關的矩陣運算,RT 核心則負責光追蹤運算當中,佔有重要地位的 BVH 和光線與物件三角形互動。編輯手中也拿到 GeForce RTX 2080、GeForce RTX 2080 Ti 2 款 Founders EDITION 產品,就讓我們抽絲剝繭,從設計到硬體,從硬體到效能一層層揭開面紗。

改良 SM 設計

Turing 架構之中,每個 TPC(Texture Processor Cluster、材質處理叢集)內部包含 2 個 SM,並根據顯示卡等級不同調整數量,譬如 Quadro RTX 6000 為 TU102 最完整的 36 個 TPC、GeForce RTX 2080 Ti 則削減為 34 個 TPC、GeForce RTX 2080 的 TU104 再減為 23 個 TPC。

Pascal 與 Turing 世代不同型號顯示卡規格比較。(註:峰值效能以超頻時脈計算)
▲Pascal 與 Turing 世代不同型號顯示卡規格比較。(註:峰值效能以超頻時脈計算)

TU102 功能方塊圖
▲TU102 功能方塊圖。

TU102 實際晶粒照片
▲TU102 實際晶粒照片。

Turing 每個 TPC 內部共有 2 個 SM(Streaming Multiprocessor),並改善 SM 內部架構組成,官方表示相對於 Pascal 架構版本,單一 CUDA 核心的運算效能提升 50% 之譜(Pascal 單一 TPC 僅包含 1 個 SM)。其中有 2 個主要的進步,其一為新增獨立的整數資料路徑,讓整數指令可以隨著浮點資料路徑一同處理;過去的架構則存在整數與浮點數互斥的狀況,當執行整數指令時,指令配發器並沒有辦法 issue 浮點運算工作給後端的運算單元。

其次為 SM 記憶體架構更新,變更為共享式記憶體架構(Shared Memory Architecture),Pascal 為 L1 24KB 快取(供著色器使用)和 96KB 共享記憶體(放置貼圖資料或暫存器資料),Turing SM 將 2 者結合成單一區域,並依據實際運算所需,分成 64KB+32KB 或是 32KB+64KB,存取 L1 頻寬同時上升至 2 倍,L1 的容量最高也多出 1.7 倍。

Turing SM 相較 Pascal SM 改良 L1 架構,變更為共享式記憶體,能夠分配成 64KB+32KB 或是 32KB+64KB,並提升 L1 存取頻寬至 2 倍,L2 同時加大 1 倍容量至 6MB
▲Turing SM 相較 Pascal SM 改良 L1 架構,變更為共享式記憶體,能夠分配成 64KB+32KB 或是 32KB+64KB,並提升 L1 存取頻寬至 2 倍,L2 同時加大 1 倍容量至 6MB。

每個 SM 包含 64 個 FP32 核心、64 個 INT32 核心、8 個 Tensor 核心、1 個 RT 核心(Pascal 缺少後 3 者,單一 SM 包含 128 個 FP32 核心);以目前遊戲運算平均值,大約每 100 個浮點運算指令,就有 36 個整數運算指令,整數運算多為記憶體定址和擷取資料工作,浮點運算則為比較、最大值、最小值等數學運算。整數與浮點運算能夠同步作業,相對而言浮點數效能提升 36%。

TU102、TU104、TU106 單一 SM 功能區塊圖
▲TU102、TU104、TU106 單一 SM 功能區塊圖。

多款遊戲平均下來,大約每 100 個浮點運算就有 36 個整數運算,而 Turing 架構可以同時處理這 2 個部分
▲多款遊戲平均下來,大約每 100 個浮點運算就有 36 個整數運算,而 Turing 架構可以同時處理這 2 個部分。

Tensor 機器學習

NVIDIA 在 Volta 架構首次導入用於機器學習的專用處理單元 Tensor,這次也放入 Turing 架構當中,並隨著 Microsoft 發表 DirectML,未來 Tensor 能夠以硬體加速 Windows Machine Learning 相關作業。對於遊戲來說,也可以期待與電腦 AI 對戰時,遇到更為千變萬化的戰略。

Tensor 除了可以支援 FP16 浮點數運算,Turing 世代更加入 INT8 和 INT4 的支援能力,讓可以容忍較低精度的應用提升處理速度。Tensor 針對機器學習經常使用的矩陣運算最佳化,單一 SM 內部包含 8 個 Tensor 核心,每個時脈週期可以完成 512 個 FP16 乘法與積運算,或是總額 1024 個浮點運算,將精度調低至 INT8 則能夠完成 2048 個運算。

Tensor 以硬體加速方式完成 NVIDIA 自己的 NGX(Neural Graphics AcceleratION),包含近期轟炸各位腦袋的深度學習超取樣反鋸齒(Deep Learning Super Sampling、DLSS),原本利用著色器運算效能進行的反鋸齒技術,將部份工作轉移至 Tensor 核心進行。透過機器學習訓練,DLSS 可以提供比 TAA(Temporal Anti-Aliasing)更高的畫面品質,或是在減少輸入樣本的情形之下,提供與 TAA 相同的 4K 畫面品質,卻只要 TAA 一半的運算資源。

DLSS 需要經過機器學習訓練這一道關卡,因此並非所有遊戲均支援,筆者將支援遊戲整理成下方列表。首先,針對遊戲畫面以 64 倍超級取樣的方式進行繪製,表示每個像素不僅繪製 1 次,還透過位移方式繪製其它 63 個取樣點,最終再以 64 個取樣點平均值成為該像素顏色,如此這般繪製出具備反鋸齒效果的畫面。

預計支援 DLSS 的遊戲列表
▲預計支援 DLSS 的遊戲列表。

DLSS 在 4K 解析度可以提供類似於 4 倍 TAA 的效果,卻只要花費一半的運算資源
▲DLSS 在 4K 解析度可以提供類似於 4 倍 TAA 的效果,效能卻是 2 倍。

接著再利用同一場景、沒有經過反鋸齒處理的遊戲畫面,輸入 DLSS 並要求輸出 1 張畫面,比對 64 倍超級取樣遊戲畫面與 DLSS 輸出,觀察哪些地方做得不好,再回頭修正 DLSS 內部演算法權重。重複幾次上述步驟,DLSS 就會知道該如何處理遊戲畫面,產出 1 張與 64 倍超級取樣相近的畫面,並同時避免 TAA 無法解決的模糊、錯位、半透明等缺失。

DLSS 另外還有個 2 倍 DLSS 模式,首先以目標解析度繪製 1 張畫面,接著再以更大的 DLSS 網路輸出 1 張極為近似 64 倍超級取樣的畫面。簡而言之,DLSS 追求效能與畫面輸出速率的平衡,提供 4 倍 TAA 畫質,2 倍 DLSS 則是追求畫面的極致,提供近似 64 倍超級取樣畫質。

64 倍超級取樣可以提供無與倫比的畫面品質,但因為計算量過大無法實作並維持一定的畫面輸出速率,如今 2 倍 DLSS 能夠提供極為接近的畫質表現並維持相當效能
▲64 倍超級取樣可以提供無與倫比的畫面品質,但因為計算量過大無法實作並維持一定的畫面輸出速率,如今 2 倍 DLSS 能夠提供極為接近的畫質表現並維持相當效能。

Tensor 核心機器學習的應用還不只於此,更能夠移除畫面中不需要的物件並填補背景,亦或是從殘缺的畫面資訊推算出整張畫面,後者對於支援即時光追蹤相當重要。目前(甚至是未來數年)遊戲依然以光柵化為主、小區域光追蹤為輔,但光追蹤運算量相當大,RT 核心無法在 1/60 秒之內提供完整運算結果,此時就要依靠 Tensor 核心,以不完整的光追蹤運算結果,推導剩餘未完成的畫面。

RT 光追蹤運算

光柵化運算相信大家並不陌生,先行判斷 3D 場景內部物件的前後順序,被擋住看不到的物件剃除減少運算量,接著再為這些物件貼上材質貼圖。在過去幾十年當中,這是個相當有效且快速繪製 3D 畫面的方式,廣泛應用於遊戲當中。

另一方面,若是相當要求畫面品質,如 3D 動畫、電影特效,則需要採用光追蹤運算方式,以數學方程式描述光的物理性質,包含光如何在物體表面吸收、反射、繞射,或是透明物體的折射等。光追蹤運算量相當大,因此較常見到利用多台伺服器算圖農場,在較沒有時間壓力的情況下繪製畫面,接著再結合這些畫面變成 1 段影片。

光柵化與光追蹤的原理差異簡圖
▲光柵化與光追蹤的原理差異簡圖。

NVIDIA 在 Turing 架構當中放入專門負責光追蹤運算的 RT 核心,RT 核心主要用來加速 BVH(Bounding Volume Hierarchies)遍歷,以及光和物件三角形之間的交互關係。RT 核心主要有 2 個特化處理單元,其中之一負責 bounding box/bounding volume 的測試、之二負責光線與三角形測試,SM 只要發出光探測指令,接下來 RT 核心就會回報光是否命中物件,再交由 SM 完成著色動作。

RT 核心負責複雜的 bounding box 測試和光-三角形測試,接著回報 SM 是否命中,由 SM 完成著色動作,若沒有命中物件模型則以其它方式產生顏色(如背景顏色)
▲RT 核心負責複雜的 bounding box 測試和光-三角形測試,接著回報 SM 是否命中,由 SM 完成著色動作,若沒有命中物件模型則以其它方式產生顏色(如背景顏色)。

既然光追蹤運算量龐大又複雜,為何 Turing 要導入 RT 硬體加速?原因在於光柵化效率雖然相當好,卻無法模擬真實世界的狀況,譬如透明物體的折射、鏡面反射等相當基礎的物理現象。以往遊戲當中的鏡面反射特效,若是場景複雜度不高,可以在鏡面裡實際建立 1 個左右相反的場景並繪製,但多數時間是以 cube mapping 技巧,預先將周圍環境繪製成貼圖,再貼至鏡面物件,並根據視角移動、縮小放大。

新.三位一體 此次NVIDIA宣布利用Turing架構推出GeForce RTX 2070、GeForce RTX 2080、GeForce RTX 2080 Ti共3款顯示卡,首先由GeForce RTX 2080作為先鋒,於9月20日上市,GeForce RTX 2080 Ti則延遲至9月27號,GeForce RTX 2070則將於10月中發售。 Turing世代的晶片設計不僅包含更新過後的SM核心設計,另外針對市場應用趨勢,加入特化後的硬體加速單元,Tensor核心用以執行與機器學習高度相關的矩陣運算,RT核心則負責光追蹤運算當中,佔有重要地位的BVH和光線與物件三角形互動。編輯手中也拿到GeForce RTX 2080、GeForce RTX 2080 Ti 2款產品,就讓我們抽絲剝繭,從設計到硬體,從硬體到效能一層層揭開面紗。 改良SM設計 Turing架構之中,每個TPC(Texture Processor Cluster、材質處理叢集)內部包含2個SM,並根據顯示卡等級不同調整數量,譬如Quadro RTX 6000為TU102最完整的36個TPC、GeForce RTX 2080 Ti則削減為34個TPC、GeForce RTX 2080的TU104再減為23個TPC。 ▲Pascal與Turing世代不同型號顯示卡規格比較。(註:峰值效能以超頻頻率計算) ▲TU102功能方塊圖。 ▲TU102實際晶粒照片。 Turing每個TPC內部共有2個SM(Streaming Multiprocessor),並改善SM內部架構組成,官方表示相對於Pascal架構版本,單一CUDA核心的運算效能提升50%之譜(Pascal單一TPC僅包含1個SM)。其中有2個主要的進步,其一為新增獨立的整數資料路徑,讓整數指令可以隨著浮點資料路徑一同處理;過去的架構則存在整數與浮點數互斥的狀況,當執行整數指令時,指令配發器並沒有辦法issue浮點運算工作給後端的運算單元。 其次為SM記憶體架構更新,變更為共享式記憶體架構(Shared Memory Architecture),Pascal為L1 24KB快取(供著色器使用)和96KB共享記憶體(放置貼圖資料或暫存器資料),Turing SM則是將2者結合成單一區域,並依據實際運算所需,分成64KB+32KB或是32KB+64KB,存取L1的頻寬同時上升至2倍,L1的容量最高也多出1.7倍。 ▲Turing SM相較Pascal SM改良L1架構,變更為共享式記憶體,能夠分配成64KB+32KB或是32KB+64KB,並提升L1存取頻寬至2倍,L2同時加大1倍容量至6MB。 每個SM包含64個FP32核心、64個INT32核心、8個Tensor核心、1個RT核心(Pascal少了後3者,單一SM包含128個FP3核心);以目前遊戲運算平均值,大約每100個浮點運算指令,就有36個整數運算指令,整數運算多為記憶體定址和擷取資料工作,浮點運算則為比較、最大值、最小值等數學運算。整數與浮點運算能夠同步作業,相對而言浮點數效能提升36%。 ▲TU102、TU104、TU106單一SM功能區塊圖。 ▲多款遊戲平均下來,大約每100個浮點運算就有36個整數運算,而Turing架構可以同時處理這2個部分。 Tensor機器學習 NVIDIA在Volta架構首次導入用於機器學習的專用處理單元Tensor,這次也放入Turing架構當中,並隨著Microsoft發表DirectML,未來Tensor能夠以硬體加速Windows Machine Learning相關作業。對於遊戲來說,也可以期待與電腦AI對戰時,遇到更為千變萬化的戰略。 Tensor除了可以支援FP16浮點數運算,Turing世代更加入INT8和INT4的支援能力,讓可以容忍較低精度的應用提升處理速度。Tensor針對機器學習經常使用的矩陣運算最佳化,單一SM內部包含8個Tensor核心,每個時脈週期可以完成512個FP16乘法與積運算,或是總額1024個浮點運算,將精度調低至INT8則能夠完成2048個運算。 Tensor以硬體加速方式完成NVIDIA自己的NGX(Neural Graphics Acceleration),包含近期轟炸各位腦袋的深度學習超取樣反鋸齒(Deep Learning Super Sampling、DLSS),原本利用著色器運算效能進行的反鋸齒技術,將部份工作轉移至Tensor核心進行。透過機器學習訓練,DLSS可以提供比TAA(Temporal Anti-Aliasing)更高的畫面品質,或是在減少輸入樣本的情形之下,提供與TAA相同的4K畫面品質,卻只要TAA一半的運算資源。 DLSS需要經過機器學習訓練這一道關卡,因此並非所有遊戲均支援,筆者將支援遊戲整理成下方列表。首先,針對遊戲畫面以64倍超級取樣的方式進行繪製,表示每個像素不僅繪製1次,還透過位移方式繪製其它63個取樣點,最終再以64個取樣點平均值成為該像素顏色,如此這般繪製出具備反鋸齒效果的畫面。 ▲預計支援DLSS的遊戲列表。 ▲DLSS在4K解析度可以提供類似於4倍TAA的效果,卻只要花費一半的運算資源。 接著再利用同一場景、沒有經過反鋸齒處理的遊戲畫面,輸入DLSS要求輸出1張畫面,比對64倍超級取樣遊戲畫面與DLSS輸出,觀察哪些地方做得不好,再回頭修正DLSS內部演算法權重。重複幾次上述步驟,DLSS就會知道該如何處理遊戲畫面,產出1張與64倍超級取樣相近的畫面,並同時避免TAA無法解決的模糊、錯位、半透明等缺失。 DLSS另外還有個2倍DLSS模式,首先以目標解析度繪製1張畫面,接著再以更大的DLSS網路輸出1張極為近似64倍超級取樣的畫面。簡而言之,DLSS追求效能與畫面輸出速率的平衡,提供4倍TAA畫質,2倍DLSS則是追求畫面的極致,提供近似64倍超級取樣畫質。 ▲64倍超級取樣可以提供無與倫比的畫面品質,但因為計算量過大無法實作並維持一定的畫面輸出速率,如今2倍DLSS能夠提供極為接近的畫質表現並維持相當效能。 Tensor核心機器學習的應用還不只於此,更能夠移除畫面中不需要的物件並填補背景,亦或是從殘缺的畫面資訊推算出整張畫面,後者對於支援即時光追蹤相當重要。目前(甚至是未來數年)遊戲依然以光柵化為主、小區域光追蹤為輔,但光追蹤運算量相當大,RT核心依然無法在1/60秒之內提供完整運算結果,此時就要依靠Tensor核心,以不完整的光追蹤運算結果,推導剩餘未完成的畫面。 RT光追蹤運算 光柵化運算相信大家並不陌生,先行判斷3D場景內部物件的前後順序,被擋住的物件先行剃除減少運算量,接著再為這些物件貼上材質貼圖。在過去幾十年當中,這是個相當有效且快速繪製3D畫面的方式,廣泛應用於遊戲當中。 另一方面,若是相當要求畫面品質,如3D動畫、電影特效,則需要採用光追蹤運算方式,以數學方程式描述光的物理性質,包含光如何在物體表面吸收、反射、繞射,或是透明物體的折射等。光追蹤運算量相當大,因此較常見到利用多台伺服器算圖農場,在較沒有時間壓力的情況下繪製畫面,接著再結合這些畫面變成1段影片。 ▲光柵化與光追蹤的原理差異簡圖。 NVIDIA在Turing架構當中放入專門負責光追蹤運算的RT核心,RT核心主要用來加速BVH(Bounding Volume Hierarchies)遍歷,以及光和物件三角形之間的交互關係。RT核心主要有2個特化處理單元,其中之一負責bounding box/bounding volume的測試、之二負責光線與三角形測試,SM只要發出光探測指令,接下來RT核心就會回報光是否命中物件,再交由SM完成著色動作。 ▲RT核心負責複雜的bounding box測試和光-三角形測試,接著回報SM是否命中,由SM完成著色動作,若沒有命中物件模型則以其它方式產生顏色(如背景顏色)。 既然光追蹤運算量龐大又複雜,為何Turing要導入RT硬體加速?原因在於光柵化效率雖然相當好,卻無法模擬真實世界的狀況,譬如透明物體的折射、鏡面反射等相當基礎的物理現象。以往遊戲當中的鏡面反射特效,若是場景複雜度不高,可以在鏡面裡實際建立1個左右相反的場景並繪製,但多數時間是以cube mapping的技巧,預先將周圍環境繪製成貼圖,再貼至鏡面物件,並根據視角移動、縮小放大。 ▲透過cube mapping,能夠做到光柵化無法達成的環境反射。 若是場景物件位置移動更新,也可以利用cube mapping技巧生成另外1組貼圖,以便將3D場景物件移動反應在鏡面反射內容,但在變化度相當高的場景,如自由移動車輛、可破壞式物件等,無限量產出cube mapping貼圖並不實際,此時就需要即時光追蹤運算,即時根據場景變化計算環境反射。 ▲即將推出的Battlefield V(戰地風雲5)爆炸場景是最為顯著的例子,戰車履帶位於爆炸效果前方,光柵化並無法提供車輛板金的反射效果,此時就需要光追縱運算的幫助。 現實環境光源大多具有體積,當陰影距離物體越遠時,邊緣就會越模糊,光柵化可以利用多個技巧模擬,如陰影貼圖邊緣柔化等,但是當光源與物體之間距離變化時就會破功不自然,此時也是光追縱運算出馬的時候。 ▲Shadow of the Tomb Raider(古墓奇兵:暗影)未來也會推出更新檔,利用光追蹤運算產生陰影和環境光遮蔽效果。 當然,Turing內建的RT核心效能還無法讓整個3D畫面都使用光追蹤運算,絕大部分依然採用光柵化,少部分加入光追蹤效果。即便僅少部分畫面採用光追蹤技術,運算量依然不小,NVIDIA在此降低光追蹤的光線數量以便即時送出結果,並替光線數量不足形成的雜訊畫面,以AI或是非AI演算法去除雜訊,並朝全面AI去雜訊方向邁進。 新型渲染技術 新硬體能夠帶來新功能,而舊有繪製畫面流程,也可以透過最佳化提升效能,NVIDIA這次也隨著發表Turing架構顯示卡,提出多個處理技巧,Mesh Shading就是其中之一。我們都知道若要提升畫面繪製速度,可以降低遠方物件的精細度,但CPU在此還是要負責計算LOD(Level Of Detail)和物件剃除工作,形成繪圖流程當中,限制畫面物件數量的瓶頸。 Mesh Shading是NVIDIA進階幾何處理架構,旨在提供頂點與tessellation渲染模型與繪圖管線的幾何渲染階段,可以把LOD運算和物件剃除工作交由平行化處理能力相當高的GPU執行,降低處理器的負荷量。原本每個物件都需要1個CPU draw call,如今開發者1次可以送出1個物件清單,交由Task Shader以平行化方式處理。 ▲有了Task Shader和Mesh Shader之後,原本由CPU負責的LOD和物件剃除,將轉移到GPU進行運算。 ▲採用Meshing Shading技術,便可在同一場景放入成千上萬的物件。 NVIDIA因應VR應用環境,於前代Maxwell架構導入MRS(Multi-Res Shading),Pascal再導入LMS(Lens-Matched Shading),前者依據VR頭戴式顯示器的特點,降低邊緣畫面的繪製解析度以便提升效能,後者則是根據顯示器內部鏡片造成畫面變形,預先修正繪製畫面,讓畫面透過鏡片後可以獲得正常不扭曲的觀看效果。 Turing架構導入稱為VRS(Variable Rate Shading)的技術,可以將畫面以16x16像素分為多個區域,開發者可以指定部分區域渲染結果與像素點以1:1繪製(1x1),或是使用1個渲染結果填滿4個點(2x2),亦可選擇非正方形的方式填滿(1x2或是2x1),如此一來就可以降低GPU渲染的壓力,提供較高的畫面輸出速率。 ▲Variable Rate Shading將畫面以16x16像素為單位,分割成許多區域,單一區域可依據實際需求降低渲染解析度。 在VRS技術之後可以達成3種渲染方式,第一種為Content Adaptive Shading,若16x16像素區域的貼圖細節不高,便可採用單一渲染結果填滿更多像素點的方式。第二種則是由於人眼動態視覺限制,無法看清移動中的物體,此物體也可以採用較低的渲染解析度節省運算資源。最後1種則是Foveated Rendering,透過人眼視網膜中央解析度較高,越往外圍解析度較低的特性,若電腦能夠掌握人眼位置(透過其它追蹤技術,如Tobii Eye Tracking),便能夠以較低解析度渲染視覺焦點中心以外的區域。 ▲Content Adaptive Shading可以根據切割畫面區域的細節多寡,於下一張畫面降低渲染的解析度。 GDDR6和記憶體壓縮 隨著螢幕解析度越來越高,繪圖技巧日趨複雜,GPU不僅需要更快的繪圖記憶體,也需要更多的繪圖記憶體,NVIDIA繼首先採用GDDR5X和HBM2之後,Turing架構也首先採用了GDDR6繪圖記憶體。 GeForce RTX 2080和GeForce RTX 2080 Ti均採用14Gbps速度的GDDR6,單一封裝為雙通道16bit共32bit。欲達成14Gbp的速度,NVIDIA仔細地設計內部記憶體控制器與電路板佈線,減少串音干擾達40%。另外根據GDDR6製造商Micron的資料,GDDR6 DQ資料傳輸針腳被Vss圍繞,能夠提供較好的訊號傳輸品質。 為了避免眼圖在接收端張得不夠開,影響0與1的判斷,GDDR6每次接收資料時都可以設定VREFD,而GDDR5X則是以每資料byte為單位設定;另外還有1-tap DFE(Decision Feedback Equalization),當正確偵測到1個bit訊號時,再加上對傳輸通道的理解,即可計算出此bit對訊號的干擾並,以便更容易判斷下個bit訊號是0或1。 ▲接收方眼圖張得越開,表示更容易判斷傳輸訊號為0或是1。 Turing架構再次升級記憶體壓縮技術,可以減少資料從GDDR6記憶體搬移至L2快取,或是材質單元之間、畫面緩衝區的資料傳輸量。加總GDDR6記憶體頻寬進步和增強壓縮技術,Turing的有效頻寬與Pascal相比提升50%。 ▲GeForce RTX 2080Ti的記憶體有效頻寬,大約比GeForce GTX 1080 Ti提升50%。 視訊功能加強 顯示卡對於部分玩家而言,打電動為其最主要的功用,另外也有一派玩家用來加速視訊影片編碼與解碼。Turing內部包含加強版NVENC編碼器,支援HEVC 8K@30FPS HDR影片編碼,並可於HEVC編碼解省最高25%的流量、H.264編碼亦可節省最高15%流量,影片壓縮畫質也比Pascal世代或是軟體壓縮來得好。 NVDEC解碼器同時更新,以30FPS的速率解碼HEVC YUV444色深10bit/12bbit HDR影片,或是H.264 8K和VP9 色深10bit/12bit HDR影片。Turing原生支援ITU-R Recommendation BT.2100色調映射,避免在不同的HDR螢幕出現色調偏移現象。 ▲4K解析度影片壓縮串流對於CPU的負荷不小,使用Turing架構的硬體壓縮功能,可以將遊戲效能下滑幅度控制在1%。 視訊輸出連接埠提供3個支援DSC(Display Stream Compression)1.2的DisplayPort 1.4a,最高可以輸出8K@60Hz,另外也保留1個HDMI 2.0b,最高支援4K@60Hz,HDCP 2.2加密支援性也不成問題。特別的是還新增1組USB Type-C並支援VirtualLink,將VR頭戴顯示器需要的電源、影像、資料傳輸集中於1條纜線。 Scanner API與多相轉換效率 從GeForce RTX 2070、GeForce RTX 2080、GeForce RTX 2080 Ti的Founders Edition發表之初,就可以嗅到與前一世代不太相同的味道,Turing世代特地強調超頻性,連NVIDIA官方Founders Edition版本就有不同程度的超頻。 NVIDIA這次自行放入超頻專用Scanner API,只要在支援的軟體按下按鈕,即可透過NVIDIA自己的測試演算法和工作負載,自動找尋這張顯示卡的最高頻率。目前已知EVGA的Precision X1軟體會支援Scanner API,經過20分鐘即可自動超頻完成,相信其它廠商軟體在不久的將來也會跟進。 ▲輕鬆按個按鈕,透過Scanner API即可找尋顯示卡最高運作時脈,自動超頻完成。 NVLink SLI TU102和TU104均支援2張顯示卡SLI串聯運算,2張顯示卡透過NVLINK傳輸繪製完畢的畫面以及相關資料,串聯方式限制2張顯示卡(2個GPU),3-way和4-way串連方式不受Turing架構所支援。TU102具備2個8通道第二代NVLINK,雙向頻寬為100GB/s,TU104則具備1個8通道第二代NVLINK,雙向頻寬為50GB/s。(註:單向頻寬減半) ▲NVLINK橋接器具備多種間隔版本,不變的是每個要價美金79元,折合約新台幣2,500元,想要跟著顯示卡或是主機板隨貨贈送有相當難度。 ▲透過NVLINK最高可達雙向100GB/s的頻寬,GeForce RTX 2080 Ti可支援8K解析度環景螢幕組態。 Ansel EXR、AI UP-RES、RT 隨著Turing架構嫁入Tensor核心和RT核心,多出機器學習和光追蹤運算,在遊戲內擷取畫面的Ansel也出現新功能。EXR用來擷取HDR遊戲畫面,而AI UP-RES同樣是經過訓練之後,可以把原始擷取1080p解析度畫面,輸出成8K解析度。RT則是以更高精度、更多光線的光追蹤運算,產生有如真實世界相片的截圖,由於截圖時不講究畫面輸出速率,因此不必擔心光追蹤運算量。 ▲Ansel RT能夠以更好的光追蹤運算,輸出栩栩如生的遊戲擷圖。
▲透過 cube mapping,能夠做到光柵化無法達成的環境反射。(圖片取自 NVIDIA)

若是場景物件位置移動更新,也可以利用 cube mapping 技巧生成另外 1 組貼圖,以便將 3D 場景物件移動反應在鏡面反射內容,但在變化度相當高的場景,如自由移動車輛、可破壞式物件等,無限量產出 cube mapping 貼圖並不實際,此時就需要即時光追蹤運算,即時根據場景變化計算環境反射。

即將推出的 Battlefield V(戰地風雲 5)爆炸場景是最為顯著的例子,戰車履帶位於爆炸效果前方,光柵化並無法提供車輛板金的反射效果,此時就需要光追縱運算的幫助
▲即將推出的 Battlefield V(戰地風雲 5)爆炸場景是最為顯著的例子,戰車履帶位於爆炸效果前方,光柵化並無法提供車輛板金的反射效果,此時就需要光追縱運算的幫助。

現實環境光源大多具有體積,當陰影距離物體越遠時,邊緣就會越模糊,光柵化可以利用多個技巧模擬,如陰影貼圖邊緣柔化等,但是當光源與物體之間距離變化時就會破功不自然,此時也是光追縱運算出馬的時候。

Shadow of the Tomb Raider(古墓奇兵:暗影)未來也會推出更新檔,利用光追蹤運算產生陰影和環境光遮蔽效果
▲Shadow of the Tomb Raider(古墓奇兵:暗影)未來也會推出更新檔,利用光追蹤運算產生陰影和環境光遮蔽效果。

當然,Turing 內建的 RT 核心效能還無法讓整個 3D 畫面都使用光追蹤運算,絕大部分依然採用光柵化,少部分區域加入光追蹤效果。即便僅少部分畫面採用光追蹤技術,運算量依然不小,NVIDIA 採用偷吃步的方式降低光追蹤光線數量,能夠在一定時限之內送出運算結果,並替光線數量不足形成的雜訊畫面,以 AI 或是非 AI 演算法去除雜訊,並朝全面 AI 去雜訊方向邁進。


▲Star Wars 星際大戰電梯展示影片,仔細觀察依舊可以發現不自然的地方,但這個結合 DLSS 和即時光追蹤運算的結果,已有電影級視覺享受。

新型渲染技術

新硬體能夠帶來新功能,而舊有繪製畫面流程,也可以透過最佳化提升效能,NVIDIA 這次隨著發表 Turing 架構顯示卡,提出多個處理技巧,Mesh Shading 就是其中之一。我們都知道若要提升畫面繪製速度,可以降低遠方物件的精細度,但 CPU 在此還是要負責計算 LOD(Level Of Detail)和物件剃除工作,形成繪圖流程當中,限制畫面物件數量的瓶頸。

Mesh Shading 是 NVIDIA 進階幾何處理架構,旨在提供頂點與曲面細分渲染模型與繪圖管線的幾何渲染階段,可以把 LOD 運算和物件剃除工作交由平行化處理能力相當高的 GPU 執行,降低處理器的負荷量。原本每個物件都需要 1 個 CPU draw call,如今開發者 1 次可以送出 1 個物件清單,交由 Task Shader 以平行化方式處理。

有了 Task Shader 和 Mesh Shader 之後,原本由 CPU 負責的 LOD 和物件剃除,將轉移到 GPU 進行運算
▲有了 Task Shader 和 Mesh Shader 之後,原本由 CPU 負責的 LOD 和物件剃除,將轉移到 GPU 進行運算。

採用 Meshing Shading 技術,便可在 Asteroids 示範程式同一場景放入成千上萬個物件
▲採用 Meshing Shading 技術,便可在 Asteroids 示範程式場景放入成千上萬個物件。

NVIDIA 因應 VR 應用環境,於前代 Maxwell 架構導入 MRS(Multi-Res Shading),Pascal 再導入 LMS(Lens-Matched Shading),前者依據 VR 頭戴式顯示器的特點,降低邊緣畫面的繪製解析度以便提升效能,後者則是讓頭戴顯示器內部透鏡造成畫面變形現象,預先修正繪製畫面,讓畫面透過鏡片後可以獲得正常不扭曲的觀看效果。

Turing 架構導入稱為 VRS(Variable Rate Shading)的技術,將畫面以 16x16 像素分為多個區域,開發者可以指定部分區域渲染結果與像素點以 1:1 繪製(1x1),或是使用 1 個渲染結果填滿 4 個點(2x2),亦可選擇非正方形的方式填滿(1x2 或是 2x1),如此一來就可以降低 GPU 渲染運算壓力,提供較高的畫面輸出速率。

Variable Rate Shading 將畫面以 16x16 像素為單位,分割成許多區域,單一區域可依據實際需求降低渲染解析度
▲Variable Rate Shading 將畫面以 16x16 像素為單位,分割成許多區域,單一區域可依據實際需求降低渲染解析度。

在 VRS 技術之後可以達成 3 種渲染方式,第一種為 Content Adaptive Shading,若 16x16 像素區域的貼圖細節不高,便可採用單一渲染結果填滿更多像素點。第二種則是由於人眼動態視覺限制,無法看清移動中的物體,此物體也可以採用較低的渲染解析度節省運算資源。最後 1 種則是 Foveated Rendering,透過人眼視網膜中央解析度較高,越往外圍解析度較低的特性,若電腦能夠掌握人眼位置(透過其它追蹤技術,如 Tobii Eye Tracking),便能夠以較低解析度渲染視覺焦點中心以外的區域。

Content Adaptive Shading 可以根據切割畫面區域的細節多寡,於下一張畫面降低渲染的解析度
▲Content Adaptive Shading 可以根據切割畫面區域的細節多寡,於下一張畫面降低渲染的解析度。

(下一頁:GDDR6、加強眾多功能)

GDDR6 和記憶體壓縮

隨著螢幕解析度越來越高,繪圖技巧日趨複雜,GPU 不僅需要更快的繪圖記憶體,也需要更多的繪圖記憶體容量,NVIDIA 繼首先採用 GDDR5X 和 HBM2 之後,Turing 架構也率先採用了 GDDR6 繪圖記憶體。

GeForce RTX 2080 和 GeForce RTX 2080 Ti 均採用 14Gbps 速度 GDDR6,單一封裝為雙通道 16bit 共 32bit。欲達成 14Gbps 速度,NVIDIA 仔細地設計內部記憶體控制器與電路板佈線,減少串音干擾達 40%。另外根據 GDDR6 製造商 MICRON 資料,GDDR6 DQ 資料傳輸針腳被 Vss 圍繞,能夠提供較好的訊號傳輸品質。

為了避免眼圖在接收端張得不夠開,影響 0 與 1 的判斷,GDDR6 每次接收資料時都可以設定 VREFD,而 GDDR5X 則是以每資料 byte 為單位設定;另外還有 1-tap DFE(Decision Feedback Equalization),當正確偵測到 1 個 bit 訊號時,統合對傳輸通道的量測結果,即可計算出此 bit 對接下來訊號的干擾並去除,以便更容易判斷下個 bit 訊號是 0 或 1。

接收方眼圖張得越開,表示更容易判斷傳輸訊號為 0 或是 1
▲接收方眼圖張得越開,表示更容易判斷傳輸訊號為 0 或是 1。

Turing 架構再次升級記憶體壓縮技術,減少資料從 GDDR6 記憶體搬移至 L2 快取,或是材質單元之間、畫面緩衝區的資料傳輸量。加總 GDDR6 記憶體頻寬進步和增強壓縮技術,Turing 的有效頻寬與 Pascal 相比提升 50%。

GeForce RTX 2080Ti 記憶體有效頻寬,大約比 GeForce GTX 1080 Ti 提升 50%
▲GeForce RTX 2080Ti 有效記憶體頻寬,大約比 GeForce GTX 1080 Ti 提升 50%。

視訊功能加強

顯示卡對於部分玩家而言,打電動為其最主要的功用,另外也有一派玩家用來加速視訊影片編碼與解碼。Turing 內部包含加強版 NVENC 編碼器,支援 HEVC 8K@30FPS HDR 影片編碼,並可於 HEVC 編碼解省最高 25% 流量、H.264 編碼亦可節省最高 15% 流量,影片壓縮畫質也比 Pascal 世代或是軟體壓縮(fast 等級演算法)來得好。

NVDEC 解碼器同時更新,以 30FPS 的速率解碼 HEVC YUV444 色深 10bit/12bit HDR 影片,或是 H.264 8K 和 VP9 色深 10bit/12bit HDR 影片。Turing 原生支援 ITU-R Recommendation BT.2100 色調映射,避免在不同的 HDR 螢幕出現色調偏移現象。

4K 解析度影片壓縮串流對於 CPU 負荷不小,使用 Turing 架構的硬體壓縮功能,可以將遊戲效能下滑幅度控制在 1%
▲4K 解析度影片壓縮串流對於 CPU 負荷不小,使用 Turing 架構的硬體壓縮功能,可以將遊戲效能下滑幅度控制在 1%。

DXVA Checker 所示資訊,HEVC 和 VP9 均支援 8K 解析度影片解碼
▲DXVA Checker 所示資訊,HEVC 和 VP9 均支援 8K 解析度影片解碼。

Founders Edition 視訊輸出連接埠提供 3 個支援 DSC(Display Stream Compression)1.2 的 DisplayPort 1.4a,最高可以輸出 8K@60Hz,另外也保留 1 個 HDMI 2.0b,最高支援 4K@60Hz,HDCP 2.2 加密支援性也不成問題。特別的是新增 1 組 USB Type-C 並支援 VirtualLink,將 VR 頭戴顯示器需要的電源、影像、資料傳輸集中於 1 條纜線。

Scanner API 與多相轉換效率

從 GeForce RTX 2070、GeForce RTX 2080、GeForce RTX 2080 Ti 的 Founders Edition 發表之初,就可以嗅到與前一世代不太相同的味道,Turing 世代特地強調超頻性,連 NVIDIA 官方 Founders Edition 版本都有不同程度的超頻。

NVIDIA 這次自行放入超頻專用 Scanner API,只要在支援的軟體按下按鈕,即可透過 NVIDIA 自己的測試演算法和工作負載,自動找尋這張顯示卡的最高頻率。目前已知 EVGA 的 Precision X1 軟體會支援 Scanner API,經過 20 分鐘即可自動超頻完成,相信其它廠商軟體在不久的將來也會跟進。

輕鬆按個按鈕,透過 Scanner API 即可找尋顯示卡最高運作時脈,自動超頻完成
▲輕鬆按個按鈕,透過 Scanner API 即可找尋顯示卡最高運作時脈,自動超頻完成。

GeForce RTX 2080、GeForce RTX 2080 Ti 的 Founders Edition 顯示卡,相較過去 GeForce GTX 1080 和 GeForce GTX 1080 Ti 採用更多的電源轉換相位,除顯而易見用來應付碩大晶粒的耗電,並兼顧轉換效率避免多餘廢熱,能夠根據實際耗電量的不同,由低至高分別開啟 1 相至全體,讓轉換效率維持在最高的狀態。

多相位轉換雖然保證較大的功率輸出,卻不保證擁有最好的轉換效率,Founders Edition 可以根據實際的耗電量多寡,調整使用電源相位轉換數量
▲多相位轉換雖然保證較大的功率輸出,卻不保證在所有功率輸出範圍均擁有最好的轉換效率,Founders Edition 可以根據實際的耗電量多寡,調整供電相位轉換數量。

NVLink SLI

TU102 和 TU104 均支援 2 張顯示卡 SLI 串聯運算,2 張顯示卡透過 NVLINK 傳輸繪製完畢的畫面以及相關資料,串聯方式限制 2 張顯示卡(2 個 GPU),3-way 和 4-way 串連方式不受 Turing 架構所支援。TU102 具備 2 個 8 通道第二代 NVLINK,雙向頻寬為 100GB/s,TU104 則具備 1 個 8 通道第二代 NVLINK,雙向頻寬為 50GB/s。(註:單向頻寬減半)

NVLINK 橋接器具備多種間隔版本,不變的是每個要價美金 79 元,折合約新台幣 2,500 元,想要跟著顯示卡或是主機板隨貨贈送有相當難度
▲NVLINK 橋接器具備多種間隔版本,不變的是每個要價美金 79 元,折合約新台幣 2,500 元,看看哪個佛心廠商跟隨顯示卡或是主機板一同贈送。

透過 NVLINK 最高可達雙向 100GB/s 頻寬,讓 GeForce RTX 2080 Ti 支援 8K 解析度環景螢幕組態
▲透過 NVLINK 最高可達雙向 100GB/s 頻寬,讓 GeForce RTX 2080 Ti 支援 8K 解析度環景螢幕組態。

Ansel EXR、AI UP-RES、RT

隨著 Turing 架構加入 Tensor 核心和 RT 核心,多出機器學習和光追蹤運算,在遊戲內擷取畫面的 Ansel 同步出現新功能。EXR 用來擷取 HDR 遊戲畫面,而 AI UP-RES 是經過機器學習訓練之後,可以把原始擷取 1080p 解析度畫面,輸出成 8K 解析度。RT 則是以更高精度、更多光線的光追蹤運算方式,產生有如真實世界相片的截圖,由於截圖時不講究畫面輸出速率,因此不必擔心光追蹤運算量。

Ansel RT 能夠以更好的光追蹤運算,輸出栩栩如生的遊戲擷圖
▲Ansel RT 能夠以更好的光追蹤運算,輸出栩栩如生的遊戲擷圖。

(下一頁:Founders Edition 硬體分析)

Founders Edition

GeForce RTX 2080 Founders Edition 官方建議售價為美金 799 元,GeForce RTX 2080 Ti Founders Edition 建議售價為美金 1,199 元,外盒包裝繼續選用上、下紙盒套裝,將顯示卡本體夾在泡棉當中,避免顯示卡由於運輸震動因素受損。

盒裝底部泡棉另外還收納 1 個紙盒,安放使用說明書與支援說明書,並附贈 1 個 DisplayPort 轉 DVI 轉接線。不過對於喜愛 Founders Edition 的使用者來說,筆者拿到的 2 款顯示卡盒裝均沒有如前代附贈金屬銘牌貼紙,少了些許信仰加成精神糧食。


▲2 款 Founders Edition 外包裝圖案風格出現些許變化,不變的是依然選擇 NVIDIA 公司青綠色。


▲外盒採用上下開啟方式,並將顯示卡夾在泡棉中央。


▲盒裝零配件包含使用說明書、支援說明書,以及 1 個 DisplayPort 轉 DVI 轉接線。

GeForce RTX 2080 Founders Edition 與 GeForce RTX 2080 Ti Founders Edition 同樣採用銀黑配色
▲GeForce RTX 2080 Founders Edition 與 GeForce RTX 2080 Ti Founders Edition 同樣採用銀黑配色。

視訊連接埠輸出檔板為黑色,並印上 NVIDIA 商標
▲視訊連接埠輸出檔板為黑色,並印上 NVIDIA 商標。

GeForce RTX 2080 Founders Edition 需要連接 1 個 PCIe 6pin 和 PCIe 8pin 輔助電源,GeForce RTX 2080 Ti Founders Edition 則需要 2 個 PCIe 8pin
▲GeForce RTX 2080 Founders Edition 需要連接 1 個 PCIe 6pin 和 1 個 PCIe 8pin 輔助電源,GeForce RTX 2080 Ti Founders Edition 則需要 2 個 PCIe 8pin。


▲散熱風扇由前代鼓風扇形式,變更為 2 個軸流風扇。

NVLink 針腳安裝防塵蓋,外觀設計樣式與顯示卡一致
▲NVLink 針腳安裝防塵蓋,外觀設計樣式與顯示卡一致。

開機送電時,側邊 GEFORCE RTX 字樣具備 LED 背光效果,預設為青綠色
▲開機送電時,側邊 GEFORCE RTX 字樣具備 LED 背光效果,預設為青綠色。

散熱器均溫板全覆蓋

GeForce RTX 2000 系列 Founders Edition 顯示卡做了大膽的新設計,沒有採用鼓風扇強制排氣至機殼外,而是改採 2 個直徑 85mm 軸流風扇,搭配覆蓋面積達整張顯示卡的均溫板(Vaper Chamber),均溫板上方再行焊接散熱片,散熱片並塗裝黑色顏料,美觀並保持鋁質散熱片長期使用不氧化、不硫化。

Founders Edition 一向採用多層三明治結構,這一代也不例外,金屬背板採用銀色外觀,搭配沿用數代的線條裝飾,並於中央貼上金屬亮面貼紙。與顯示卡電路板相對面安排導熱墊,分別位於顯示晶片、記憶體、MOSFET 相應處,多少幫助逸散廢熱。


▲GeForce RTX 2080 Founders Edition 和 GeForce RTX 2080 Ti Founders Edition 採用相同的散熱設計,因此可預期前者的溫度表現較好。

鋁質金屬保護背板採用銀色與幾何線條設計,中央再貼上該型號的金屬亮面貼紙
▲鋁質金屬保護背板採用銀色與幾何線條設計,中央再貼上該型號的金屬亮面貼紙。

金屬保護背板內面貼上黑色絕緣墊,並於電路板易發熱區域相對應位置貼上導熱墊
▲金屬保護背板內面貼上黑色絕緣墊,並於電路板易發熱區域相對應位置貼上導熱墊。

散熱器依舊保有金屬中框設計,加強整張顯示卡的抗彎折能力,並以導熱墊接觸顯示核心晶片以外的發熱區,如記憶體、供電轉換區等,金屬中框其上再覆蓋面積相當大的均溫板散熱片。均溫板與顯示核心晶片直接接觸,也用導熱墊與金屬中框接觸,讓整個顯示卡的廢熱能夠透過均溫板和散熱片排除。

金屬中框負責支撐整張顯示卡加強抗彎曲能力,並同時肩負顯示核心晶片以外區域的導熱工作
▲金屬中框負責支撐整張顯示卡加強抗彎曲能力,並同時肩負顯示核心晶片以外區域的導熱工作。

均溫板腔體涵蓋整張電路板,導熱更為快速
▲均溫板腔體涵蓋整張電路板,導熱更為快速。

均溫板焊接鋁質散熱鰭片,並施以黑色塗料加強造型並避免長期使用氧化
▲均溫板焊接鋁質散熱鰭片,並施以黑色塗料加強造型並避免長期使用氧化。

2 個 85mm 風扇採用 AVC DAPA0815B2UP001 型號,軸承為雙滾珠形式,透過 PWM 訊號控制風扇轉速。有趣的是,固定風扇的框架中央還有個小型電路板,上方安裝 1 顆 STMicroelectronics STM32F051K8 微控制器,由線路走向可以得知該控制器負責顯示卡側邊 GEFORCE RTX 字樣 RGB LED 燈光控制,

2 個 85mm 風扇廠牌與型號為 AVC DAPA0815B2UP001
▲2 個 85mm 風扇廠牌與型號為 AVC DAPA0815B2UP001,3 相 6 極電機。

風扇固定框架中央有個小型電路板,STM32F051K8 微控制器負責顯示卡側邊 RGB LED 控制;此外也可見到電路板尚有 2 個 RGB 控制線路未上料,不排除未來可能出現 RGB LED 風扇等特殊版本顯示卡
▲風扇固定框架中央有個小型電路板,STM32F051K8 微控制器負責顯示卡側邊 RGB LED 控制;此外也可見到電路板尚有 2 個 RGB 控制線路未上料,不排除未來可能出現 RGB LED 風扇等特殊版本顯示卡。

散熱鰭片放好放滿。連風扇固定框架的畸零空間也不放過
▲散熱鰭片放好放滿,連風扇固定框架的畸零空間也不放過。

2080 8 相+2 相

GeForce RTX 2080 Founders Edition 電路板設計比較接近大家的印象,電路板左方放置一些耗電量不大的供電轉換區,中央安排 TU104 晶片並圍繞著 8 顆 GDDR6 記憶體。往右方走去就是核心與記憶體的主要供電轉換區,此區域和 PCIe 輔助電源插座中間安排許多控制晶片,並善用電路板正、反面空間安放。

顯示繪圖核心 TU104 主要供電轉換採用 8 相設計,由 1 顆 uPI Semiconductor uP9512 降壓控制器控制,根據 uPI Semiconductor 資料,這顆晶片相較前一世代 uP9511 多了 SMBus,或許未來驅動程式或是公用程式可以加入一些進階調整選項。該顆晶片 PWM 輸出頻率最高可達 2MHz,即便經過倍相器晶片擴展後也有 1MHz;記憶體主要供電 2 相同樣透過另外 1 顆同型號的晶片控制。

這 8 相和 2 相供電轉換區,單相 MOSFET 採用 ON Semiconductor FDMF3160 Smart Power Stage 模組,整合上下橋、驅動器,以及電流與溫度偵測。核心 8 相單相串聯 1 個 0.22μH 電感,供應給晶片之前還經過 10 顆 Panasonic 導電性高分子鋁電解 SP-Cap 330μf 電容與數十顆積層陶瓷電容;記憶體 2 相單相使用 1 個 0.47μH 電感,後端並聯 3 顆 SP-Cap 330μf 電容與多顆陶瓷積層電容。

GeForce RTX 2080 Founders Edition 電路板正面一覽
▲GeForce RTX 2080 Founders Edition 電路板正面一覽。

GeForce RTX 2080 Founders Edition 電路板背面一覽,左側安排多顆控制器晶片
▲GeForce RTX 2080 Founders Edition 電路板背面一覽,左側安排多顆控制器晶片。

顯示繪圖晶片 TU104-400A
▲顯示繪圖晶片 TU104-400A。

Micron GDDR6 MT61K256M32JE-14:A 記憶體顆粒,單顆容量 8Gb,共安排 8 顆組成 8GB 容量
Micron GDDR6 MT61K256M32JE-14:A 記憶體顆粒,單顆容量 8Gb,共安排 8 顆組成 8GB 容量。

左方 2 相為記憶體主要供電,右方 8 相則供應給顯示繪圖晶片
▲左方 2 相為記憶體主要供電,右方 8 相則供應給顯示繪圖晶片。

FDMF3160 Smart Power Stage 模組,單顆最大電流負載量為 70A
▲FDMF3160 Smart Power Stage 模組,單顆最大電流負載量為 60A。


▲uP9512 降壓控制器,電路板共有 2 顆,各自負責顯示繪圖核心晶片 8 相和記憶體 2 相。


▲電路板背面還有 2 顆 ON Semiconductor NCP45491 4 通道電壓與分流器監控晶片,提供自動超頻機制相關監控資訊。

2080 Ti 核心供電組成複雜

GeForce RTX 2080 Ti 所採用的 TU102 晶粒面積高達 754mm2,算是數一數二大的設計,驅動晶片作動的電量不小,若要再加上超頻餘裕,供電設計勢必需要加強。於是乎顯示繪圖晶片的供電轉換區,部分安排在 TU102 晶片與 PCIe 輔助供電插座之間,一部分則跑到晶片與視訊輸出埠之間。

受限於 uP9512 降壓控制器晶片最多僅有 8 組 PWM 訊號輸出,因此這張顯示分別於第三、第五、第六、第七、第八 PWM 訊號並聯 2 個 FDMF3170,加上第一、第二、第四 PWM 訊號連接 1 個 FDMF3170,顯示繪圖晶片的主要供電轉換共有 13 個 FDMF3170 一起服務,但供電相位依然是 8 相。

另一方面,GeForce RTX 2080 Ti 採用 11GB GDDR6 記憶體,也就表示耗電量隨之增加,因此記憶體主要供電轉換區相較 GeForce RTX 2080 Founders Edition 多了 1 相變成 3 相規模,每相採用 1 顆 FDMF3170,此區域同樣交由另外 1 顆 uP9512 控制。其它電感和電容用料規格與 GeForce RTX 2080 Founders Edition 相同,此處就不再贅述,零件數量則因應耗電量增加而多出些許。


▲GeForce RTX 2080 Ti Founders Edition 電路板正面一覽,可以觀察到左右 2 側均有規模不小的供電轉換區。


▲GeForce RTX 2080 Ti Founders Edition 電路板背面一覽。


▲顯示繪圖晶片 TU102-300A,面積高達 754mm2


▲GeForce RTX 2080 Ti 搭配 11GB GDDR6 記憶體,使用 11 顆 8Gb 封裝組成,因此電路板留有 1 個空焊處(電路板與 Quadro RTX 共用)。

供電相位每相使用 1 顆 FDMF3170,最大負載電流 70A,顯示核心晶片主要供電其中 5 相並聯 2 顆加強電流承載能力
▲供電相位每相使用 1 顆 FDMF3170,最大負載電流 70A,顯示核心晶片主要供電其中 5 相並聯 2 顆加強電流承載能力。

nvidia geforce rtx 2080 ti 記憶體與顯示繪圖晶片主要供電相位組態示意圖。(紅色為記憶體、綠色為顯示晶片)
▲記憶體與顯示繪圖晶片主要供電相位組態示意圖。(紅色為記憶體、綠色為顯示晶片)

(下一頁:效能測試重頭戲)

風扇噪音大幅下滑

耗電量測試採用變電家量測,量測位置於電源供應器市電輸入端,因此量測到的數值為平台耗電量加計電壓轉換損耗。Turing 世代設計包含 Tensor 核心和 RT 核心,傳統 FurMark 甜甜圈已無法將顯示卡耗電量最大化,但在更好的燒機程式出現之前,目前僅能使用傳統方法進行比較。

GeForce RTX 2080 Founders Edition 和 GeForce RTX 2080 Ti Founders Edition 於 Windows 10 桌面待機功耗不高,分別為 55.5W 和 61.9W,FurMark 燒機時則提升至 291W 和 334W。

雙方 SM 數量和運作時脈不盡相同,功耗表現則依產品定位增減
▲雙方 SM 數量和運作時脈不盡相同,功耗表現則依產品定位增減。

溫度表現部分,雖然這代散熱器大幅改善,並採用 TSMC 12nm FFN(FinFET NVIDIA),但是晶粒面積不減反增,依然擋不住 FurMark 燒機時的熱情,致使無法達到最高超頻時脈。GeForce RTX 2080 Founders Edition 燒機 10 分鐘可達 73℃,此時運作時脈於 1560MHz~1575MHz 之間震盪;GeForce RTX 2080 Ti Founders Edition 則為 76℃,時脈於 1320MHz~1350MHz 範圍變動。

2 個軸流風扇噪音改善幅度相當大,比起前一代鼓風扇高速運轉的風切聲少了許多。於燒機末期相距顯示卡風扇前方 30cm 處量測,GeForce RTX 2080 Founders Edition 風扇轉速為 1820RPM,噪音值 42.2dB(A),GeForce RTX 2080 Ti Founders Edition 則是 2059RPM,噪音值 44.8dB(A)。若是裝進機殼內部透過面板、側板隔音,即便長時間遊玩 3A 級遊戲大作也不會感到吵雜。

Turing 世代 Founders Edition 雖然有著 12nm FFN 和加強散熱器等有利因素,但晶片面積也長得更大,燒機熱度不容小覷。(室溫 25℃)
▲Turing 世代 Founders Edition 雖然有著 12nm FFN 和加強散熱器等有利因素,但晶片面積也長得更大,燒機熱度不容小覷。(室溫 25℃)

GeForce RTX 2080 Founders Edition 功耗限制調整範圍為 -44%~+24%,溫度調整範圍為 -22%~+6%,上限 88℃
▲GeForce RTX 2080 Founders Edition 功耗限制調整範圍為 -44%~+24%,溫度調整範圍為 -22%~+6%,上限 88℃。

GeForce RTX 2080 Ti Founders Edition 功耗限制調整範圍為- 62%~+23%,能夠降至原廠設定值的一半以下,溫度調整範圍為 -23%~+5%,上限依舊是 88℃
▲GeForce RTX 2080 Ti Founders Edition 功耗限制調整範圍為- 62%~+23%,能夠降至原廠設定值的一半以下,溫度調整範圍為 -23%~+5%,上限依舊是 88℃。

4K 解析度請指名鈦級

最終的效能測試,由於目前已發售的遊戲並不完整支援 Tensor 核心和 RT 核心特性,測試結果無法反映此一世代的確切效能,但就傳統光柵化渲染而言,這 2 款 Founders Edition 對比前一代 GeForce GTX 1080 Ti 均有成長。搭配驅動程式版本為 411.51,還不是正式版本,未來透過更新應可再往上提升效能表現。

特別需要提出來的是 GeForce RTX 2080 Ti Founders Edition,其 4K 解析度效能已相當接近 60FPS,此時畫質參數均調整至預設值最高配置;若是稍微降低一些畫質,可求取平均 60FPS 以上的畫面速率表現。當然,若是未來遊戲支援 DLSS,還可減輕舊款反鋸齒運算所帶來的效能下降問題,並同時維持類似的畫面品質。

3DMark 測試結果
▲3DMark 測試結果。

VRMark 測試結果,畫面複雜度越高,GeForce RTX 2080 Ti Founders Edition 即可展現出效能差異
▲VRMark 測試結果,畫面複雜度越高,GeForce RTX 2080 Ti Founders Edition 即可展現出效能差異。

3DMark API Overhead 測試結果,由於顯示卡均搭配 <a href=INTEL Core i7-8700K 處理器,雖然 2 者有差異但不多,並以 DirectX 12 API 擁有最多的 draw calls " width="719" height="412">
▲3DMark API Overhead 測試結果,由於顯示卡均搭配 Intel Core i7-8700K 處理器,雖然 2 者有差異但不多,並以 DirectX 12 API 擁有最多的 draw calls 。


▲Ashes of the Singularity: Escalation 遊戲能夠選擇 3 種 API 進行測試,以 DirectX 12 擁有最佳表現。

多種遊戲測試結果,相對於 1080p 解析度,GeForce RTX 2080 Ti Founders Edition 在 4K 解析度較能發揮其價值
▲多種遊戲測試結果,相對於 1080p 解析度,GeForce RTX 2080 Ti Founders Edition 在 4K 解析度較能發揮其價值。



▲Final Fantasy XV 測試程式若是採用 DLSS 進行反鋸齒處理,GeForce RTX 2080 Founders Edition 效能表現可比 TAA 多出 36.3%,GeForce RTX 2080 Ti Founders Edition 則為 34.7%。(上方為 GeForce RTX 2080 Founders Edition,下方為 GeForce RTX 2080 Ti Founders Edition )

1:1 Final Fantasy XV 畫質比較之一。(因測試軟體緣故,無法固定畫面場景)
▲1:1 Final Fantasy XV 畫質比較之一。(因測試軟體緣故,無法固定畫面場景)

1:1 Final Fantasy XV 畫質比較之二
▲1:1 Final Fantasy XV 畫質比較之二。

消費級繪圖功能革命

由於對手 AMD Radeon 系列顯示卡至今無法推出與高階款式正面對決的產品,NVIDIA 顯示卡效能這幾年一直處於獨孤求敗的態勢,這次推出 GeForce RTX 2080 和 GeForce RTX 2080 Ti 等級產品,其實是自家人打自家人的局面,建議售價為美金 699 元和 999 元(Founders Edition 為 799 元和 1,199 元),折合新台幣約 21,500 元和 31,000 元(Founders Edition 折合約為新台幣 25,000 元和 37,000 元)。

現今的顯示卡產品,絕大多數出廠時均已預先超頻,加上廠商越來越注重散熱效果,顯示卡個頭一款比一款還要粗勇,外加晶粒面積碩大、GDDR6 先由 Micron 供應的因素,台灣地區 GeForce RTX 2080 預購價格從新台幣 27,000 元起跳,GeForce RTX 2080 Ti 甚至一度突破新台幣 4 萬元。

若以上述測試效能增進幅度與實際售價換算下來,GeForce RTX 2080 和 GeForce RTX 2080 Ti 並不比前一代划算,但別忘了 Tensor 核心和 RT 核心尚未被善加利用,若未來遊戲畫面品質能夠如同 Star Wars 電梯展示橋段,並兼顧畫面輸出速率,那可是多張 GeForce GTX 1080 Ti 串聯運算也達不到的感動瞬間。

此時 NVIDIA 當務之急是趕快協助軟體開發商,推出應用 DLSS 和光追蹤技術的遊戲產品,消費市場才有足夠的誘因選購新一代產品。另一方面,AMD 具備硬體加速光追蹤的顯示卡尚未走漏風聲,Intel 自製獨立顯示卡還要等上數年,且有 Larrabee 火速砍頭轉為 Xeon Phi 運算加速卡的前例,NVIDIA 目前依舊可以在這個市場佔有技術與效能領先地位。

產品資訊

NVIDIA GeForce RTX 2080 Founders Edition

NVIDIA GeForce RTX 2080 Ti Founders Edition

延伸閱讀

測試平台

  • 處理器:Intel Core i7-8700K
  • 主機板:GIGABYTE Z370 AORUS Gaming 5
  • 記憶體:Team Group T-Force XCALIBUR DDR4 3600 8GB x 2 @2666MHz
  • 系統碟:Plextor M9Pe(G) 512GB
  • 資料碟:Micron Crucial MX500 1TB
  • 電源供應器:Seasonic Platinum SS-1000XP
  • 作業系統:Microsoft Windows 10 Pro 64bit 1803
  • 顯示卡驅動程式:411.51
想看小編精選的3C科技情報&實用評測文,快來加入《T客邦》LINE@查看原始文章訂閱文章
延伸閱讀
小編推薦

資料來源新增 RT 與 Tensor ,NVIDIA GeForce RTX 2080/2080Ti Turing 架構、Founders Edition、效能表現一次看懂
若針對此內容有任何建議,請聯繫客服