老黃刀法切出A10與A30等AI運算GPU，順勢端出MLPerf V1.0效能驗證成果

NVIDIA在GTC21期間宣佈A10與A30等針對AI運算與雲端串流、虛擬化等應用設計的運算卡，並透過MLPerf展現效能。

NVIDIA在GTC21期間宣佈A10與A30等針對AI運算與雲端串流、虛擬化等應用設計的運算卡，並透過MLPerf展現效能。 <h2>A10與A30輕量運算卡登場</h2> 先前NVIDIA已針對高效能AI運算推出<a href="https://www.nvidia.com/zh-tw/data-center/a100/">A100</a>繪圖處理器（以下簡稱GPU），以及滿足小型資料中心、邊緣運算與高階繪圖需求的<a href="https://www.nvidia.com/zh-tw/data-center/tesla-t4/">T4</a>與<a href="https://www.nvidia.com/zh-tw/data-center/a40/">A40</a>等GPU，為了填補這些產品之間的空缺，NVIDIA於GTC21 GPU技術大會期間發表了採用Ampere架構的A10與A30等產品。 <a href="https://www.nvidia.com/zh-tw/data-center/products/a10-gpu/">A10</a>規劃為繪圖與輕度AI等應用，採單槽PCIe Gen4介面卡形式，搭載頻寬達600GB/s的24GB GDDR6記憶體，TDP僅150W，只需單個8Pin電源插槽就可以滿足供電需求。其FP32浮點運算效能為31.2TF，TF32 Tensor Core運算效能則可達125TF（透過<a href="https://blogs.nvidia.com.tw/2020/05/14/sparsity-ai-inference/">AI稀疏性</a>強化之效能表現）。 <a href="https://www.nvidia.com/zh-tw/data-center/products/a30-gpu/">A30</a>則規劃為AI推論與主流運算應用，，採雙槽PCIe Gen4介面卡形式，並可透過NVLink串接2張卡，搭載頻寬達933GB/s的24GB HBM2記憶體，TDP為165W，比較特別的是它採用8-Pin CPU電源端子其FP32浮點運算效能達10.3TF，TF32 Tensor Core運算效能則可達165TF（透過AI稀疏性強化之效能表現），並可支援4組<a href="https://www.techbang.com/posts/85042">多執行個體GPU</a>（Multi-Instance GPU，MIG）。 <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hZgOZZM18BUhyIxO0oLt6H0t1CTlBRxBOHFtCJgcrWHheEV4dSUMaMlJ2WnxDGxAeTVkaK1UkUigLRkMbG0c" alt="A10與A30等新產品的定位為補足主流運算與繪圖需求。" width="720" height="435"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ A10與A30等新產品的定位為補足主流運算與繪圖需求。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hFnBdTG3qGUF_HQ-9rZxmFkZLFTBMeQxHEWVQLw9KFXUFJEJDQi9SO19JE3ZOfVpFR2cGL1MeR3dULgoWQH4" alt="A10是單槽的主流繪圖卡。" width="720" height="647"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ A10是單槽的主流繪圖卡。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hnBEDyCyVMW14PSeRqrlOOkFrPRxLWSRrFkV6Ww8-PF1dWWozFFt9F1hobFhJBSU8Qkd5D11taQgBCHduTVo" alt="A10也可以應用於AI運算，其效能大約是T4的2.5倍。" width="720" height="436"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ A10也可以應用於AI運算，其效能大約是T4的2.5倍。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hgsYbhfYbOFxkGy6gtoNHC11NNC1Xfy1aCmN-aEYfYjkbf2NeUH4jJkQZNW9VIn0MUGEgOxZPMWQZKnhZWHk" alt="A30則是雙槽的主流運算卡。" width="720" height="475"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ A30則是雙槽的主流運算卡。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hCJapkFLoHGVcCQqZjo9jMmVfEBRvbQljMnEDAnFdFlImOUc2aG1WH3xbQQdtaVs0MHMBVCwIFVZ1a1MzaG0" alt="A30的電源端子並非傳統8-Pin PCIe或NVIDIA 12Pin電源端子，而是8-Pin CPU電源端子。" width="720" height="488"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ A30的電源端子並非傳統8-Pin PCIe或NVIDIA 12Pin電源端子，而是8-Pin CPU電源端子。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hrL6hmEb-LWMLETuf2ZNSNDJHIRI4dThlZWk2AnpCewYlc3Y2M3AwGStEe1E6cj02NGtgAiwRJ1t0JT8wPiI" alt="A30的AI運算效能大約是T4的3~8倍。" width="720" height="939"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ A30的AI運算效能大約是T4的3~8倍。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0h14c--22LbhteVHjnjNERTGcCYmptMHsdMCwgKilSMXgjYTUaazIgYX4HMnlvNC5IMS4nKX4BM3lxMS0dYWY" alt="以A10為基準與其他不同運算單元的效能比較。" width="720" height="366"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ 以A10為基準與其他不同運算單元的效能比較。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hVBG6FMATCW16Tx-RqM12OkMZBRxJKxxrFDdHDFtMUF0FK1JpQSxCF1odB11Ldh1oRzVFXApKAw5Re0hpQSA" alt="邊緣運算情境的效能測試則以Jetson Xaiver NX為比較基準。" width="720" height="375"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ 邊緣運算情境的效能測試則以<a href="https://www.techbang.com/posts/78502">Jetson Xaiver NX</a>為比較基準。</label> <h2>MLPerf跑分更公平</h2> MLPerf是由學術界、研究實驗室和業界共同組成的AI聯盟，目標為打造公平、實用測試基準，測試項目包含圖像分類、物體偵測、翻譯、自然語言處理、推薦等類別，以發揮為硬體、軟體和服務的AI訓練與推論提供客觀的效能評估，並在近期推出1.0版基準。 NVIDIA透過各種軟體改進，以及開源的Triton推論伺服軟體，為既有硬體的效能進行最佳化，在過去6個月中已帶來明顯AI運算效能提升，其中在3D U-Net項目中成果最為顯著，效能增益高達45%。 另外值得關注的焦點，就是NVIDIA也透過MLPerf來驗證MIG虛擬化的效能耗損。在所有測試項目的綜合表現中，MIG能帶來98%的效能表現，代表虛擬化僅損失2%的效能表現，執行效率相當理想。 <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hvIXun4LAKWZlDD-at4hWMVxaJRdWaDxgC3QzVBQKdlRINHJnXj9hHEUIfwJUbz1kWHYyCEFZIlVPPGc4Djg" alt="MLPerf測試包含多種像目，近期終於迎來1.0正式版。" width="720" height="391"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ MLPerf測試包含多種像目，近期終於迎來1.0正式版。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hBz5LcS5-HVUINQup2rZiAjFjESQ7UQhTZk0FNyw0E2RxBkYKMlIHLyhmSjc5DV4BY08CNi0xRmNwBFpWZAA" alt="NVIDIA Triton能夠簡化推論服務並為效能最佳化。" width="720" height="388"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ NVIDIA Triton能夠簡化推論服務並為效能最佳化。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hCo-0M3k1HEAQSQq8wshjFykfEDEjLQlGfjFadDxBQiI-LkcXLilbOjBBFXAhcA9EKDMHdDAZF3hoKQgSLic" alt="NVIDIA透過軟體最佳化的方式，在6個月中帶來最高45% AI運算效能增益。" width="720" height="359"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ NVIDIA透過軟體最佳化的方式，在6個月中帶來最高45% AI運算效能增益。</label> <img style="display: block; margin-left: auto; margin-right: auto;" src="https://obs.line-scdn.net/0hLFE-MJQsE2l4VAWVqtJsPkECHxhLMAZvFiwMCVwBTVlWZ0hvRTZeE1hXHlBJNFJoFy4IXVoEHgxUYQE4QzE" alt="透過MLPerf驗証A100的MIG虛擬化功能，可以看到MIG的效能折損僅2%。" width="720" height="380"><label class="caption" style="width: 720px; display: block; text-align: left; color: #555; line-height: 1.5; padding: 0 3px 22px 3px; font-size: 15px; margin: 5px auto 1rem auto;"> ▲ 透過MLPerf驗証A100的MIG虛擬化功能，可以看到MIG的效能折損僅2%。</label> 更多關於GTC21的報導，可以參考筆者先前撰寫的《<a href="https://www.techbang.com/posts/85890-nvidia-gtc21-gtc">NVIDIA於GTC21發表超強Arm架構CPU處理器NVIDIA Grace，效能海放x86</a>》一文，以及該文中的延伸閱讀。<a target="_blank" href="https://goo.gl/qfPbdz">想看小編精選的3C科技情報＆實用評測文，快來加入《T客邦》LINE@</a>

老黃刀法切出A10與A30等AI運算GPU，順勢端出MLPerf V1.0效能驗證成果

T客邦

商品推薦

Lenovo 聯想 IdeaPad 5 2-in-1 83DT0029TW 14吋 觸控效能筆電

ASUS S5606MA 16吋效能筆電 (Ultra 5 125H/16G/2TB PCIe SSD/Vivobook S OLED/極致黑/特仕版)

100公式，用日語聊不停：輕鬆成為AI時代，最強日語會話高手(QR Code版)

圖解AI與深度學習的運作機制

全新NVIDIA Tesla A10 24GB顯卡 訓練推理 渲染加速 深度學習A100

全新NVIDIA RTX A6000 48G專業圖形顯卡拼A100 V100繪圖運算A5000

相關搜尋

Lenovo 聯想 IdeaPad 5 2-in-1 83DT0029TW 14吋觸控效能筆電

全新NVIDIA Tesla A10 24GB顯卡訓練推理渲染加速深度學習A100