再次制霸！輝達 H100 GPU 在MLPerf基準測試創新記錄

2023-11-09 12:25 / 作者陳俐妏

輝達 H100 GPU 在MLPerf基準測試創新記錄。資料照

AI晶片霸主輝達（NVIDIA）公布最新基準測試成績，旗下 H100 Tensor Core GPU和NVIDIA Quantum-2 InfiniBand網路技術驅動的NVIDIA Eos 人工智慧超級電腦，僅在3.9 分鐘內完成了基於GPT-3 模型、擁有1750 億個參數的訓練基準，相較於六個月前推出時所創下的10.9分鐘紀錄，本次成績提高了近3 倍。N輝達再次成為唯一一家完成所有MLPerf測試的公司，H100 GPU在九項基準測試中都表現出最快的效能和最大的擴展能力。

該基準測試使用了流行的 ChatGPT 服務背後完整 GPT-3 資料集的一部分。透過推斷，Eos 現在只需八天即可完成訓練，比過往使用 512 個 A100 GPU 的最先進系統快上73 倍。

在這一輪的新生成式人工智慧測試中，1,024個NVIDIA Hopper架構的GPU在2.5分鐘內完成了基於穩定擴散文本到圖像模型的訓練基準，為這一新工作負載建立了高標準。最新結果的部分原因是使用了有史以來應用於 MLPerf 基準測試數量最多的加速器。10,752 個 H100 GPU 遠遠超過了 6 月 AI 訓練的規模，當時 NVIDIA 使用了 3,584 個 Hopper GPU。GPU 數量擴展了 3 倍，效能擴展了 2.8 倍，還有部分歸功於軟體優化使效率高達 93%。

高效率地擴展是生成式人工智慧的關鍵需求，因為大型語言模型每年都在以數量級的速度成長。最新結果顯示出NVIDIA 有能力應對全球最大資料中心也必須克服、且前所未有的挑戰。

對於訓練大量大型語言模型或使用 NeMo 等框架，以符合其業務的特定需求進行客製化的使用者而言，加速意味著更快的上市時間、更低的成本和節省能源。共有11家系統製造商在本輪提交的成果中使用了NVIDIA 人工智慧平台，包括華碩、戴爾科技集團、富士通、技嘉科技、聯想、雲達科技和美超微。

該基準測試包括一項訓練OpenFold的新測試，OpenFold是一個從氨基酸序列預測蛋白質3D結構的模型。OpenFold能夠在幾分鐘內完成對醫療保健至關重要的工作，而這些工作以前都需要研究人員花費數周或數月才能完成。了解蛋白質的結構是快速找到有效藥物的關鍵，因為大多數藥物皆作用於蛋白質，而蛋白質是幫助控制許多生物過程的細胞機制。

在MLPerf HPC測試中，H100 GPU在7.5分鐘內訓練了OpenFold。這個OpenFold測試是整個AlphaFold訓練過程的代表性部分，兩年前AlphaFold訓練過程使用128個加速器，耗時11天。

OpenFold模型的一個版本和NVIDIA用於訓練的軟體不久後將在NVIDIA BioNeMo中提供，NVIDIA BioNeMo是一個用於藥物發現的生成式人工智慧平台。

在這一輪測試中，數個合作夥伴使用了NVIDIA的人工智慧平台提交測試成果。這些合作夥伴包括戴爾科技集團、克萊門森大學（Clemson University）的超級電腦中心、德州大學奧斯汀分校的德州高級運算中心，以及獲得慧與科技（Hewlett Packard Enterprise）協助的勞倫斯伯克利國家實驗室（Lawrence Berkeley National Laboratory）。

#輝達 #Nvidia #AI # H100 #GPU

陳俐妏收藏文章

再次制霸！輝達 H100 GPU 在MLPerf基準測試創新記錄

更多太報報導