Skip to main content

MLPerf成績沖入世界前三,服務器獨角獸寧暢如何做到?

2021-07-21 由【】發表於 科技

智東西(公眾號:zhidxcom)

作者 | 貞逸

編輯 | 漠影

當人們認為服務器行業格局已定時,一位年輕的挑戰者“寧暢”出現在我們視野。

這傢成立僅18個月的服務器公司,今年7月初在一眾老大哥聚集的行業頂級賽事MLPerf AI基準測試中突出重圍,在MASK R-CNN、U-NET3D兩個AI場景中拔得頭籌。

業內資深分析師將寧暢喻為服務器獨角獸,媒體更將其與行業龍頭浪潮進行比較研究。

寧暢為什麼能奪冠?寧暢又是一傢怎樣的公司?

帶著這些疑問,智東西采訪瞭寧暢相關負責人。經深入溝通,我們發現一場變革正席卷國內服務器市場。

一、寧暢憑什麼奪得MLPerf冠軍?

近日MLPerf發佈基於Training V1.0 最新標準測試結果。寧暢AI服務器X640 G40和X660 G45,分別以48.43、28.64成績,取得固定任務(closed)賽道,單機服務器系統的MASK R-CNN、U-NET3D兩項AI場景世界性能冠軍。寧暢單機服務器系統AI性能沖入世界前三。

MASK R-CNN測試結果

U-NET3D測試結果

去年參加MLPerf Training 的組織隻有9傢,今年增長到瞭13傢,不管是MLperf 中的常駐會員NVIDIA、 Intel、Google;還是新入場的Habana,GIGABATE,Graphcore等廠商都實力雄厚。

寧暢作為創業公司,在八個賽道中能取得兩項單機服務器系統世界冠軍,核心依托的是過硬的產品研發能力。

1、全棧研發破解“木桶效應”

寧暢介紹,隨著AI技術不斷發展,各大廠商都在發力AI服務器,行業競爭激烈。

AI服務器是相對復雜服務器產品,其性能遵從木桶效應,計算模塊、存儲模塊、網絡模塊,散熱模塊等任何一個模塊出現短板,都會影響整體性能。

正因如此,在單機服務器系統領域,能參加MLPerf Training測試並取得冠軍成績的初創企業極少,目前除寧暢外國內還沒有第二傢初創服務器廠商。

寧暢雖然是初創公司,但團隊成員可謂是行業“老兵”。寧暢團隊成員在服務器領域的平均工作經驗超八年,核心員工不低於15年。

此外,寧暢具有全面的產品、技術與工程平臺,從標準規范到BIOS軟件設計,再到散熱、電信號的模擬仿真,以及自動化壓力測試,寧暢均具有全棧技術研發能力。

寧暢全棧研發平臺

這使得寧暢的AI服務器整體性能強勁,在完成同等量AI模型訓練任務時,可以“先人一步”。

如寧暢X640 G40是兼備訓練與推理的全能型AI服務器,具備海量存儲擴展能力,最大支持24塊3.5寸硬盤。強勁性能、海量存儲,使得X640 G40在訓練MASK R-CNN模型時,一秒可完成57000張圖片分析,以及570餘次訓練迭代。

X660 G45是高性能AI計算平臺,GPU之間采用高達600GB/s 的NVLink總線高速互聯。每個GPU上還可搭配專屬的200G HDR高速網絡和U.2高速緩存,在訓練U-NET3D模型時,一秒可分析5040張X光照片,這是單機服務器的世界極限處理速度。

X640 G40和X660 G45

值得關註的,除MASK R-CNN、U-NET3D兩個賽道外,在比較同功耗的GPU配置下,寧暢X660 G45在DLRM(推薦系統)、SSD(目標檢測)固定任務賽道中,亦取得最好成績。同GPU功耗配置下,寧暢其實獲得的是八大賽道的四個冠軍席位,取得數量同樣是世界第一。

X660 G45在DLRM的成績

X660 G45在SSD的成績

除在MLPerf中獲得世界第一,在國際計算機性能標準化評估組織(Standard Performance Evaluation Corporation,簡稱SPEC)推出的計算系統測試工具SPEC CPU2017中,寧暢R620 G40服務器,亦取得諸多優異成績。

2、多次獲得MLPerf、SPEC世界第一

在2021年6月的SPEC CPU2017測試中,在同CPU配置下,寧暢R620 G40服務器,從眾國際廠商產品中脫穎而出,打破整數與浮點數、並發與單任務的基準值與峰值8項性能紀錄,奪得世界第一。

寧暢R620 G40服務器

而在寧暢公司創立的2020年,寧暢R620 G30服務器就取得24項SPEC CPU2017世界性能第一成績。

寧暢介紹,SPEC CPU2017是計算密集型測試基準,主要考驗的是服務器系統的CPU、內存、操作系統等方面的性能水平。

SPEC CPU是長時間高壓力的計算性能測試,CPU要維持高頻工作,對服務器主板供電、散熱都提出很高要求。

寧暢服務器采用先進散熱系統,基於智能調速設計並結合Firmware優化,能保證CPU長時間工作在高頻而不降頻,這是保障SPEC PCU性能的關鍵所在。

在內存方面,影響SPEC CPU得分是內存的時延指標,通過優化,寧暢產品能做到高帶寬的同時保證低延遲。

在R620 G40 中,兩顆CPU之間數據最遠端跨節點的訪存延遲隻有48.6ns(納秒),相比行業同等標準快瞭將近一倍。

在操作系統層面,主要是優化內核參數。

操作系統內核參數較多,每一項要找到比較優化的值,既耗時又費力;寧暢采用自動化優化工具對內核參數進行批量優化,使得寧暢產品能在短時間內優化更多的內核參數。

二、服務器獨角獸成長之路

寧暢優異的測試成績,引起行業分析師的關註。

電子信息產業研究中心資深分析師袁鈺表示,寧暢在AI加速服務器上的驚艷表現,足以說明其巨大的潛力,是近年來少有的服務器領域“獨角獸”型企業。

而從寧暢對外公佈的成績來看,其成長速度確實驚人。

1、成長迅猛

據寧暢公司透露,其創立僅12個月,就有近千傢企業、用戶采購寧暢服務器產品。並收到定制咨詢350餘次,累計落地服務器定制方案170項,寧暢用戶已覆蓋互聯網、金融、電信等數十個行業,出貨量以萬計。

寧暢速度

而根據國際數據公司(IDC)發佈的《中國半年度加速計算市場(2020下半年)跟蹤》報告顯示,在AI加速器市場,寧暢公司的市場占有率已躋身中國前五。

2020年中國加速器市場份額

對於創立初年的優異表現,寧暢總結是對客戶需求的準確把握並提供定制化方案,讓寧暢成為深信服、Ucloud、蘇寧科技集團、華數傳媒等知名企業的主要服務器供應商。

而這些廠商采用寧暢服務器,最關鍵的是看重寧暢提供的服務器定制化能力。

2、服務器新藍海

根據東方證券《電子行業深度報告》顯示,預計到2024年中國5G用戶將超過7.7億人,大環境對數據處理的需求增長,正拉動服務器出貨量猛增。

《中國互聯網發展報告(2021)》統計,2020年我國人工智能產業規模為3031億元,同比增長15%,這意味著更高的數據處理量,以及圍繞不同AI場景的多樣化算力基礎設施需求。

不斷升高的數據處理量,多樣化的場景,使得標準化的服務器產品痛點愈發凸顯,如潛在的資源浪費、運維過於復雜及與應用場景難匹配等。

因此整個服務器市場,正加速進入定制化時代。據IDC市場調研顯示,全球服務器市場定制化產品采購份額已達30%以上。

早在2020年創立之初,寧暢便提出“定制”戰略,從質量、技術、行業等維度,為互聯網、電信、金融、醫療、教育等細分市場用戶,提供從架構、FEA、運維到部署等全周期的定制保障服務。

2021年4月,寧暢又提出“智定+”戰略,重點面向AI算力用戶,依托“智慧研發”、“質能制造”、“至享服務”等服務與技術體系,真正賦能用戶AI應用場景。

不難看出,寧暢高速成長背後正是抓住瞭服務器定制化藍海的重要契機。

結語:寧暢能否出圈?

寧暢作為初創企業能在MLPerf Training中奪冠,可見其團隊深厚的技術積累。

在服務器市場需求猛增的背景下,寧暢潛心定制化服務器領域,抓住自身核心優勢,益是明智之選。

但縱觀服務器頭部企業,都在向上下遊迅猛發展,芯片、雲計算、分佈式存儲等都是各方佈局已久的發力點。

寧暢公司未來是否要“出圈”發展,在本次采訪中我們暫未得到明確答案。但服務器行業的變革已到來,相信在這場變革中,寧暢這傢初創公司能帶給我們更多“驚喜”。