大數(shù)據(jù)時代,算力不僅改變了人們生產(chǎn)、生活方式,更成為科技進步和經(jīng)濟社會發(fā)展的關(guān)鍵“底座”。從太空探索,到人類基因測序、醫(yī)藥研發(fā),再到消費、出行,都需要強大的算力處理海量數(shù)據(jù)。
該超算中心屬于國家級計算中心,利用超強的并行計算能力,在科學(xué)研究、工業(yè)創(chuàng)新、商業(yè)金融、國家和社會安全以及社會與公共服務(wù)領(lǐng)域,都發(fā)揮重要作用。
除了針對科學(xué)研究的高性能計算系統(tǒng)外,超算中心還需具備商用輔助計算系統(tǒng)以滿足各行業(yè)對算力的需求。
- 項目需求 -
高性能:超算中心最核心的服務(wù)能力是算力輸出,因此需要具備優(yōu)質(zhì)的智算服務(wù)、先進的計算能力。
安全可靠:作為國家級計算中心,需要具有穩(wěn)定可靠的算力設(shè)備,避免突發(fā)事件對數(shù)據(jù)的破壞。
靈活擴展:算力集群需要與網(wǎng)絡(luò)、存儲等節(jié)點鏈接,因此需要更靈活的擴展能力。
易維護:出現(xiàn)故障,單獨排查運維成本高,因此需要打造管理集群,簡化運維操作。
- 解決方案 -
安擎針對超算中心商用輔助計算的需求,依托數(shù)十臺EG840-G30 4U服務(wù)器部署輔助算力集群系統(tǒng)。
·EG840-G30·
EG840-G30是專為計算密集型應(yīng)用場景推出的新一代服務(wù)器,具有高性能、高可靠、高擴展的特點。
√ 高性能
· 采用第三代英特爾? 至強? 可擴展系列處理器(TDP 270W),每顆 CPU 最大提供 64 Lane PCI-E 4.0 總線;
· 在4U的空間內(nèi)可支持10片全高全長雙寬專業(yè)GPU卡,單U算力可達1560TFLOPS。
√ 高可靠
· 通過檢測、控制并持續(xù)糾正錯誤和故障,而不是通過強制重置 GPU 來提高其正常運行時間和可靠性;在處理錯誤和故障邏輯中,運用歸因、隔離、遏制等策略針對 MIG 環(huán)境,確保GPU在高性能計算環(huán)境中的安全;
· 配置 2000W 鉑金級 2+2 冗余電源,防止瞬間掉電,提供更穩(wěn)定可靠的系統(tǒng)電源。
√ 高擴展
· 配置12個PCI-E4.0 插槽,可搭配 100G 以太網(wǎng)卡和Infiniband 網(wǎng)卡,組建低延時高擴展的存儲與計算網(wǎng)絡(luò)。
√ 易管理
· 集成 IPMI 功能,可以對服務(wù)器進行遠程操作和維護,有效提高產(chǎn)品可靠性和穩(wěn)定性;
· 智慧BMC遠程管理,提供零接觸運維,提高運維效率;支持 IPMI 和 KVM Over IP 高級管理功能。
- 客戶價值 -
靈活擴展,高速的存儲計算集群,滿足輔助計算需求;
持續(xù)穩(wěn)定的算力輸出,打造可靠的算力底座;
數(shù)字化管理,降低管理運維成本。