GPU計(jì)算服務(wù)器(GPU-K1000)
研發(fā)背景
工業(yè)與學(xué)術(shù)界的數(shù)據(jù)科學(xué)家已將 GPU 用于機(jī)器學(xué)習(xí)以便在各種應(yīng)用上實(shí)現(xiàn)開(kāi)創(chuàng)性的改進(jìn),這些應(yīng)用包括圖像分類、視頻分析、語(yǔ)音識(shí)別以及自然語(yǔ)言處理等等。 尤其是深度學(xué)習(xí),人們?cè)谶@一領(lǐng)域中一直進(jìn)行大力投資和研究。深度學(xué)習(xí)是利用復(fù)雜的多級(jí)「深度」神經(jīng)網(wǎng)絡(luò)來(lái)打造一些系統(tǒng),這些系統(tǒng)能夠從海量的未標(biāo)記訓(xùn)練數(shù) 據(jù)中進(jìn)行特征檢測(cè)。 雖然機(jī)器學(xué)習(xí)已經(jīng)有數(shù)十年的歷史,但是兩個(gè)較為新近的趨勢(shì)促進(jìn)了機(jī)器學(xué)習(xí)的廣泛應(yīng)用: 海量訓(xùn)練數(shù)據(jù)的出現(xiàn)以及 GPU 計(jì)算所提供的強(qiáng)大而高效的并行計(jì)算。 人們利用 GPU 來(lái)訓(xùn)練這些深度神經(jīng)網(wǎng)絡(luò),所使用的訓(xùn)練集大得多,所耗費(fèi)的時(shí)間大幅縮短,占用的數(shù)據(jù)中心基礎(chǔ)設(shè)施也少得多。 GPU 還被用于運(yùn)行這些機(jī)器學(xué)習(xí)訓(xùn)練模型,以便在云端進(jìn)行分類和預(yù)測(cè),從而在耗費(fèi)功率更低、占用基礎(chǔ)設(shè)施更少的情況下能夠支持遠(yuǎn)比從前更大的數(shù)據(jù)量和吞吐量。 將 GPU 加速器用于機(jī)器學(xué)習(xí)的早期用戶包括諸多規(guī)模的網(wǎng)絡(luò)和社交媒體公司,另外還有數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域中一流的研究機(jī)構(gòu)。 與單純使用 CPU 的做法相比,GPU 具有數(shù)以千計(jì)的計(jì)算核心、可實(shí)現(xiàn) 10-100 倍應(yīng)用吞吐量,因此 GPU 已經(jīng)成為數(shù)據(jù)科學(xué)家處理大數(shù)據(jù)的處理器。
為此公司開(kāi)發(fā)了可擴(kuò)展性很強(qiáng)的GPU計(jì)算服務(wù)器設(shè)備。
應(yīng)用場(chǎng)景
適用于數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)、計(jì)算建模等并行運(yùn)算應(yīng)用程序的理想設(shè)備。
支持8路GPU E5-2600 V3 V4系列
特性和優(yōu)勢(shì):
1、大規(guī)模CUDA并行架構(gòu),使工作站的功耗和成本分別降至原來(lái)的1/20和1/10,性能卻能與小型集群媲美;
2、支持8 個(gè)Tesla K10/K40/K80/M40/M60/Xeon Phi 計(jì)算處理器(每個(gè)處理器有448個(gè)核心,共1,792個(gè)核心。以最終配置GPU卡為準(zhǔn)。);
3、可提供4.12 Teraflops的單精度浮點(diǎn)運(yùn)算性能和2.06 Teraflops的雙精度浮點(diǎn)運(yùn)算性能
4、CUDA程序環(huán)境,支持多種編程語(yǔ)言和API,包括C、C++、OpenCL、DirectCompute或Fortran;
5、具備內(nèi)存數(shù)據(jù)保護(hù)功能,加強(qiáng)了應(yīng)用數(shù)據(jù)的完整性和可靠性。注冊(cè)文件、L1/L2高速緩存、共享內(nèi)存和DRAM都處于ECC保護(hù)狀態(tài);
6、NVIDIA? 并行數(shù)據(jù)緩存(DataCache?)技術(shù),能夠?qū)o(wú)法預(yù)知數(shù)據(jù)地址的算法進(jìn)行加速,例如物理解算器、光線追蹤、以及稀疏矩陣乘法等等;
7、NVIDIA? GigaThread? 引擎通過(guò)更快的上下文切換、同時(shí)內(nèi)核執(zhí)行以及改善的線程塊調(diào)度功能,最大限度提升了吞吐量;
規(guī)格:
1、支持8 個(gè)Tesla K10/K40/K80/M40/M60/Xeon Phi 計(jì)算處理器(每個(gè)處理器有448個(gè)核心,共1,792個(gè)核心 以最終配置GPU卡為準(zhǔn)。)
2、每臺(tái)服務(wù)器可提供4.12 Teraflops的單精度浮點(diǎn)運(yùn)算性能和2.06 Teraflops的雙精度浮點(diǎn)運(yùn)算性能
3、IEEE 754 單雙精度浮點(diǎn)運(yùn)算標(biāo)準(zhǔn)
4、支持12或24 GB的專用DDR5內(nèi)存(每顆Tesla C2050 GPU 3 GB,每顆 Tesla C2070/C2075 6GB)
5、4x 384-bit GDDR5 內(nèi)存位寬 (每個(gè)GPU 384-bit GDDR5接口)
6、顯存總帶寬達(dá)576 GB/s(每個(gè)GPU 144 GB/s)支持2顆32納米英特爾至強(qiáng)處理器Westmere 5600系列,每處理器6內(nèi)核,12線程,和12MB二級(jí)緩存
7、支持Trusted Execution, Advanced Encryption Security,以及新的指令集 (AESNI), Turbo Boost, Intel? Virtualization, Intel? QuickPath
8、Intel 5520芯片組,處理器集成內(nèi)存控制器
9、Intel QuickPath總線架構(gòu),高達(dá)6.40 GT/s / 5.86 GT/s / 4.80 GT/s的總線帶寬
10、最高 192GB 1333 / 1066 / 800MHz DDR3 ECC Registered 內(nèi)存
11、8x 3.5"SAS/SATA熱插拔硬盤位
12、兩個(gè)額外的單插槽卡擴(kuò)展槽
產(chǎn)品示例圖: