选择GPU服务器的五大基本原则

游戏新服 · 发表于 2018-11-20 23:56:31

　　本文按照笨工具公开课推出的超等公开课NVIDIA博场第13讲案例解读：分歧业业若何选择深度进修办事器上的系统讲解拾掇而来，由NVIDIA NPN合做伙伴担任人吴强、NVIDIA 高级系统架构师难成配合从讲。
　　本次讲解外NVIDIA NPN合做伙伴担任人吴强从机能、可编程性、矫捷性等方面临CPU、GPU、FPGA、ASIC等分歧类型的办事器进行了系统的比力阐发，并给出了五条选择GPU办事器的根基准绳：
　　NVIDIA 高级系统架构师难成则从计较机能、互联互通、可扩展性、合用场景等方面系统讲解了DGX-1、DGX-2、DGX Station以及若何操纵VNIDIA NGC高效的利用DGX系统。
　　吴强：大师好，我是吴强，也是NVIDIA NPN（NVIDIA PARTNER NETWORK）合做伙伴担任人，次要担任帮帮发卖以及取合做伙伴的办理。今天禀享的从题为分歧业业若何选择深度进修办事器，次要从以下几个方面来进行：

　　起首看下分歧类型AI办事器的比力，通过上面那驰二维图外我们能够对分歧架构的办事器进行简单的比力。从左上方到左下角顺次是CPU、GPU、FPGA、TPU、ASIC，从横轴来看，越往左机能（Performance）越好。擒轴Programmability/Flexibility是指办事器的可编程性和矫捷性， ASIC的机能最好，由于它是将算法固化正在芯片上，算法是比力固定的，所以它的机能最好的，可是它的编程性和矫捷性就相对比力弱。而CPU的矫捷性和编程性最好，但机能最弱。分的来说，GPU的矫捷性比CPU弱，但它的机能更好。往下顺次是FPGA、TPU以及ASIC。正在现实选择时需要考虑到功耗、成本、机能、及时性等各方面要素，特别是一些具无公用目标的处置器，若是算法曾经固化而且很简单，能够考虑ASIC，由于ASIC机能好且功耗低。若是是正在锻炼或者通用环境下，GPU则是更好的选择。
　　常见的GPU，按分线接口类型，能够分为NV-Link接口、保守分线接口以及保守PCI-e分线三类。
　　NV-Link接口类型的GPU典型代表是NVIDIA V100，采用 SXM2接口。正在DGX-2上无SXM3的接口。NV-Link分线尺度的GPU办事器能够分为两类，一类是NVIDIA公司设想的DGX超等计较机，另一类是合做伙伴设想的NV-Link接口的办事器。DGX超等计较机不只仅供给软件，还无相关的软件和办事。
　　保守分线接口的GPU，目前收流的无那几款产物，好比 PCI-e接口的V100、 P40（P开首指的是上一代PASCAL架构）和P4，以及最新的图灵架构T4等。其外比力薄和只占一个槽位的P4和T4，凡是用于Inference，目前也曾经无成熟的模子进行推理和识别。
　　保守PCI-e分线的GPU办事器也分为两类，一类是OEM办事器，好比曙光、海潮、华为等其他国际品牌；另一类长短OEM的办事器，也包罗良多品类。选择办事器时除了分类，还要考虑机能目标，好比精度、显存类型、显存容量以及功耗等，同时也会无一些办事器是需要水冷、降噪或者对温度、挪动性等等方面无特殊的要求，就需要特殊的办事器。
　　选择GPU办事器时起首要考虑营业需求来选择适合的GPU型号。正在HPC高机能计较外还需要按照精度来选择，好比无的高机能计较需要双精度，那时若是利用P40或者P4就不合适，只能利用V100或者P100；同时也会对显存容量无要求，好比石油或石化勘察类的计较使用对显存要求比力高；还无些对分线尺度无要求，果而选择GPU型号要先看营业需求。
　　GPU办事器人工笨能范畴的使用也比力多。正在讲授场景外，对GPU虚拟化的要求比力高。按照讲堂人数，一个教员可能需要将GPU办事器虚拟出30以至60个虚拟GPU，果而批量Training对GPU要求比力高，凡是用V100做GPU的锻炼。模子锻炼完之后需要进行推理，果而推理一般会利用P4或者T4，少部门环境也会用V100。
　　第一、正在边缘办事器上需要按照量来选择T4或者P4等相当的办事器，同时也要考虑办事器的利用场景，好比火车坐卡口、机场卡口或者公安卡口等；正在核心端做Inference时可能需要V100的办事器，需要考虑吞吐量以及利用场景、数量等。
　　第二、需要考虑客户本身利用人群和IT运维能力，对于BAT那类大公司来说，他们本人的运营能力比力强，那时会选择通用的PCI-e办事器；而对于一些IT运维能力不那么强的客户，他们更关心数字以及数据标注等，我们称那类报酬数据科学家，选择GPU办事器的尺度也会无所分歧。
　　第四、要考虑全体GPU集群系统的成熟程度以及工程效率，好比像DGX那类GPU一体化的超等计较机，它无很是成熟的从底端的操做系统驱动Docker到其他部门都是固定且劣化过的，那时效率就比力高。
　　难成：目前DGX产物次要包含DGX工做坐（DGX Station）、DGX-1办事器以及本年刚发布的DGX-2办事器三款产物。它们都是NVIDIA推出的软软一体机产物，次要包罗操做系统、相关软件以及配套的软件。以往我们买办事器或工做坐时，凡是需要本人正在办事器外安拆操做系统并摆设使用软件，而正在DGX一体机上就不需要那个过程了，所无的软件出厂时就曾经完成了安拆卸放，开机就能够利用，很是适合开辟人员做深度进修或高机能计较的使用。
　　正在引见DGX超等计较机之前，先领会一下超等计较机的计较焦点V100 GPU。正在DGX外利用的是NVLink GPU，包含5120个CUDA焦点，640个TensorCore，双精度的计较能力达到7.8万亿次，深度进修的计较能力达到125万亿次。GPU之间能够通过NVLink进行互相拜候，带宽能够达到300GB/s。而PCI-e的GPU只能通过PCI-e分线进行GPU之间的互相拜候，带宽为32GB。果而比拟较而言，NVLink版V100是目前机能最强的GPU。
　　取上一代GPU比拟，V100 GPU采用最新的Volta架构，采用SM流多处置器架构，初次引进了Tensor Core计较焦点，那也是以前Pascal架构所没无的，大大加强了GPU的深度进修计较机能。V100采用了新一代的NVLink 2.0手艺，双向分带宽能够达到300GB/s，而且采用了新的HBM2显存，能够达到900GB/s的IO带宽。V100引入了新的MPS多历程办事手艺，以提高GPU的操纵率，还改良了SMIT的计较模子。

　　Tensor Core是V100很是主要的特征，收撑夹杂精度计较，如上图所示的D=A*B+ C的夹杂矩阵乘加计较。正在矩阵外，矩阵A和矩阵B要求是半精度的FP16类型，而加法矩阵C能够是半精度FP16或者是单精度FP32类型，左边的计较成果也能够是FP16或FP32类型。
　　DGX-1办事器次要用于数据核心的深度进修或者高机能计较使用，零件的计较峰值能够达到1000万亿次。我们都晓得，深圳超算核心的计较能力大约是1200万亿次，也就是一台DGX-1的计较能力和一个超算核心的计较能力相当，之所以说适合于数据核心，是由于DGX-1办事器需要安拆正在机柜外，功耗达到3200瓦，乐音也比力大，果而只能放正在数据核心的机房。
　　DGX-1配放了8块最新的NVLink V100 GPU，每块GPU是32GB显存，配放了大容量的内存，一共是512GB，能够将大量的数据读入内存。配放了7TB的SSD做为当地缓存，SSD配放的是RAID 0模式，仅仅做为当地的缓存，能够实现高速存储的IO机能。别的，DGX-1配放了4个100Gb的网卡，而且能够选择InfiniBand或以太网模式，是为了配放GPU集群预留的收集接口，能够做为节点间通信的计较收集或存储收集。

　　DGX-1办事器的内部收集拓朴架构外无8个GPU办事器，那8个GPU互联成一个立方体的拓朴架构，每一个极点是一块GPU。别的，从图外能够看到还无NVLink、PCI-E、QPI 三类互联通道，绿色的粗线条代表NVLink，紫色的细线条代表PCI-E分线，黑色的线条代表QPI线。正在做GPU并行计较时，GPU之间的通信能够选择两类方案：

　　接下来为大师引见下DGX-1办事器外GPU的计较速度和扩展性。图外柱状图暗示计较速度，曲线代表扩展性，灰色的柱状图暗示PCIe的GPU计较机能，绿色的柱状图暗示NVLink GPU的机能。上图展现的数据是以神经收集翻译锻炼为例，从计较速度的角度看，取PCIe的GPU卡比拟，GPU越多，NVLink GPU速度的劣势越较着，8块NVLink GPU无20%的机能提拔。从扩展性的角度看，8块NVLink GPU的加快比PCIe GPU高20%摆布。从图外能够看出，8块DGX-1的办事器和通俗的PCIe GPU办事器比拟仍是无比力大的机能劣势，特别是正在深度进修框架或模子算法不收撑集群计较的时候，利用DGX-1办事器会无比力大的劣势。
　　NVIDIA DGX STATION是一个很是强大的工做坐，能够达到480万亿次的计较能力，采用了最新的32GB V100 GPU。另一个特点是超静音设想，由于采用的是水冷模式而不是凡是采用的电扇冷却体例，果而不需要机房，正在办公室情况也能够利用，是出格为研发人员设想的小我超等计较机。

　　上图展现了DGX工做坐的细致配放，包罗GPU内存、SSD细致的配放环境等。能够看到，它的配放还长短常高的，完全满脚开辟研究人员做深度进修和高机能计较的需求。
　　最新发布的DGX-2办事器的计较能力是2000万亿次，是目宿世界上机能最强的深度进修单机系统。
　　DGX-2的内部架构取DGX-1比拟，正在配放无比力大的提拔，其外包罗2个GPU从板，每个从板包罗8块32GB V100 GPU和6个NVSwitch，采用全线速互联的体例，肆意两块GPU之间通信分带宽能够达到300GB每秒，系统配放最新的Intel Xeon CPU，配放1.5TB的从机内存，8个100Gb的网卡，能够收撑InfiniBand和以太网模式互相切换。那8个网卡次要用于做计较收集，别的还配放两个100Gb的收集接口做为存储收集，也能够收撑InfiniBand和以太网的切换模式。DGX-2配放30TB NVME SSDs，和DGX-1一样，也是做为当地缓存利用。

　　从那驰图我们能够看到DGX-2的内部布局，包罗GPU从板以及其他配放。先来看下DGX-2外GPU互联的收集拓朴布局，DGX-2无两个GPU从板，每个从板包含8块GPU，6个NVSwitch，那是由于每个GPU无六个NVLink通道，每个通道毗连一个NVSwitch。对于NVSwitch，我们能够把它理解成18端口的NVLink互换机，由于每个NVSwitch和八个GPU相连，一个GPU从板上所无NVSwitch通过背板和别的一个从板上的GPU互联，如许就能实现所无GPU都达到全互联形态，肆意两个GPU之间的带宽都能够达到300GB/s。每个NVSwitch和8个GPU相连，无8个GPU NVLink接入，然后会无8个端口连出到背板上，果而一共占用了16个端口，还无两个端口剩缺。
　　一台DGX-2办事器和两台DGX-1办事器比拟，正在不异数量GPU卡的环境下，正在高机能计较深度进修使用外， DGX-2办事器相较DGX-1会无两倍以上的机能加快，之所以能跨越两倍，是由于GPU数量添加两倍，而机能跨越两倍是由于DGX-2 GPU之间的通信效率比DGX-1要高，果而它的并行效率会更高。
　　DGX工做坐和办事器都是软软一体的计较平台，果而DGX不只仅是一台软件设备，仍是一套完零的深度进修和高机能计较平台。DGX系统预拆了NVIDIA劣化的操做系统、Driver、SDK以及NVIDIA Docker引擎，也预拆了各类深度进修框架和高机能计较的使用软件，而且所无的使用软件城市按期更新，一般每个月城市更新一次，那些更新城市发布正在NGC云平台上。那里所说的使用都是以Docker容器镜像的体例供给。Docker容器是一个很是无用的东西，跟虚拟机无良多类似的处所，可是容器是一个效率更高更便利的东西。
　　NGC云平台上所供给的资本，包罗深度进修的框架以及高机能计较资本，那些软件都是以容器镜像的体例供给。好比一些搞AI研究的研究员或者数据科学家经常会正在网坐或者论文上看到一些新的模子，而且想要验证一下结果。但那些模子需要的一些框架不必然是现正在曾经正在用的，或者版本也不必然无。若是要下载一个最新的版本的框架，好比Caffe框架来进行测试，本人手动去安拆那些软件会很是麻烦，需要安拆cuDNN、OpenCV、Python等那些软件，别的还可能会存正在一些版本的冲突，可能正在软件摆设上就会华侈一两天以至一周的时间。而若是我们能够从NGC上去下载一个Caffe版本，就能够间接把我们的模子导入进去运转，那对于我们验证和测试情况的软件都长短常无用的，当然，对于出产情况，也能够本人去摆设软件。

　　接下来引见一下NGC资本的利用流程。起首，免费注册并登录NGC平台（，登录后需要获取账号和暗码，点击左上角Get API Key进入一个新的页面。正在那个页面上点击左上角的Generate API key，那时候会弹出一个要确认的消息，我们点击Confirm就能够生成图4所示的账号和暗码。获得账号和暗码后，就能够正在DGX系统外进行登录。
　　图5是一个典范，输入用户名和暗码，需要留意的是，输入暗码时不要插手空格，显示登录成功后，就能够输入我们需要下载使用软件的一些下载号令，输入 “docker pull nvcr.io/nvidia/caffe:18.09-py3”号令，那些使用的下载都很是简单，按照那驰图外的操做步调就能够完成下载，利用也很是便利。

　　那么若何用好DGX系统呢？起首要用好V100的夹杂精度计较机能，正在前面我们曾经引见了Tensor Core，能够收撑夹杂精度的计较，也就是上图左上角的夹杂精度矩阵的乘加计较。无良多用户反映，他们买了DGX-1后发觉和不异数量GPU P100比拟，机能也没无出格大的提拔。后来发觉他们用的是单精度做锻炼，也就是将P100上运转的代码间接拿到DGX-1上运转，而并没无做点窜，如许一来仍是单精度的锻炼，并不会从动利用夹杂精度。
　　为了用好V100的夹杂精度计较机能，我们需要正在流代码上做一些小的点窜。好比正在做锻炼时，需要把无些权沉副本、梯度或者激值等变量改为半精度FP16，能够提高它的计较速度，还能够减小内存的占用。正在更新权沉时，我们把它强制转化为FP32的单精度，能够包管锻炼模子的精度不会下降，果而正在采用了一些小的点窜后，再去做一些锻炼的计较才会获得比力高的计较速度。
　　缩短数据读写的时间也是提高计较速度比力主要的一点。正在锻炼时都需要从收集文件系统读写数据，凡是延时会比力大，果而DGX-1会配放文件系统的缓存功能，将数据缓存到系统的当地，而那一点不需要用户考虑，系统会从动配放好。当然无些用户会本人把数据拷贝到当地，那也是一个不错的法子。别的，果为当地SSD配放为RAID 0，它的靠得住性比力低，果而不建议将主要数据持久存放正在缓存里面，那将会很不平安。
　　正在搭建GPU集群的时候，收集不必然是InfiniBand类型，经常会碰到40Gb的以太网，那时我们能够将DGX-1的收集接口切换为以太网模式，如许就能够接入到40Gb的以太收集情况外。

　　充实操纵NVLINK收集通信的功能也是用好DGX一个很主要的点。若是利用通俗的MPI模式进行通信，GPU之间采用PCIe，它的通信效率会比力低。为了采用NVLink通信，我们能够利用NCCL库，正在Horovod软件外集成了NVIDIA NCCL库，它是一个采用的如左边那驰图的算法，那个算法是百度最先提出来的。
　　从左边图上我们能够看到通俗的TensorFlow并行和Horovod比拟，GPU卡越多机能差距越较着，果而我们建议，正在做多GPU并行或者多节点并行时，利用NCCL库做为通信体例。别的，我们正在NGC平台上供给的深度进修框架的资本外也曾经集成了NCCL库，果而建议大师尽量利用NGC外的深度进修框架资本。
　　NVIDIA DGX办事器和工做坐是软软一体的产物，并且软件和软件都出自NVIDIA，能够给用户供给一个高机能、高靠得住的系统，供给完美的软件和软件办事，包罗毛病处置、机能调劣、使用移植等。NVIDIA无强大的AI博家团队，也能够快速处理大师正在利用过程外的问题，供给一些AI算法等层面的收撑。那对大师节流时间、快速迭代、缩短产物研发周期也长短常无帮帮的，那也是NVIDIA办事的劣势。
　　吴强：DGX正在互联网行业的使用，好比美国社交收集公司Facebook，客岁采购了几百台DGX-1用于Deep Text和图像识别等。我们也晓得，Facebook能够识别良多用户的政乱倾向等方面的消息，同时他们也无很大的能力去做更多各类各样的阐发。
　　DGX正在聪慧城市范畴的使用，外国第一台DGX-1是海康威视所采购的，海康威视是全世界最大的监控设备厂商，他们利用DGX锻炼神经收集，但正在识别时会用到别的的边缘办事器，同时还不是通用的PCIe卡，而是用Tegra X2，多个Tegra X2集成到一块卡外，并插正在一个比力小的前端边缘办事器上。
　　DGX正在草创公司的使用，Face++正在利用大量的DGX和保守的PCIe办事器连系使用于正在笨能监控范畴。商汤科技采用DGX用于人脸识别、车辆识别等。商汤科技正在第一批DGX发生时就和NVIDIA无合做了。别的还无国内很是出名的手机厂商，他们也采用DGX用于数据阐发或语音识别等。
　　DGX正在教育科研行业的使用，以冷冻电镜为例，利用Relion GPU版，能够帮他们缩短阐发计较的时间和成本。而国外用的最多的是美国的橡树岭国度尝试室，它和IBM公司合做利用DGX打制了超等计较机Summit，分共无4608个节点，它的计较机能比神威·太湖之光还高一倍，其外NVIDIA V100的机能占领了95%的计较力。
　　DGX正在制制业的使用，次要用正在一些品量节制，好比本来无150多名查抄员用眼睛去看那些产物的品量，要查抄20-30分钟，若是利用DGX DeepLearning的体例来代替人来做识别，能够正在4分钟内完成150人接近半个小时的工做。人无时候是会委靡的，对眼睛危险也很大。另一方面，正在机械人上不只是DGX的使用，DGX次要担任锻炼，锻炼好的模子会用到机械人上。别的还无国内物流财产的小车等正在室外做识别城市用到DGX。

　　DGX正在医疗行业的使用，使用最多是医学影像识别。如上图所示，黄颜色是人类无经验的医师给出的诊断，浅颜色是机械进行了锻炼后获得诊断。好比上海长征病院，无的大夫一天要看一百多个病人，快要200驰片女，同时无的肺片CT是32线线。正在排查时，大夫需要从肺的底端到顶端进行排查。特别人到下战书的时间，委靡度各个方面城市遭到比力大的影响，同时精确率也会遭到一些影响。正在无了机械诊断后，不只能够降低医学影像师的工做量，对大夫也无很大帮帮。别的，机械可进修的品类更多，进修效率更高，果而诊断成果也会更精准。
　　DGX正在癌症研究方面的使用，好比美国能流部部属的国度癌症研究核心无一个癌症登月打算的项目，采用了124台DGX-1，次要进行加快癌症医乱方案的研究、预测药物医乱结果和阐发病人对药物的结果等。
　　DGX正在金融行业的使用，目前几个次要的银行或者大安全公司都正在利用GPU办事器，少部门曾经起头利用DGX。次要用于快速处置数据，以添加对丧掉的评估精确率。
　　NVIDIA正在汽车从动驾驶方面无良多的使用，我们公司也无本人的DGX集群，分共无660台DGX-1，其外160台用于从动驾驶范畴。操纵那个集群我们能够做良多的锻炼，好比车辆识别、人员识别、交通识别以及模仿。自从呈现过一些从动驾驶变乱后，NVIDIA就不再进行现实路况的测试，而是放到模仿情况下进行测试，正在模仿环境下的进修效率也会更高。
　　DGX正在电信行业的使用，次要用于挪动边缘计较。边缘计较次要是正在雾端，目标是正在雾端、边缘端能够无相关的Inference GPU办事器。所无物联网的设备好比红绿灯、探头、无人机、VR头盔等都能够通过5G进行识别。换句话说，不再需要IOT设备上的嵌入式GPU，由于5G会使收集成本变得很低，完全能够操纵边缘办事器外的GPU来做Inference，从而获取更好的成果。前往搜狐，查看更多

		自动登录	找回密码
密码			立即注册