实不相瞒，深度学习计算还是得看英伟达

发布时间：2018-07-21 16:52:44 所属栏目：教程来源：谢涛

导读：【资讯】北京时间3月28日，英伟达(NVIDIA)在美国加州圣何塞召开GPU技术大会(GTC)。本届大会上，深度学习又一次不出意外地成为“主角”，围绕这一领域，掌门人黄仁勋先生介绍了一系列重要产品及更新的发布。此外，在计算机图形、专业可视化、自动驾驶、物联

　　【资讯】北京时间3月28日，英伟达(NVIDIA)在美国加州圣何塞召开GPU技术大会(GTC)。本届大会上，深度学习又一次不出意外地成为“主角”，围绕这一领域，掌门人黄仁勋先生介绍了一系列重要产品及更新的发布。此外，在计算机图形、专业可视化、自动驾驶、物联网、GPU云等方面，英伟达也有各项发布。本文中，我们主要关注深度学习：

实不相瞒，深度学习计算还是得看英伟达

　　世界最大GPU：DGX-2在手“虐神仙”

　　“先有仁勋后有天，显卡在手虐神仙。”这是网友对英伟达CEO黄仁勋的一句调侃，恰到好处地反映了他的行事风格。这样一个“狂人”，常常能给我们带来巨大的冲击。今天发布的NVIDIA DGX-2就是其中之一。

　　NVIDIA DGX-2 是英伟达的第二代 DGX，黄仁勋表示：“这是全球最大的GPU。”(严格来说它是一个计算系统。)重量超300斤，有汽车后备箱那么大，“没有人能把它举起来”。DGX-2问世，黄教主向称霸武林的目标又近了一步。

　　显然，这款产品的特色并不止于“大”。它是英伟达在深度学习计算领域取得的重大突破，是首款能够提供每秒2千万亿次浮点运算能力的单点服务器，也是首款采用 NVSwitch(本次大会另一项重要发布，稍后我们会介绍)的系统，其中采用的 16 个 GPU 均共享统一的内存空间。DGX-2 具有 300 台服务器的深度学习处理能力，占用15个数据中心机架空间，而体积则缩小60倍，能效提升18倍。

实不相瞒，深度学习计算还是得看英伟达

　　据悉，DGX-2可提供的深度学习性能为上代DGX-1(去年9月发布)的约10倍。仅仅半年左右的时间，这一提升实在令人惊叹。“狂人”黄仁勋，狂得有理。

　　NVIDIA DGX-2售价为 39.9 万美元(约250万人民币)，将于今年第三季度正式开放购买。

　　新一代革命性高速互联技术发布，NVLink说再见？

　　谈到CPU-GPU、GPU-GPU之间的高速互联，大家首要提的就是NVLink，不过这种现状可能将要发生改变了。此次大会上，NVIDIA NVSwitch作为一个革命性的全新 GPU 互联结构，与大家见面。

　　NVSwitch在NVLink的基础上进一步进行了扩展创新，它的带宽比最好的 PCIe 交换机高出 5 倍，它可使多达 16 个 Tesla V100 GPU 同时以 2.4 TB /秒的速度进行通信，这一速度创下历史新高，也让开发者能够采用更多的超级互联GPU来构建更高级的系统，进而灵活地连接任何基于NVLink的GPU的拓扑结构。我们上面所说的DGX-2，就得益于NVSwitch的超级互联特性。

　　NVSwitch的优势是显而易见的，其成熟程度我们尚未可知。不过，相信很多朋友看到它的第一反应就是将取代NVLink。难道我们这么快就要对NVLink说再见了吗?

　　Tesla V100内存翻倍，掀起新一轮小规模计算迭代

　　英伟达平台在各大云服务提供商和服务器制造商中已得到广泛应用，最强大的数据中心GPU——NVIDIA Tesla V100，也得到了重大提升：2倍内存。如今Tesla V100 GPU配备了32GB内存，将助力数据科学家对更深度、更大规模的深度学习模型进行训练，且比以往都更加精确。与之前的16GB版本相比，它还能将内存受限的HPC应用性能提升高达50%。

　　Tesla V100 32GB GPU目前可用于所有 NVIDIA DGX 系统。此外，各大计算系统制造商Cray、HPE、IBM、联想、Supermicro和Tyan也宣布将于第二季度内推出各自全新的Tesla V100 32GB系统。Oracle云也宣布计划将于今年下半年在云端提供Tesla V100 32GB。

　　种种迹象表明，Tesla V100的提升，可能将掀起新一轮数据中心GPU计算平台迭代。当然，客观来讲其规模可能不会太大，这要看企业和组织的实际需求。

　　软件堆栈更新，推动计算性能提升

　　英伟达深度学习和 HPC 软件堆栈的更新面向开发者社群免费提供。据了解，当前开发者社群共有超过 82 万名注册用户。此次更新包括新版本的 NVIDIA CUDA、TensorRT、NCCL和cuDNN，以及面向机器人的全新 Isaac软件开发套件。此外，通过与领先云服务提供商的密切合作，各大主流深度学习框架都在持续优化，以充分利用英伟达的GPU计算平台。

　　今天发布的TensorRT 4推理软件，与谷歌的TensorFlow框架深度融合。据了解，针对计算机视觉、神经网络机器翻译、自动语音识别、语音合成与推荐系统等常见应用，相比CPU，该软件最高可将深度学习推理的速度加快190倍。

　　另外，最受欢迎的语音识别框架Kaldi现也已针对GPU进行了优化。

　　深度学习计算≈英伟达

　　黄教主雷厉风行的个性显然对英伟达也产生了不小的影响，从最初发现GPU在深度学习计算方面的潜力，到如今几乎“无GPU不深度学习”的行业现状，英伟达毅然向人工智能转型，投入大量资源用以研发，不断推陈出新，极大地推动了GPU在人工智能计算的应用，同时更推动了人工智能行业的发展。

　　本届GTC上关于深度学习的各项重要发布，也再次向我们证明了这一点。基于此，说一句“深度学习计算≈英伟达”不算过分吧。

（编辑：好传媒网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

萝卜家园xp稳定快速的	win7系统与XP怎么样共
新萝卜家园xp sp3 纯净	原版xp镜像iso系统旗舰