IBM称其已经击败了的AI服务器扩展记录
今天,IBM宣布推出其分布式深度学习软件测试版,阐释了“深度学习性能的一大飞跃进展”。
深度学习是一种依赖于“人造神经网络”应用程序的AI形式,而这种AI的灵感来自于人类和动物大脑的生物神经网络。其重点在于使电脑能够以与人类完全相同的方式来“理解”数字图像、视频、录音等内容。
然而,由于处理“深层次培训”所需的大量数据的后勤工作是一个非常缓慢的过程,可能需要几天甚至几周的时间,深度学习还有很大的潜力尚未被发掘。另外一个影响时间的因素就是结果的准确性,因为系统需要被操作多次才能获得预期的结果。度越高意味着计算机在获得准确的结果之前需要接受“再次培训”的次数就越少。
由于仅仅增加更多的计算能力和更快的处理器,并不会加快计算机处理速度,所以减少时间因素颇有难度。其实恰恰相反:随着“自学者”处理器的增加,计算时间也会不出所料的减少,但是每个处理器的学习时间是相同的。
换句话说,即是瓶颈因素阻碍了深度学习的发展。更多文章阅读:香港云主机cn.blu***
IBM在一份研究报告中解释说:“成功的分布式深度学习需要一个基础架构,其中硬件和软件被共同优化,以便在计算需求与通信需求、互连带宽之间取得平衡。此外,在GPU的大规模扩展(数量超过100)中,通讯延迟发挥着重要的作用。如果这些因素未得到控制,那么分布式深度学习可快速导致收益削减。”
因此,大多数的深度学习项目仅可在单服务器中安装启用,IBM的新型研究和新软件也围绕单服务器项目展开。该公司对于如何加速处理过程而获得更准确的结果已有所了解。
IBM Research的系统加速和内存总监Hillery Hunter在一篇博文中写道:“大多数流行的深度学习框架可扩展到一个服务器中的多个GPU,但无法扩展到多个配有 GPU 的服务器。具体来说,我们的团队编写了软件和算法,能够对在数十个服务器中的数百个 GPU 加速器间并行运行的、非常庞大且复杂的计算任务进行自动优化。”
在测试时,该软件在64 个 IBM Power 系统中的 256 个NVIDIA GPU 上部署了 Caffe 深度学习框架,每个系统连接4个NVidia Tesla P100-SXM2 GPU,在此期间,IBM研究人员记录了通讯开销,并且该软件的扩展效率高达95%,一举打败了之前由 AI 研究院所取得的89%的佳扩展能力,他们利用较小的学习模型和数据设置,降低了复杂性。
此外,我们在使用一个非常庞大的数据集(750万张图像)训练神经网络时,图像识别准确率达到了33.8%,而Microsoft 此前发布的结果仅为29.8%。
Hunter写道:“我的IBM Research团队一直致力于减少具有大规模数据集的大型模型的培训时间。我们的目标是减少深度学习培训的时间,从几天或几小时的时间缩短至几分钟或几秒钟,并提高这些AI模型的准确率。为了实现这一目标,我们正努力解决在大量服务器和GPU中分布深度学习所遇到的巨大挑战。”
Hunter和她的团队毋庸置疑已经在加速深度学习培训上取得了很大的进展,并且训练仅花了7个小时。
参阅之前的行业纪录,她说:“微软训练同一个模型需要花费10 天时间。这一成果需要我们创建分布式深度学习代码和算法,从而解决对强大的深度学习框架进行扩展的固有难题。”
该“蓝色巨人”(IBM公司)在测试中所开发的IBM研究院分布式深度学习软件代码的测试版本或技术预览版,现已运用于IBM PowerAI 4.0中,其中使用深度学习框架训练其 AI 模型的开发人员也可以使用这项集群扩展功能。
Hunter说:“我们希望通过为 AI 社区提供 DDL功能,使得更多的人将利用集群的强大功能进行 AI 模型训练,从而实现更高的准确性。”