湖南科技网 湖南科技网-科技创新战略,引领时代先锋

谷歌的下一代人工智能培训系统速度极快

2019-06-13 12:02 已围观85次 来源:开封 编辑:张馨予

通常,这项工作是使用商用GPU(通常来自Nvidia)完成的--Facebook使用Nvidia GPU作为其Big Basin AI培训服务器的一部分。但谷歌过去几年选择自己构建一些硬件,并针对自己的软件进行优化。

这一切都归结为在大量数据上训练神经网络并将其转化为可行的算法 - 并且需要计算能力。从更一般的意义上讲,这些培训系统通过大量数字运算来改进AI软件。因此硬件越强大,获得的结果就越快。“如果我们能够将每个实验的时间从几周缩短到几天或几小时,这将提高每个人进行机器学习以更快地迭代并进行更多实验的能力,”Dean说。

机器学习作为现代人工智能研究的基石,有效地意味着为数十万个算法提供算法,以便学习以一种从未明确编程过的方式执行任务。这体现在许多不同的消费产品中,例如谷歌翻译几乎能够将英语句子变成普通话,或者AlphaGo能够发挥超人熟练的深度,类似国际象棋的棋盘游戏。

谷歌的下一代人工智能培训系统速度极快

从这个意义上讲,最初的TPU专门设计用于与谷歌的TensorFlow配合使用,后者是用于机器学习的众多开源软件库之一。然而,由于Google的进步以及硬件和软件的集成,TensorFlow已成为构建AI软件的领先平台之一。此优化与Google Brain及其DeepMind子公司的内部人才相结合,是Google继续走在更广泛的AI领域前沿的部分原因。

由于这个较新的TPU现在能够进行推理和培训,研究人员可以比以前更快地部署更多功能的AI实验 - 只要该软件是使用TensorFlow构建的。谷歌还重申其对开源模式的承诺,向同意发布他们的研究结果甚至可能开源代码的研究人员提供TPU资源。该公司正在将该计划称为TensorFlow Research Cloud,它将免费提供对1,000个TPU群集的访问权限。

现在,Google表示其TPU系统的第二个版本已全面投入运营,并且正在其Google Compute Engine上部署,这是一个平台,其他公司和研究人员可以利用类似于亚马逊AWS和微软Azure的计算资源。谷歌当然会使用该系统本身,但它也将新TPU作为其他公司使用的无与伦比的资源。

除了速度之外,第二代TPU还将允许Google的服务器同时执行所谓的推理和培训。之前的TPU只能进行推理 - 例如,依靠Google Cloud实时处理数字以产生结果。另一方面,培训是如何开发AI算法,并且需要非凡的资源。

去年作为专门用于机器学习的专用芯片展示的第一款TPU 被AlphaGo人工智能系统用作其预测和决策技能的基础。每当有人向其搜索引擎输入查询时,Google也会使用TPU的计算能力。最近,该技术已应用于机器学习模型,用于改进谷歌翻译,谷歌照片和其他可以新颖使用新的人工智能培训技术的软件。

谷歌大脑团队的高级研究员杰夫迪恩说,谷歌在竞争对手产品方面的优势在于实验的速度和自由。“我们新推出的大型翻译模型需要一整天的时间来训练世界上最好的商用GPU之一,”迪恩在本周的新闻发布会上对一组记者说。“虽然TPU吊舱的八分之一可以在一个下午完成工作。”

为此,该公司开发了一种将64个TPU组合成TPU Pods的方法,有效地将Google服务器机架转变为具有11.5 petaflops计算能力的超级计算机。即使是在他们自己的情况下,第二代TPU也能够“提供惊人的180 teraflops的计算能力,并且仅用于推动机器学习的数字运算,”Google的首席科学家李飞飞说。和机器学习。

谷歌今天推出了第二代Tensor处理器部门,这是一个云计算硬件和软件系统,是该公司最雄心勃勃,影响深远的技术的基础。首席执行官Sundar Pichai在今天上午公司I / O开发者大会的主题演讲中宣布了新闻。