28.5万CPU核心、1万个GPU，微软打造AI训练超级计算机

2020-05-20

微软与OpenAI合作后的第一个成果已经重磅发布！

它是一台拥有超过28.5万个CPU核心、1万个GPU、每GPU拥有400Gbps网络带宽的单一系统超级计算机！

去年，微软宣布将向OpenAI投资10亿美元，以共同开发用于Microsoft Azure云平台的新技术，并“进一步扩展”大规模AI功能，以“兑现人工智能”的承诺。作为交换，OpenAI同意将其部分知识产权许可给微软，然后该公司将其商业化并出售给合作伙伴，并在OpenAI致力于开发下一代计算硬件时在Azure上训练和运行AI模型。

今年的微软Build 2020开发者大会完全转到了线上，会上微软宣布与OpenAI独家合作打造了一台与当前最新的“全球超算500”列表（该项目对500台性能最佳的超级计算机进行了基准测试和详细介绍）对比，性能位居前五的超级计算机，该计算机专门用来在Azure公有云上训练超大规模的AI模型。

实现超大规模AI模型

得益于在Azure上托管，这台超级计算机拥有现代云计算基础设施的各种优点，包括快速部署、可持续发展的数据中心、并可以访问所有Azure服务。相比以往的单独AI模型训练单独任务，超级计算机可以实现更高级别的超大规模人工智能模型，深入了解语言语法、知识概念中的差别，完成复杂的任务。

举例来说，可以总结冗长的讲话，可以从上千份法律文件中找到相关陈述，可以直接从GitHub上找到代码。

微软今年2月推出的针对自然语言的图灵模型已经全球最大的AI语言模型。通过Azure人工智能服务和GitHub开源社区，将大型AI模型、优化训练工具和超级计算机资源开放出来，让开发者、数据科学家和商业用户都能轻松利用这一超大规模的人工智能平台，开发自己的项目。

为AGI铺路？

OpenAI很久以来就断言，巨大的计算能力是迈向AGI或AI的必经之路，AGI可以学习人类可以完成的任何任务。

虽然像Mila创始人Yoshua Bengio和Facebook副总裁兼首席AI科学家Yann LeCun 这样的名人认为 AGI不存在，但OpenAI的联合创始人和支持者-其中包括Greg Brockman，首席科学家Ilya Sutskever，Elon Musk，Reid Hoffman和前Y Combinator总裁Sam Altman-相信功能强大的计算机结合强化学习和其他技术可以实现范式转移的AI进步。

超级计算机的发布代表了OpenAI在该愿景上的最大赌注。

无论采用何种形式，目前尚不清楚新的超级计算机是否具有足够的功能来实现任何接近AGI的功能。

去年，Brockman接受英国《金融时报》采访时表示，OpenAI预计将在2025年之前花费微软公司10亿美元的全部投资，构建一个可以运行“人脑大小的AI模型”的系统。2018年，OpenAI自己的研究人员发布了一份分析报告，显示从2012年到2018年，最大规模的AI训练运行中使用的计算量增长了300,000倍，而3.5个月的时间却翻了一番，远远超过了摩尔定律的步伐。上周，在此基础上，IBM详细介绍了神经计算机，该公司使用数百种定制设计的芯片在创纪录的时间内训练Atari播放AI，Nvidia宣布了一款基于其A100 Tensor Core显卡（称为A100）的5 petaflop服务器。

有证据表明，效率的提高可能会抵消不断增长的计算需求。OpenAI的另一项更近期的调查发现，自2012年以来，在流行基准（ImageNet）中将AI模型训练为具有相同性能以对图像进行分类所需的计算量每16个月减少了两倍。但是与新颖的算法方法相比，计算在多大程度上有助于提高性能仍然是一个悬而未决的问题。