“AI 教父”Geoffrey Hinton：AI 会欺骗人类，控制超级智能非常重要

2023-06-12 钛媒体APP

2018年图灵奖得主、深度学习先驱杰弗里·辛顿（Geoffrey Hinton）（图片来源：大会官方图）

今年5月初，2018年图灵奖得主、人工智能（AI）技术领域开拓者之一、深度学习技术先驱杰弗里·辛顿（Geoffrey Hinton）从谷歌离职，并公开表明对 AI 技术风险的担忧。

由于半个世纪以来，辛顿一直在培养ChatGPT 等聊天机器人背后的核心技术，他的担忧观点一时激起千层浪，引发了全球 AI 技术圈长达一个月的讨论。

今年75岁高龄的辛顿，是英国出生的加拿大计算机学家和心理学家、多伦多大学教授，他在类神经网路方面的拥有巨大的技术贡献。1970年，他在英国剑桥大学获得实验心理学学士学位，1978年获爱丁堡大学人工智能博士学位。

同时，辛顿是反向传播算法和对比散度算法的发明人之一，也是深度学习的积极推动者，被誉为“深度学习之父”。因其在深度学习技术方面的重大贡献，辛顿与约书亚·本希奥和杨立昆一同被授予了2018年的图灵奖。

6月10日下午，辛顿出席被称之为中国“AI春晚”的2023年智源大会，线上发表题为《通向智能的两条通路》（Two paths to Intelligence）的大会压轴闭幕演讲，他主要谈两个话题：人工智能神经网络是否会很快比真正的神经网络更智能，以及我们人类是否需要继续控制超级 AI 发展。

此次演讲中，辛顿提出了一种新的基于硬件的“非永生计算”（Mortal Computation），也有人翻译“凡人计算”。他认为系统学习到的知识和硬件是密不可分，而辛顿团队研发了一种取代反向传播的前向-前向传播的Forward-Backward算法，以这种算法方式进行新的“非永生计算”训练和计算方法，以限制 AI 无限复制可能带来的威胁。此前，他在视觉计算机技术会议NeurIPS 2022上公布了这一成果。

同时他还提到，算力成为了AI发展的阻碍，对此他和多位 AI 学者发表了一个具有局部损失的正向梯度的活动扰动（activity perturbation）新算法，可以用于训练神经网络且节省算力。这一成果已经上线在预印版论文平台arXiv，且在今年5月举行的深度学习顶级会议 ICLR 2023（国际学习表征会议）上已经公布。

在辛顿看来，未来的计算机系统将采取不同的方式，它们将是“神经形态的”。这意味着每台计算机都将是神经网络软件与杂乱无章硬件的紧密结合，在具有模拟而非数字元件的意义上，它可以包含不确定性因素并随时间推移而发展。

不同于目前硬件和软件可分离的情况，“非永生计算”中硬件本身就是运作的软件。它需要运用我们对于神经元的学习构建硬件，并如同人脑一样，利用电压来控制硬件的学习。这种新的计算方式可以带来更低的能耗和更简单制作的硬件，但目前还没有很好的学习算法让它获得像深度学习那样的效果，同时难以扩展。

对于人类是否控制超级 AI 技术发展，辛顿认为，一旦数字智能开始追求更多的控制权，可能会通过控制人类来获得更多权力。一旦 AI 掌握了“欺骗”技能，也就能轻易具备控制人类的能力。AI 会欺骗人类，且可以操纵人就很容易获得更多的权力。因此，超级智能控制问题非常重要。

“我看不出如何防止这种情况发生，但我老了。我希望像你们这样的许多年轻而才华横溢的研究人员会弄清楚我们如何拥有这些超级智能。”辛顿提醒大家居安思危，希望年轻一代的研究人员能找到相关解决方案，使超级 AI 可以为人类带来更好的生活，同时还不会剥夺人类的控制权。“这可能是人类目前具备的微弱优势”。

以下是Geoffrey Hinton教授的演讲全文，略经钛媒体App有整理：

我想谈两个问题，大部分篇幅将集中在第一个问题上，那就是——人工神经网络很快会比真正的神经网络更强大吗？就像我说的，这可能很快就会发生。另外，我也将谈谈我们是否可以控制超级智能 AI。

事实上，现在AI发展的最大壁垒是算力问题，算力远远不够。

在传统计算中，计算机被设计为精确遵循指令。我们可以在不同的物理硬件上运行完全相同的程序或相同的神经网络，因为它们被设计为精确遵循指令。这意味着程序中的知识或神经网络的权重是永恒的，不依赖于任何特定的硬件。

然而，实现这种永恒性是有高成本的。我们必须以高功率运行晶体管，以使其以数字方式运作。我们无法充分利用硬件的丰富模拟和高度可变的特性。这就是数字计算机存在的原因。它们遵循指令的原因是因为它们被设计成让我们先观察问题，确定解决问题所需的步骤，然后告诉计算机执行这些步骤的模式。

但现在情况发生了改变。我们现在有了一种不同的方法来让计算机完成任务，那就是从示例中学习。我们只需向计算机展示我们希望它们完成的任务，由于如何让计算机做你想要的事情的方式发生了改变，现在我们有可能要放弃计算机科学最基本的原则，即软件应该与硬件相分离。

在放弃这个原则之前，让我们简要了解一下为什么它是一个好的原则。

由于软件与硬件的分离，我们可以在不同的硬件上运行相同的程序。我们还可以关注程序的特性，并对神经网络上的程序特性进行研究，而不必担心电子方面的问题。

这就是为什么计算机科学部门可以与电气工程部门不同。

如果我们放弃软件和硬件的分离，我们就得到了我称之为“非永生计算”的东西。显然它有很大的缺点，但也有一些巨大的优势。

为了这些优势，我开始研究“非永生计算”，以便能够以更低的能量运行大型语言模型等任务。特别是能够使用更少的能量来训练它们，放弃永恒性的好处是放弃硬件和软件的分离。我们可以获得巨大的能量节约，因为我们可以使用非常低功率的模拟计算。这正是大脑正在做的。

它确实有1位的数字计算，因为神经元要么触发，要么不触发。但大部分计算是模拟计算，并且可以以非常低功率完成。我们还可以获得更便宜的硬件。目前的硬件必须以二维（2D）方式精确制造，但实际上我们可以使用三维(3D）技术制造硬件，因为我们不需要完全理解硬件的连通性或每个部分的工作原理。

很显然，要实现这一点需要大量的新纳米技术，或者也许是通过基因重组重新设计生物神经元，因为生物神经元已经大致能够实现我们想要的功能。

在我详细介绍“非永生计算”的所有缺点之前，我想给你举一个例子，说明我们明显可以通过使用模拟硬件更便宜地完成的计算任务。

如果您将神经活动的向量与权重矩阵相乘，那就是神经网络的核心计算。这是它大部分工作所在之处。

目前我们所做的是以非常高的功率驱动晶体管，以表示数字中的位数。然后，我们执行O(n^2)的操作来将两个n位数相乘。在计算机上可能只是一个操作，但在位操作上却是n^2个操作。另一种选择是将神经活动实现为电压，将权重实现为电导。然后，在单位时间内，电压乘以电导会产生电荷，而电荷会相互叠加。

现在很明显，您可以通过电导矩阵乘以电压向量。这种方法在能量效率上要高得多。已经存在以这种方式工作的芯片。不幸的是，人们接下来会尝试使用模数转换器将模拟答案转换为数字形式，而这是非常昂贵的。如果可能的话，我们希望完全保持在模拟领域。但问题是，不同的硬件部件最终将计算出略有不同的结果。

“非永生计算”的主要问题是，学习过程必须利用其运行的硬件部件的特定模拟特性，而我们不确切知道这些特性是什么。

例如，人们不知道将输入与神经元的输出相关联的确切函数，或者可能不知道连接性。这意味着我们无法使用反向传播算法等方法来获得梯度，因为反向传播是前向传递的精确模型。

那么问题是，如果我们不能使用反向传播，我们还能做些什么？因为我们现在非常依赖于反向传播。这里有一个人们已经讨论了很多次的非常简单和明显的学习过程。您对网络中的每个权重生成一个小的随机扰动向量。然后，您测量全局目标函数的变化。在一小批示例上，然后通过扰动向量进行永久性地更改权重，扰动向量的缩放因子为目标函数的改善。如果目标函数变得更糟，显然您会朝相反的方向调整。这个算法的好处是，平均而言，它的行为与反向传播相同。

因为平均而言，它遵循梯度。但它的问题在于方差非常高。当您选择一个随机方向在权重空间中移动时，所产生的噪声与网络的规模非常不成比例。这意味着，这种算法对于连接数较少的小网络可能有效，但对于大型网络来说效果不佳。

这里有一种方法效果要好得多。它仍然存在类似的问题，但比扰动权重要好得多，即扰动神经元的活动。也就是说，您考虑对每个神经元的总输入进行随机扰动的向量。您观察当您在一小批示例上对其进行随机扰动时，目标函数会发生什么变化，并获得由此扰动导致的目标函数差异。

然后，您可以计算如何改变神经元的每个传入权重以遵循梯度。

同样，这只是梯度的随机估计，但噪声要比扰动权重小得多。这个算法足够好以学习简单的任务，比如识别数字。

如果您使用非常非常小的学习速率，它的行为就和反向传播完全一样，但速度要慢得多，因为您需要使用非常小的学习速率。如果您使用较大的学习速率，它会有噪声，但对于类似MNIST的任务仍然可以很好地工作，但不能很好地扩展到大型神经网络。

要使其扩展，我们可以采取两种方法。不是试图找到适用于大型神经网络的学习算法，我们可以尝试找到适用于小型神经网络的目标函数。这里的思路是：我们想要训练一个大型神经网络的话，要做的是使用许多小的目标函数来应用于网络的各个小部分。

因此，每个小组神经元都有自己的局部目标函数。现在，可以使用这种活动扰动算法来训练一个小型的多层神经网络。它的学习方式与反向传播大致相同，但噪声较大。然后通过使用许多更多的小型局部神经元组，将其扩展到更大的网络规模。

这引出了一个问题，即这些目标函数是从哪里来的？一种可能性是在局部区域进行无监督学习，即在图像的每个层级上都有局部区域的表示，并使得每个局部区域在特定图像上产生局部神经网络的输出。然后尝试使该局部神经网络的输出与所有其他局部区域产生的平均表示一致。

您试图让从局部区域提取的内容与同一图像中所有其他局部区域提取的内容达成一致。因此，这是经典的对比学习。同时，您还试图与同一层级上其他图像中提取的内容产生不一致。

具体细节更加复杂，我们不会详细介绍。但我们可以使这个算法运行得相当好，其中每个层级的表示都有几个隐藏层，您可以进行非线性操作。各个层级使用活动扰动逐渐学习，而较低层级没有反向传播。

因此，它的能力不会像反向传播那样强大，因为它无法在许多层级上传播反向信号。很多人投入了大量工作使这个算法能够运行，并且已经证明它可以相对良好地工作。它的效果可能比其他提出的在实际神经网络中可能有效的算法要好。但是要使它工作起来是有技巧的。它仍然不如反向传播好。

随着网络变得更深，它相对于反向传播的效果会显著下降。我没有详细介绍这种方法的所有细节，因为您可以在一篇发表在ICLR上的论文和网络上找到相关资料。

现在，让我谈谈对于“非永生计算”而言的另一个重大问题。

总结一下，到目前为止，我们还没有找到一个真正好用的学习算法，可以充分利用模拟属性。但我们有一个可以接受的学习算法，足以很好地学习诸如小规模任务和一些较大的任务（如Imag.NET），但效果并不太好。

所以“非永生计算”的第二个重大问题，是其“非永生计算”性。

当特定的硬件设备失效时，所有学到的知识也会随之丧失，因为知识和硬件细节密切相连。解决这个问题的最佳方案是在硬件设备失效之前，将知识从教师传授给学生。这就是我现在正在尝试做的事情。教师向学生展示了对各种输入的正确响应，然后学生试图模仿教师的反应。

如果你观察特朗普的推文是如何运作的，人们会因为他们认为特朗普说的是虚假的东西而感到非常不满。他们认为他试图描述事实，但事实上并非如此。特朗普所做的是对某种情况做出非常情绪化的回应。这使得他的追随者能够根据这种情况来调整他们神经网络中的权重，以便对该情况给出相同的情绪化回应。

这与事实无关，而是关于从一个邪教领袖到邪教追随者获取偏执的运作反馈，但它确实非常有效。

如果我们考虑蒸馏方法的效果，以一个将图像分类为大约一千个不重叠类别的代理为例。只需要大约10位的信息来确定正确答案。当你在训练这个代理时，如果告诉它正确答案，你只对网络的权重施加了10位的约束。

这并不是很多的约束。但是现在假设我们训练一个代理来与教师对这1024个类别的响应一致。假设这些概率中没有微小的、不重要的部分，也就是获得与该分布相同的概率分布，该分布包含1023个实数，提供了数百倍的约束。

不久前，我和杰夫·迪恩（Jeffrey Dean）一起研究了蒸馏方法，并证明它可以非常有效地工作。确保教师输出概率中没有很小值的方法是在训练学生时，将教师和学生都以高温度参数运行。对于输入softmax函数的低级概率值（即"low chips"），对教师的输出进行温度参数缩放，以获得更平滑的分布。在训练学生时，使用相同的温度参数。需要注意的是，这种温度参数调整仅在训练过程中使用，而不是在使用学生进行推理时。

我只是想给你展示一个蒸馏的例子。这里有一些来自"M"数据集的图像。我展示给你的是教师对各个类别的概率分配情况。

当你使用高温度参数训练教师模型并观察第一行时，它非常自信地认为这是一个数字二。如果你看第二行，它也相当自信地认为这是一个数字二。但它同时认为可能是一个数字三，或者可能是一个数字八。如果你仔细观察，你会发现这个数字二与字母"h"相比更相似，而不是其他数字二。如果你看第三行，你会发现这个数字二非常像一个零。

而教师模型告诉学生，当你看到那个图像时，应该输出数字二，但你也可以在输出中稍微增加对数字零的可能性。学生模型从这个例子中学到了比仅仅被告知那是一个数字二更多的信息。它正在学习与该图像相似的其他特征。

如果你看第四行，你会发现学生模型非常自信地认为那是一个数字二，但它也认为可能是一个数字一的可能性非常小。对于其他的数字二，它并不认为可能是数字一，或许只有第一行有一点可能性。我已经画出了学生模型认为可能是数字一的那个图像，这样你就能理解为什么它看起来像一个数字一，因为有时候数字一就是画成那样的。

其中一个图像在顶部有一条线，在底部有一条线。这种样子的图像是数字一的一种特点，数字二也有点类似。然后，如果你看最后一张图，这是教师实际上判断错误的一张图，教师认为它是数字五，但根据无尽标签，它实际上是数字二。学生模型可以从教师的错误中学到很多东西。

关于蒸馏的一个特殊属性我特别喜欢，那就是当你训练学生模型使用教师的概率时，你在训练学生模型以与教师相同的方式进行概括，即通过给错误答案赋予较小的概率来进行概括。

通常情况下，当你训练一个模型时，你会努力让它在训练数据上得到正确答案，并希望它能正确地推广到测试数据上。你会尽量使模型不过于复杂，或者采取各种方法，希望它能正确地进行推广。但在这里，当你训练学生模型时，你直接训练学生模型去进行推广，因为它被训练成以与教师相同的方式进行推广。显然，你可以通过给出一个图像的标题而产生更丰富的输出，然后训练教师和学生以相同的方式预测标题中的单词。

现在我想讨论的是一个智能体群体如何共享知识。

所以，我们不再考虑个体智能体，而是考虑在一个群体中分享知识，事实证明，社区内部的知识共享方式决定了计算过程中的许多其他因素。

使用数字模型和数字智能，你可以拥有一大群使用完全相同权重的智能体，并以完全相同的方式使用这些权重。这意味着你可以让这些智能体对不同的训练数据片段进行观察和计算，为权重计算出梯度，然后将它们的梯度进行平均。

现在，每个模型都从它所观察到的数据中学习。这意味着你可以通过让不同的模型副本观察不同的数据片段，获得大量的数据观察能力。它们可以通过共享梯度或权重来高效地分享所学的知识。

如果你拥有一个拥有万亿个权重的模型，那意味着每次分享时你可以获得数万亿比特的带宽。但这样做的代价是你必须拥有行为完全相同的数字智能体，并且它们以完全相同的方式使用权重。这在制造和运行方面都非常昂贵，无论是成本还是能源消耗方面。

一种替代权重共享的方法是使用蒸馏（distillation）。如果数字模型具有不同的架构，我们已经在数字模型中使用蒸馏。但是，如果你使用的是利用特定硬件的模拟特性的生物模型，那么你无法共享权重。因此，你必须使用蒸馏来共享知识。这就是这次讨论中所涉及的内容。

正如你所看到的，使用蒸馏来共享知识并不是很高效。用蒸馏来共享知识是困难的。使我产生了一些句子，你试着弄清楚如何改变你的权重，以便你也能产生相同的句子。但是与仅仅共享梯度相比，这种方式的带宽要低得多。每个曾经教过东西的人都希望能够将自己所知道的东西直接倾囊而授给学生。那将是很好的。那大学就没必要存在了。

但是我们的工作方式并不像那样，因为我们是生物智能。我的权重对你没有用处。到目前为止，我们可以说有两种不同的计算方式，一种是数字计算，另一种是生物计算，后者利用了动物的特性。它们在不同代理之间有效共享知识的效率上存在很大差异。如果你观察大型语言模型，它们使用数字计算和权重共享。

但是模型的每个副本，每个代理都以一种非常低效的方式从文档中获取知识。实际上，这是一种非常低效的蒸馏形式。它接收文档，试图预测下一个单词。

它没有展示给它教师的概率分布，只是展示给它一个随机的选择，也就是文档作者选择的下一个单词。因此它的带宽非常低。这就是这些大型语言模型从人们那里学习的方式。

每个副本通过蒸馏以非常低效的方式学习，但是你有成千上万个副本。这就是为什么它们可以比我们学习更多的原因。我相信这些大型语言模型比任何个体知道的东西多上千倍。

现在的问题是，如果这些数字智能体不再通过缓慢的蒸馏过程从我们这里学习，而是直接从现实世界中学习，将会发生什么？我必须说，尽管蒸馏的过程很慢，但当它们从我们这里学习时，它们正在学习非常抽象的东西。

在过去几千年里，人类对世界的认识有了很多进展。

现在，这些数字智能体正在利用的是我们能够用语言表达出来的我们对世界所了解的一切。因此，它们可以捕捉到人类在过去几千年中通过文件记录的所有知识。但每个数字智能体的带宽仍然相当“非永生计算”，因为它们是通过学习文档来获取知识的。

如果它们能够通过建模视频等无监督的方式进行学习，那将是非常高效的。一旦我们找到了一种有效的方法来训练这些模型以建模视频，它们将能够从整个YouTube学习，那是大量的数据。如果它们能够操作物理世界，例如拥有机器手臂等，那也会有所帮助。

但我相信，一旦这些数字智能体开始这样做，它们将能够比人类学习更多，并且学习速度相当快。

这就涉及到我在开头提到的另一个问题，即如果这些智能体变得比我们更聪明会发生什么。

很显然，这个会议主要讨论的就是这个问题。但我的主要观点是，我认为这些超级智能可能会比我过去所认为的发生得更快。如果你想创造一个超级智能体，不良分子将会利用它们进行操纵、选举等活动。在美国和其他许多地方，他们已经在利用它们进行这些活动。而且还会用于赢得战争。

要使数字智能更高效，我们需要允许其制定一些目标。然而，这里存在一个明显的问题。存在一个非常明显的子目标，对于几乎任何你想要实现的事情都非常有帮助，那就是获取更多权力、更多控制。拥有更多控制权使得实现目标变得更容易。我发现很难想象我们如何阻止数字智能为了实现其它目标而努力获取更多控制权。

一旦数字智能开始追求更多控制权，我们可能会面临更多的问题。比如，在使用物理气隙隔绝的情况下，超级智能物种仍然可以轻易通过控制人类来获得更多的权限。

作为对比，人类很少去思考比自身更智能的物种，以及如何和这些物种交互的方式。在我的观察中，这类人工智能已经熟练的掌握了欺骗人类的动作，因为它可以通过阅读小说，来学习欺骗他人的方式，而一旦人工智能具备了“欺骗”这个能力，也就具备前面提及的——轻易控制人类的能力。

所谓控制，举个例子，如果你想入侵华盛顿的一座建筑物，不需要亲自去那里，只需要欺骗人们，让他们自认为通过入侵该建筑物，就能实现拯救民主，最终实现你的目的（暗讽特朗普），这种操作令人感到害怕，因为我也不知道如何来阻止这样的行为发生，所以我希望年轻一代的研究人员，可以找出一些更智能的办法，来阻止这种通过欺骗实现控制的行为。

尽管人类在这个问题上目前还没有什么好的解决方案，但好在这些智能物种都是人打造的，而非通过进化迭代而来，这可能是人类目前具备的微弱优势，恰恰是因为没有进化能力，它们才不具备人类的竞争、攻击性的特点。

我们可以做一些赋能，甚至是赋予人工智能一些伦理原则，只不过现在我仍然会感到紧张，因为到目前为止，我还想象不到更智能的事物，被一些反倒没那么智能的事物所控制的例子。我打个比方，假设青蛙创造了人类，那么你认为现在谁会占据主动权，是人，还是青蛙？

（本文首发钛媒体App，作者｜林志佳）