谷歌的GPT杀手：“人类最强大模型”双子座初露峥嵘，或于秋季发布

2023-08-17 新智元

加入收藏

谷歌(130.46, 1.35, 1.05%)的GPT杀手：“人类最强大模型”双子座初露峥嵘，或于秋季发布

来源：华尔街见闻新智元

媒体爆料称，谷歌“全新大杀器”Gemini结合了GPT-4、Midjourney、Stable Diffusion三大模型的能力，还能够提供分析图表、创建带有文本描述的图形、使用文本或语音命令控制软件。

谷歌的全新大杀器Gemini，即将和全世界见面了！

据传，Gemini不仅能像GPT-4一样可以进行文本对话，还融合了Midjourney、Stable Diffusion的能力，能够生成图像。

为了对抗AI target=_blank class=infotextkey>OpenAI，谷歌CEO劈柴在今年4月迈出了绝非寻常的一步，将拥有完全不同文化和代码的团队——谷歌大脑和DeepMind合并。

现在，集结了数百位工程师的谷歌复仇者联盟已经全军待命，日夜赶工，只为狙击OpenAI的GPT-4，一举重夺AI领域的头把交椅。

谷歌创始人谢尔盖·布林也已重回战壕，亲自操刀Gemini的训练。据称，今年秋天，Gemini就会面世，而谷歌的考验也即将到来。

复仇者联盟名单已被曝出

押注Gemini，打造GPT-4最强杀手

根据知情人士的爆料，Gemini将LLM的文本能力与文生图的能力相结合。也就是说，它相当于GPT-4和Midjourney/Stable Diffusion的合体版。

这也是外界首次听说，Gemini具有如此强大的绘图能力。另外，它还能够提供分析图表、创建带有文本描述的图形、使用文本或语音命令控制软件。

在6月底，谷歌DeepMind CEO Hassabis也曾爆料，Gemini将结合进AlphaGo和大语言模型，而谷歌DeepMind已经准备好砸进数千万美元，甚至数亿。

Gemini会整合使用了强化学习和树搜索的AlphaGO，以及机器人、神经科学等领域的技术。

可以说，谷歌把重注押在了Gemini身上，Gemini会为Bard聊天机器人提供动力，推动google Docs、Slides等企业级应用。另外，谷歌还希望通过云服务器租赁服务，向开发者收取访问Gemini的费用。

目前，谷歌云通过Vertex AI产品售卖对谷歌AI模型的访问如果这些新功能实现，谷歌很有可能会赶上微软(316.88, -3.52, -1.10%)。

毕竟，微软在AI产品上已经领先不少，office 365应用中包含AI功能，其应用程序也会对用户出售对ChatGPT的访问权限。

彭博社风投分支Bloomberg Beta的AI初创企业投资人James Cham对彭博社表示，‘过去9个月里，每个人都在问这样一个问题：什么时候才能有一家公司，看起来有赶超OpenAI的可能？’‘现在，终于似乎有一个模型，可以和GPT-4旗鼓相当了。’

谷歌，被迫走出舒适区

随着OpenAI的崛起，谷歌也不得不在保证核心搜索业务的情况下，试着推出新的技术了。

据内部人士透露，在推出Gemini之前，谷歌很可能就会在某些产品中使用它。

过去，谷歌会使比较简单的模型来改进搜索，但是像Bard以及Gemini这样的产品，需要通过分析大量图像和文本，来生成更像人类的回答。如此海量数据所带来的潜在巨额服务器成本，也是谷歌必须要控制的。

更新之后的Bard，更强大了

手握YouTube的优势

根据The Information报道，谷歌对Gemini进行了大量YouTube视频的训练。

并且，Gemini还可以把音频和视频集成到模型自身，形成多模态能力，而后者，已经被许多研究者认为是AI的下一个前沿。

比如，根据YouTube视频训练的模型，可以帮助机械师根据视频诊断汽车的维修问题。或者可以根据用户想要创建网站或应用程序的草图，来生成软件代码。此前，OpenAI曾展示了GPT-4的这项功能，但目前尚未推出。

OpenAI老板Greg Brockman曾演示GPT-4读图写网页代码的能力，但似乎鸽了使用YouTube内容，还可以帮助谷歌开发更先进的文本转视频软件，根据用户想看的内容描述，自动生成详细的视频。

这类似于谷歌支持的初创公司RunwayML正在开发的技术，现在好莱坞的内容创作者们都在密切关注这项技术的发展。

Google DeepMind，发起全面反击

2011年，谷歌创立了谷歌大脑（Google Brain），旨在构建起谷歌自己的AI，来优化搜索的结果、广告精准投放，以及在Gmail中的自动填充等功能。

而位于伦敦的DeepMind则更多地致力于学术研究——2016年AlphaGo以4比1的成绩战胜了李世石，这项工作被人们视为通向通用人工智能（AGI）道路上的重要里程碑。谷歌除了会用DeepMind开发的软件提高数据中心的运行效率外，DeepMind的工作并没有对其核心产品产生太大影响。

但在去年年底，一切都改变了。

2022年11月，OpenAI发布了ChatGPT，短短几周内用户人数飙升到了数千万，之后更是达成了用户破亿最短时间的成就。

几个月内，OpenAI的收入就达到数亿美元，并且在这期间微软新投资了100亿美元、数不清的资本热钱向着OpenA流去，OpenAI的市值、知名度都达到了一个前所未有的高度。

这时，谷歌才意识到，自己在AI领域的领导地位已经岌岌可危了。

谷歌大脑+DeepMind=？

今年4月，陷入被动的谷歌放出终极大招：谷歌大脑和DeepMind正式合并！

‘王不见王’的两大部门居然合体了，这一举动也是让瓜众们惊掉了下巴。

合并后的Google DeepMind将由DeepMind首席执行官Demis Hassabis领导，而前谷歌AI负责人Jeff Dean接任首席科学家一职。

现在，至少有26名大佬正在负责Gemini的开发，这些人包括曾在谷歌大脑和DeepMind工作的研究人员。知情人士称， DeepMind的两位高管Oriol Vinyals和Koray Kavukcuoglu，将和前谷歌大脑负责人Jeff Dean一起负责Gemini的开发。他们将监督数百名参与Gemini开发的员工。

另外，谷歌的联合创始人谢尔盖·布林也老将出马，久违地回归了。

谢尔盖·布林和拉里·佩奇他一直在对Gemini模型进行评估，并帮助员工训练模型。据爆料，在团队发现Gemini意外地接受了潜在攻击性内容的训练后，布林也参与到了重新训练模型的技术决策过程中。

‘意外联姻’的阵痛

随着谷歌大脑和DeepMind的合并，新团队很快就遇到了非常严峻的问题——代码怎么合并，用谁家的软件开发？毕竟，这两个部门的代码库在之前是完全独立的。

虽然双方在各让一步之后达成了妥协：

- 在模型的预训练阶段，使用谷歌大脑用于训练机器学习模型的软件Pax

- 在后期阶段，使用DeepMind用于开发模型的软件Core Model Strike但据内部人士爆料，还是有不少员工因为不得不使用自己不熟悉的软件而愤愤不平。

除此之外，谷歌和DeepMind都针对ChatGPT开发了自己的模型。DeepMind着手开展了一个代号为Goodall的项目，旨在使用未公开模型Chipmunk的不同变体来开发一个与ChatGPT竞争的系统。而谷歌大脑则开发立项了Gemini。

最终，DeepMind决定放弃自己原先的努力，选择基于谷歌大脑的项目合作开发Gemini。有趣的是，在远程工作的政策上，据说谷歌大脑的态度也要比DeepMind宽松得多。

内耗、狼狈、反攻

比起OpenAI那边的形势一片大好，谷歌则陷入了一场精疲力尽的内耗中。先是一连多个高级技术人才出走，如Liam Fedus、Barret Zoph和Luke Metz等在内的研究人员，纷纷选择加入OpenAI。虽然谷歌找回了一些人才：比如重新招回了Jacob Devlin和Jack Rae。Jacob Devlin批评Bard的开发后，在今年1月份去了OpenAI。而Jack Rae是前DeepMind的研究员，在2022年加入了OpenAI。

此前，Devlin向劈柴、Dean等高管表达了对Bard团队使用ChatGPT数据训练的担忧，随后辞职接着，谷歌为了对抗一枝独秀的ChatGPT，也为了重回人工智能赛道领航者的地位，在今年2月的时候匆忙发布了聊天机器人Bard。然而，发布会却因一个低级的事实性错误惨遭翻车，导致公司的市值在一夜之间蒸发了千亿美元。谷歌的第一次反攻，以狼狈收尾。

到了5月，谷歌I/O大会上发布了全新的PaLM 2模型，大大改进了Bard回答问题和生成代码的能力。

同时发布的，还有将生成式AI和自己传统搜索服务结合起来的Search Generative Experience（SGE）。简单来说，SGE是一个类似Bing Chat的AI搜索服务，但并没有直接使用新的聊天窗口，而是将AI生成的内容集合在搜索结果中展示给用户。

也就是说，在搜索的同时，谷歌会利用AI为搜索的内容提供说明，回答用户提出的问题，帮用户做旅行规划等等。

而用户不再需要货比三家般的在多个链接之间来回跳转，也不用花心力去判断哪个链接背后的信息是真的，因为所有可用的内容都被集中到了AI收集到的回复之中。

在最近的更新中，谷歌添加了让SGE在AI生成的回复内容中附加图片和视频的功能，帮助用户更加直观的了解自己搜索的知识和信息。

就像Bing Chat一样，SGE的AI响应中也会有标注了发布时间的链接，来支持由AI生成的回复内容。如果用户对于相关的信息感兴趣，点击链接就能更加全面地了解具体的内容。

在AI生成的回复中，对于很多知识性的信息和概念，用户能够直接通过鼠标的悬停，就能获取到概念准确的定义。

现在针对科学，历史，经济等知识性问题的AI回复，都已经上线这个功能。

而对于需要浏览很冗长的网页信息来学习或者了解信息的用户，SGE还更新了一个网页内的AI概括功能——SGE while browsing。

这个功能相当于给用户提供了一个随时听候差遣的‘大纲生成器’。

对于任何篇幅比较长的网页内容，用户都可以用它来生成大纲，快速掌握要点。在下方的Explore the Page部分，用户还能看到和页面内容相关的问题。如果用户对于问题感兴趣，直接点击，就能看到文章中内容是如何解答这些问题的。

然而，是由于谷歌保守的市场策略，SEG目前只允许美国本土的用户采用Waiting List申请测试。

所以可能大部分用户甚至都不知道，谷歌已经推出了这样一个服务。总之，据悉两部门合体后，至少测试了21项生成式AI工具，甚至还包含为用户提供生活建议和心理辅导的工具。

在去年紧急解雇了声称聊天AI有意识的工程师的谷歌，现在居然也开始探索这类‘敏感’地带，可见真的是决定放手一搏了。

Gemini项目，目前形势大好

不过，两个团队的合并，对于一些正在负责Gemini项目的工程师来说，确实是个不小的惊喜。

曾在DeepMind工作的James Molloy和Tom Hennigan与谷歌资深研究员Paul Barham一起负责基础设施。

Timothy Lillicrap曾在DeepMind从事国际象棋和围棋方面的系统开发工作，而谷歌大脑的研究员Emily Pitler则领导一个团队，专注于使LLM具备处理数学或网络搜索等专门任务的能力。

但除了合并组织中的人员安排问题，Gemini团队在开发过程中还面临着巨大的挑战，如确定可以用于模型训练的数据等。

因此，谷歌的律师们一直在密切评估这项训练工作。在一个案例中，由于担心版权持有者的反对意见，律师们要求研究人员删除了来自教科书的训练数据。而这些数据本可以帮助训练模型回答有关天文学或生物学等领域的问题。

不过，谷歌前高管、VC公司Felicis Ventures的创始人Aydin Senkut评价Gemini的发布让他看到了‘谷歌决心再次走在最前沿，而不是极度保守’。

Aydin Senkut也十分赞同谷歌的决定：‘这是正确的方向。最终，他们会火的。’

本文来源：新智元，原文标题：《GPT-4大杀器谷歌Gemini来袭！26位研发大佬名单曝出，祭出类Midjourney生图能力》