智东西
作者 | ZeR0
编辑 | 漠影
智东西5月11日报道,今日凌晨,在一年一度的谷歌I/O开发者大会上,谷歌CEO桑达尔·皮查伊 (Sundar Pichai)宣布:“对于生成式AI,我们正以一种大胆而负责任的方式迈出下一步。”
生成式AI是本场大会的绝对主角。在大会开场前,谷歌先发布了一款用生成式AI设计的卡牌游戏I/O FLIP。从图像到文本描述都是AI生成的。
开源代码:https://Github.com/flutter/io_flip
紧接着,多位谷歌高管轮番上阵,公布了一系列与生成式AI相关进展,涉及全新大模型、AI聊天机器人、搜索、办公软件、云服务、Android/ target=_blank class=infotextkey>安卓系统等,包括:
1、AI大模型:新一代语言模型PaLM 2擅长多语言翻译、推理、编程,部分测试表现超过GPT-4,共有4种规格,最轻量级可部署于移动设备;多模态大模型Gemini正在训练中。
2、AI聊天机器人:Bard已取消等候名单,向180多个国家及地区开放,新增支持韩文和日本,今年夏天将新增对中文等另外40种语言的支持;问答新增图片输入输出。
3、Pixel硬件:发布Pixel 7a智能手机、谷歌首款折叠屏手机Pixel Fold、Pixel Tablet平板电脑。
4、AI搜索:谷歌生成式AI实验版搜索引擎展示对话功能,搜索生成体验开放注册。
5、Workspace:对标微软office全家桶,让AI写邮件、画图、制表、代写文稿。
6、谷歌云:生成式AI协作工具Duet AI提供代码辅助和聊天辅助功能,谷歌推出基于NVIDIA H100 GPU的A3新实例。
7、AI工具:通过构建评估工具、增加水印和元数据等方式检测AI生成内容,用AI让照片编辑功能更加简单,谷歌地图沉浸式视图上线在即。
8、安卓:增加由生成式AI驱动的信息回复、生成式AI壁纸功能。
9、3D魔镜:推出最新Starline项目原型,几个标准摄像头就能产生更高质量的逼真3D图像。
10、生命研究:包括谷歌工程师在内的100多名科学家组成的联盟宣布了世界上第一份人类泛基因组参考草案,论文登上今日国际顶级学术期刊Nature的封面。
一、 PaLM 2 :新一代语言模型, 部分基准测试表现超过GPT-4
谷歌新一代大型语言模型PaLM 2采用谷歌最新的TPU基础设施进行训练,擅长数学、推理、多语言翻译、编程。在MATH等任务的基准测试中,PaLM 2的部分性能表现超过了GPT-4。
1、多语言:PaLM 2对多语言文本进行了更多的训练,覆盖100多种语言。PaLM 2还通过了高级语言能力考试,达到“精通”水平。
2、推理:PaLM 2的广泛数据集包括包含数学表达式的科学论文和网页,因此它在逻辑、常识推理和数学方面比上一代更强。
3、编程:PaLM 2是在大量公开可用的源代码数据集上进行预训练的,接受了超过20种编程语言的预训练,擅长Python/ target=_blank class=infotextkey>Python、JAVA等流行编程语言,同时也可以用Prolog、Fortran和Verilog等语言生成专门的代码。它不仅能够理解、生成和调试代码,还能解释修复错误背后的原因,以便开发者在世界各地进行协作。
为了方便广泛部署,谷歌构建了4种规格的PaLM 2大模型,分别是Gecko(壁虎)、Otter(水獭)、Bison(野牛)、Unicorn(独角兽)。
其中Gecko非常轻量级,可在移动设备上工作,并且速度足够快,即便在离线情况下也能在设备上运行出色的交互式应用程序。
谷歌还宣布超过25款由PaLM 2驱动的新产品和新功能。
例如,谷歌健康研究团队用医学知识对PaLM 2进行微调,开发了Med-PaLM 2。这是第一个在美国医疗执照考试风格的问题上达到专家水平的大型语言模型,可以检索医学知识、回答问题、生成有用的模板、解码医学术语。
谷歌正在为其增加多模式功能来合成信息,比如胸部X光和乳房X光检查等图像,希望有一天能改善病人的治疗效果。Med-PaLM 2将在今年夏天晚些时候向一小部分云客户开放。
除了推动科学研究外,PaLM 2还帮助改进日常应用。例如,Sec-PaLM是经过安全用例训练的PaLM 2的专门版本。通过谷歌云,它使用AI来帮助分析和解释潜在恶意脚本的行为,可以更好地检测哪些脚本实际上对个人和组织构成威胁。
最近谷歌大脑和DeepMind合并成一个团队,正专注于安全、负责地构建更强大的系统,包括仍在训练中的其下一代基础模型Gemini。
据悉,Gemini是多模态大模型,在工具和API集成方面效率很高,跟PaLM 2将有不同规格。
自今日起,开发者可以注册使用PaLM 2模型,谷歌客户可在Vertex AI中使用具有企业级隐私、安全和管理的模型。
二、 Bard :引入图片问答,新增多项导出功能
谷歌今日宣布的Bard更新涉及扩大访问范围、新增图像功能、优化编程功能和应用程序集成。从今日起,Bard将完全运行在PaLM 2之上。
Bard已取消等候名单,向180多个国家和地区开放,并新增对日文和韩文的支持。Bard很快将支持40种语言,包括中文。
具体功能上,Bard的聊天问答新增图像互动。
你可以问它:“新奥尔良有哪些必看景点?”Bard的回复不仅有文字,还有丰富的图片。
你也可以向Bard输入图像。比如上传一张两只小狗照片,让Bard写个有趣的标题。
短短几秒钟内,Bard就能借助google Lens对照片进行分析,检测狗的品种,然后起草出一些创造性的说明文字。
此外,Bard升级了编程和导出功能,包括:
1、来源引用:如果Bard引用了一段代码或其它内容,只需点击注释,Bard就会在这些部分下划线,并链接到源代码或内容。
2、暗黑模式:开发者喜欢这个模式。
3、导出按钮:开发者喜欢导出到Colab的功能,所以Bard很快将添加导出和运行代码功能,与其合作伙伴Replit一起,从Python开始。
此外,谷歌推出了另外两个导出操作,方便用户将Bard的回复直接导出到Gmail和Docs中。
未来谷歌计划将各种谷歌应用程序和服务的功能整合到Bard的体验中。
Bard还将能够利用网络上的各种服务,通过外部合作伙伴进行扩展。接下来几个月,谷歌计划将Adobe的创意生成式AI模型家族Adobe Firefly集成到Bard中,这样用户就能轻松快速地将自己的创意转化成高质量图像,然后进一步编辑或添加到Adobe Express中的设计中。
比如,向Bard输入:“在孩子聚会上制作一个独角兽和蛋糕的图像。”Bard几秒钟内就生成了符合要求的全新图像。
三、 Pixel 硬件产品上新:智能手机、折叠屏手机、平板电脑
谷歌还推出了Pixel 7a、Pixel Fold和Pixel Tablet平板电脑。Pixel 7a即日起可购买,Pixel Fold和Pixel Tablet的预订现已开放。三款设备都采用了谷歌旗舰芯片Google Tensor G2。
Pixel 7a起售价499美元,包含了谷歌高端手机的许多必备功能,比如人脸解锁、8GB内存、90Hz显示屏、无线充电等等。Pixel 7a拥有AI驱动的Pixel Call Assist电话呼叫功能和实时翻译、语音信息转录等语音功能。
Pixel Fold是谷歌首款折叠屏手机。谷歌称它比市场上任何其他可折叠手机都要薄,拥有折叠屏手机中最好的摄像头,打开后屏幕尺寸是7.6英寸,预定价格1799美元,并将赠送Pixel Watch。
Pixel Tablet平板电脑拥有11英寸显示屏,预售价499美元,可与充电音箱底座搭配使用。放到音箱上时,它就相当于变成了一个带屏智能音箱,可以作为智能家居的中控设备。
当它处于Hub模式时,点击Google Home图标就能访问所有兼容的智能家居设备,包括查看视频门铃、调节恒温器、打开客厅的灯等等。它也是第一款内置Chromecast的平板电脑,用户可以从手机上播放视频或音乐。
为了让平板电脑和折叠屏手机更好用,谷歌宣布了50多个谷歌应用程序的更新,以更充分地利用更大的屏幕。
谷歌智能家居软件Google Home也进行了更新,应用程序中的新设备选项卡为用户提供了一个清晰的视图和中央位置来管理所有智能家居设备,包括与Matter配对的设备。
四、搜索:用生成式 AI 改变信息组织方式
在搜索中引入生成式AI功能,有助于更快理解主题,发现新的观点和见解,更轻松地完成任务。
比如输入问题:“对于一个有3岁以下孩子和一只狗的家庭来说,bryce canyon和arches哪个更好?”生成式AI会迅速整理出可用的关键信息,还提供有相应链接。
同时,界面上有建议的后续问题,当你点击这些按钮,就会进入一个新的对话模式,然后你可以询问更多问题。
搜索中的生成式AI还可以帮助用户在购物时全面了解,获得产品相关描述,包括最新的评论、评级、价格、产品图片等等。
这种新的生成式AI购物体验构建于谷歌购物图(shopping Graph)上。谷歌购物图拥有超过350亿个产品列表,其产品、卖家、品牌、评论和库存数据集不断刷新,从而提供新鲜讯息。
谷歌在搜索实验室进行了一个名为SGE(搜索生成体验)的实验,今天开放注册,将于未来几周在美国推出。
有了SGE,搜索广告将继续出现在整个页面的专用广告位。在这种新的体验中,广告商仍然有机会在他们的搜索旅程中接触到潜在客户。
谷歌致力于提高透明度,使广告与自然搜索结果区别开来。当搜索广告出现时,它们会标识清晰透明的广告标签,并以黑体字显示“赞助”标签。
五、谷歌 Workspace :AI做图绘表写文稿
多年来,谷歌AI进步已经帮助超过30亿用户节省了时间,比如智能撰写、智能回复、为文档生成摘要等功能。仅在过去一年,这些AI功能就在Workspace中被使用了超过1800亿次。
有了更强大的生成模型后,谷歌将在Gmail中进一步推出“帮我写作(help me write)”功能。只要输入你的要求,点击创建,一份完整的草稿就写好了,你可以在此基础上进一步完善它。
谷歌Workspace中的Duet AI提供了Slides幻灯片和Meet视频会议中的图像生成工具、Sheets表格中的创建自定义计划等工具。
首先,谷歌宣布将Gmail的智能写作体验带到移动设备上,增加起草回复功能。用户仅输入几个词作为提示词,就能让AI起草完整的邮件回复。
谷歌也将Duet AI嵌入到Slides幻灯片中。用户输入几个单词就能生成图像。
制表也更加方便。Duet AI通过自动化数据分类和自定义计划的创建,可以帮助用户比以往更快地分析和处理Sheets表格中的数据。
同样的,将Duet AI整合到Meet视频通讯软件中,点击几下就能生成独特的自定义背景。
如果你在Docs文档中写一份工作描述,Duet AI不仅会帮助你写内容,还会包括智能芯片,比如位置和状态等信息,以及比如你的公司名称之类的一些个性化细节变量。它还提供有校对功能。
在I/O大会上,谷歌介绍了可以体验谷歌早期功能和产品创意的实验室(Labs),即日起可报名申请参加一系列实验的有限名额:
1、搜索实验室:在谷歌搜索中探索信息的新方式,如SGE(搜索生成体验),提供AI的概述、指针和后续建议。
2、Workspace实验室:在谷歌Workspace中创建和与AI协作的新功能,比如在谷歌Docs文档和Gmail中编写建议,在Sheets工作表中组织数据,在Slides幻灯片中生成文本生成图像。
3、Tailwind项目:一个AI笔记本,由你的笔记和资源驱动。
4、MusicLM:把文字描述变成音乐的工具。
六、谷歌云 Duet AI :对战微软Copilot,让云服务更好用
谷歌云宣布推出新的生成式AI协作工具Duet AI,为云服务用户辅助编程,补全上下文代码,提供变成建议,实时生成整个代码函数,以及协助进行代码审查和检查。从功能来看,基本上跟微软Copilot对标。
PaLM 2为谷歌云Duet AI提供支持。Duet AI将为任何类型、任何技能水平的用户提供支持,既能为开发者提供代码建议,为数据工程师提供基于提示词的数据洞察,也能为业务用户创建基于聊天功能的应用程序。业务用户借助聊天功能能够获得特定开发或云相关问题的答案。
Duet AI可嵌入到谷歌云接口中,包括集成开发环境(IDE)、谷歌云Console乃至聊天功能。
对于希望更简单有效地创建生成式AI应用的开发者,谷歌云AI产品还引入了新的基础模型和功能。为了继续支持和激励更多的客户和合作伙伴,谷歌正在Vertex AI中开放生成式AI支持。
新的基础模型可在Vertex AI中访问:谷歌代码生成基础模型Codey,通过代码生成、代码完成和代码聊天帮助加速软件开发;文生图基础模型Imagen,可以让客户生成和定制工作室级图像;先进语音模型Chirp,支持语音控制、字幕和语音辅助等语音任务。这些模型均可通过API访问,通过生成式AI Studio进行调整,并具有企业级的安全性和可靠性。
AppSheet的Duet AI将支持用户创建智能业务应用程序,连接他们的数据,并通过自然语言将工作流构建到谷歌Workspace中。无需编程,用户将能够通过在AI提示引导下的聊天中描述他们的需求来构建应用程序。这可以让开发团队将时间集中在其他高影响力的工作上。
文本嵌入(Text Embeddings)API是一个新的API端点,支持开发者基于对文本或图像的语义理解构建推荐引擎、分类器、问答系统、相似性匹配和其他复杂的应用程序。
Vertex AI是超大规模企业中第一个将人类反馈强化学习(RLHF)作为托管服务提供的端到端机器学习平台,支持组织结合人类反馈来深度定制和改进模型性能,教会模型避免不适当的输出。
支撑所有这些创新的是谷歌AI优化的基础设施。谷歌宣布构建基于NVIDIA H100 GPU的新A3虚拟机,这些虚拟机与最近发布的G2虚拟机一起为训练和服务AI模型提供了全面的GPU功能。
A3是第一个使用谷歌定制设计的200Gbps IPU的GPU实例,相比A2虚拟机可实现高达10倍的网络带宽,具有低尾部延迟和高带宽稳定性。
A3超级计算机的规模提供高达26EFLOPS的AI性能。A3虚拟机也非常适合推理工作负载,与谷歌由NVIDIA A100 Tensor Core GPU*支持的A2虚拟机相比,其推理性能提升了30倍。
七、AI工具: 鉴别真伪、 照片编辑与沉浸式地图
针对生成式AI会产生错误信息的问题,接下来几个月内,谷歌搜索将添加一个用于核查图片信息可信度的评估工具,提供关于相应图片的有用背景信息,比如类似的图片可能首次出现的时间和地点,以及它在网上的哪些其他地方被发现。
为了识别出AI生成内容,谷歌计划很快将水印、元数据及其他技术创新集成到最新的生成模型中。元数据允许内容创建者将附加上下文与原始文件相关联,从而提供更多信息。谷歌将确保每一张AI生成的图像都有这个元数据。
谷歌还训练了一个检测合成音频的分类器,准确率接近99%。
谷歌相册中的魔法编辑器Magic Editor采用生成式AI,让照片编辑变得更加简单。它帮助用户对照片中的特定区域进行编辑,也可以优化整体构图,将拍摄主体置于最佳位置。无论是更换天空背景,还是挪动照片中的人,操作都非常轻松。
谷歌地图即将上线Immersive View沉浸式视图功能。该功能使用计算机视觉和AI技术将数十亿街景和航拍图像融合在一起,创建一个丰富的数字世界模型。用户可以看到所需路线的所有信息,预览自行车道、人行道、十字路口和停车位,查看空气质量信息及路况变化。
通过新的鸟瞰图API,开发者可以轻松将兴趣点的3D鸟瞰视频集成到自己的应用程序中,为人们提供更多关于一个地方的视觉信息。谷歌还通过Map Tiles API推出了一个实验性的Photorealistic 3D Tiles,来帮助开发者定制3D地图。
八、安卓:生成式AI驱动的信息回复和个性化壁纸
谷歌分享了用AI技术让安卓手机更具个性化,包括Magic Compose、电影壁纸和生成式AI壁纸。
Magic Compose由生成式AI提供支持,可帮助用户在对话中添加额外的个性。它会根据你的信息上下文提供建议回复,甚至能将你写的内容转换成不同的风格。该功能将在夏季推出测试版。
表情壁纸支持用户用自己最喜欢的表情组合、图案和颜色来定制设备。电影壁纸采用机器学习网络,能将用户最喜欢的照片转换成3D图像。生成式AI壁纸使用谷歌的文本到图像扩散模型,用户输入自己创意想法的描述后,手机就能生成相应的独特壁纸以供选择。
为了避免“防丢神器”被滥用于侵犯用户安全,谷歌将在今年夏季晚些时候推出全新的“查找我的设备”体验,在安卓上推出未知追踪器警报。手机确定周围有未知追踪器在移动时,就会自动通知用户。用户可以查看物理禁用跟踪器并停止更新位置,并能主动搜索附近的未知追踪器。
谷歌将继续将安卓带到新的屏幕上,正在与三星合作打造一个基于安卓的全新沉浸式XR平台。
九、3D魔镜:最新原型大降硬件成本
今日谷歌推出了最新的3D视频会议系统Starline项目原型。该项目的演示效果非常神奇,就好像你坐在一面魔镜前,可以跟远隔千里的另一个人实时交谈,而镜中人拥有宛如真人的立体感和大小,就好像那个人坐在你对面一般。
谷歌早期的Starline项目原型占据了整个房间,需要复杂的硬件,系统的规模和复杂性使其难以应用于很多办公室中。
因此,对于其最新原型机,谷歌开发了新的AI技术,只需要几个标准摄像头就能产生更高质量的逼真3D图像。其原型机现在更像一个传统的视频会议系统,从一个餐厅摊位的大小缩小到一个平板电视,变得更容易部署和访问。
十、AI助攻生命研究突破:世界上第一个人类泛基因组参考
包括谷歌研究中心的工程师在内,一个由来自60个机构的119名科学家组成的联盟,在今日登上国际顶级学术期刊Nature封面的一篇论文中,宣布了第一份人类泛基因组参考草案。
目前的人类参考基因组只代表一个人在DNA上每个点的数据,与之不同的是,泛基因组参考基因组包括来自每个位置的许多个体的数据。这创造了一种更好地代表人类遗传多样性的新资源,使科学家和医生能够更准确地诊断和治疗疾病,并开发新的治疗方法。
为了促进该联盟的努力,谷歌工程师帮助开发和应用深度学习方法来解决基因组学方面的挑战。工程师们采用了用卷积神经网络识别基因变异的开源工具DeepVariant。该联盟利用这些改进的方法改进了泛基因组分析技术,并消除了人类基因组长而特别难以解码的片段的测序错误。
谷歌的DeepConsensus使用transformer来纠正测序仪器数据中的错误,帮助提高了用于构建泛基因组的数据的准确性。利用DeepConsensus数据,该联盟能够开发出一种长读汇编器,最终准确率超过99.999%。
论文链接:https://www.nature.com/articles/s41586-023-05896-x
结语: 谷歌自揭AI攻略
皮查伊说,谷歌有15种产品的用户数超过5亿,其中6个产品的用户数量超过20亿,这给了谷歌很多机会来实现“组织世界上的信息,使其普遍可用和有用”的永恒使命。
展望未来,谷歌将通过4个重要方式让AI对每个人都有帮助:1)增强知识和学习,加深人们对世界的理解;2)激发创造力和生产力;3)让开发者和企业能够构建自己的变革性产品和服务,赋能他人创新;4)通过负责任地构建和部署人工智能,让每个人都能平等受益。