AI新战场打响！硅谷五巨头瞄准智能眼镜

2023-12-19 智东西

AI新战场打响！硅谷五巨头瞄准智能眼镜

智东西

编译 | 徐珊

编辑 | 云鹏

大模型之战席卷了整个2023年，紧接着的是，各大科技巨头似乎都瞄准了AI可穿戴设备，尤其是智能眼镜！

智东西12月18日消息，据The Information报道，Meta、谷歌、微软、OpenAI等科技巨头都准备将AI大模型应用在智能眼镜等带有摄像头的可穿戴设备上。他们认为智能眼镜等硬件将成为AI大模型的合适载体，因为多模态AI大模型可以处理声音、图片、视频等多类型的信息。

近期，各大科技巨头都在尝试将AI功能融入到不同移动设备中。有知情人士透露，OpenAI最近正在将“GPT-4 with Vision”的物体识别软件嵌入到社交公司Snap的产品中。这或许将为Snap的智能眼镜Spectacles提供新功能。

Meta也在上周二展示了自己将AI功能融入至雷朋（Ray-Ban）智能眼镜的效果。该智能眼镜可以通过AI语音助手描述用户看到哪些东西，同时能够告诉用户哪件衬衫适合哪件裤子，以及拥有西班牙语报纸翻译成英语等一系列新功能。

亚马逊Alexa AI助理团队内同样有个小组在研发一种新型带有设觉功能的AI设备。此外，和多数手机厂商一样，谷歌开始尝试将AI功能应用到手机中。

今年6月，苹果Vision Pro头显正式亮相，计划在明年出售。但据The Information推测，该设备可能刚开始并不会具备多模态AI功能。

当一场新的移动终端变革开始，苹果、微软、OpenAI、Meta等科技巨头将会如何布局新的战场？他们又是如何在各大硬件中凸显出自己的AI优势？哪些新的AI硬件或成为AI大模型的最佳载体？我们通过最新爆料可以看到一场AI硬件创新战正在开始。

一、谷歌：已适配手机AI助手Pixie，借助软件为智能眼镜提供搜索服务

在上周刚刚发布的AI大模型Gemini中，展示了一段AI是如何根据模仿者的动作，猜出电影名称的视频。它还展示了如何猜地图、如何处理手工问题等细节。

尽管视频内容可能有所编辑，但是该视频也透出了谷歌想要传达的基本思想：打造一款始终在线的AI，它可以通过人们在看、在听的东西，给用户直接的反馈或者帮助。一位直接了解谷歌消费硬件战略的人士表示，谷歌可能还需要数年时间才能提供这种体验，因为这种实施基于环境的计算将会耗费大量电力。

AI新战场打响！硅谷五巨头瞄准智能眼镜

▲谷歌眼镜

现如今，谷歌正在重新设计其Pixel手机的操作系统，希望嵌入较小规模的Gemini模型，为其手机AI助手Pixie升级体验，比如说告诉用户周边哪里可以买到他们刚刚拍摄下来的产品。

基于谷歌在搜索技术上长期布局，The Information觉得基于周围环境信息，学习和预测人们需要或想要的AI设备似乎非常适合谷歌。尽管十年前，谷歌眼镜失败了，但是谷歌后续也推动Android/ target=_blank class=infotextkey>安卓手机厂商们通过手机摄像头扫描环境并将图像推送到谷歌，然后基于云系统进行分析，从而形成“google Lens”的图像搜索应用程序。

了解该战略的人士表示，该公司最近取消了眼镜式设备的开发，但仍在为该类型的设备开发软件。这些人士表示，谷歌计划将图像搜索软件授权给硬件制造商，类似于为三星等手机制造商开发安卓移动操作系统的方式，发挥其AI大模型的作用。

二、微软：在HoloLens上运行AI软件，通过聊天机器人提供多模态语言

在多模态AI大模型的热潮下，微软研究人员和产品团队也开始尝试升级自己的语音助手，并且尝试在一些小型设备上运行AI功能。

根据专利申请显示以及知情人士透露，其模型可以为一些平价的智能眼镜或者其他硬件提供支持。微软正计划在其AR头显HoloLens上运行AI软件。用户将头显前置摄像头对准物体，拍下照片发送给由OpenAI 驱动的聊天机器人，让聊天机器人直接识别物体。同时，用户还可以通过对话的方式，从聊天机器人这里获得更多的信息。

AI新战场打响！硅谷五巨头瞄准智能眼镜

▲HoloLens

三、苹果：Vision Pro发布时或不会搭载AI大模型

苹果Vision Pro拥有不少多模态的新功能，但AI大模型方面的进展，和其他几家相比略有落后。目前，没有任何迹象表明Vision Pro在发布时将拥有复杂的物体识别或其他多模态AI功能。

但苹果花了数年时间完善Vision Pro的计算机视觉功能，以便该设备能够快速识别周围环境。这包括快速识别家具并了解佩戴者是坐在客厅、厨房还是卧室。或许，苹果正在开发可以识别图像和视频的多模态大模型。

AI新战场打响！硅谷五巨头瞄准智能眼镜

▲Vision Pro

但和其他公司正在开发的眼镜相比，Vision Pro又大又重，且不适合在户外日常场景中使用。

另一方面，据报道，苹果公司今年早些时候暂停了自己的AR眼镜的开发工作，以专注于其头显的销售。目前尚不清楚AR眼镜的研发工作何时会恢复。

四、Meta：已适配雷朋眼镜，提供AI新功能

Meta首席技术官Andrew Bosworth周二在Instagram发帖说，部分雷朋（Ray-Ban）眼镜用户将能够直接在智能眼镜端访问AI大模型。

AI新战场打响！硅谷五巨头瞄准智能眼镜

▲Ray-Ban

Meta的一些领导者将雷朋眼镜视为AR眼镜的“先驱”。该设备可以将数字图像与周围现实世界融合在一起。按照原计划，Meta计划在未来几年推出AR眼镜，但该计划遇到了一系列困难。具体而言，有报道成，智能眼镜很难吸引用户，并且新一代显示器开发遇到了难题。

但多模态AI大模型的到来似乎让Bosworth以及其团队重新焕发了新活力，让他们了解这款眼镜在短期内可以为客户带来一系列AI新功能。

五、亚马逊：开发新AI设备系列，或为智能眼镜提供支持

今年夏天，在亚马逊每年两次的产品规划中，Alexa团队的工程师提出推出一款能够运行多模态AI的新设备。

据直接了解相关项目的人士透露，该团队特别关注的是如何减少在设备上处理图像、视频和语音等AI计算和内存的需求。目前尚不清楚该项目是否获得了资金支持，也不清楚该设备打算为客户解决什么问题，但它与该公司的Echo语音助理设备系列是分开的。

此前，Alexa团队也曾研发过一款名为Echo Frames的智能音频眼镜。该设备不支持屏幕显示器或摄像头。目前尚不清楚亚马逊是否会开发具有视觉识别功能的智能眼镜。

六、AI可穿戴设备+摄像头，或成大模型最佳硬件载体

这不是硅谷巨头们第一次设计这类带有摄像头的可穿戴设备产品。此前谷歌、微软以及其他科技巨头都曾研发过AR头显。他们当初希望能够让数字屏幕出现在头显的半透明屏幕上，逐步提供指引帮助用户完成任务。但由于光学设计较复杂，最后多数产品反响不佳。

OpenAI推出的多模态大语言模型，可以通过视觉识别功能，让AI知道人们在看什么，在做什么，并且可以对这些行为、事物提供进一步信息。当大语言模型开始轻量化，一些小型设备也可以搭载模型，能够即时反馈用户的请求。考虑到人们对隐私安全的重视，人们可能还需要一段时间才能接受智能眼镜，以及一些内置摄像头的AI设备。

The Information觉得智能眼镜拥有AI助手后，或许将会成为像智能手机一样变革性的产品。它不但能成为指导学生数学问题或者论文问题的导师，还可以随时给周边的人提供环境信息，如翻译广告牌、告诉用户如何解决汽车故障等。

苹果公司前工程经理，AI搜索公司Objective的首席执行官巴勃罗·门德斯（Pablo Mendes）说：“AI大模型对一切都至关重要，它们将在计算机、手机和其他设备的底层架构中起到作用”。

结语：科技巨头寻求AI大模型最佳硬件载体

在由ChatGPT掀起的第三轮人工智能热潮中，多模态大模型属于底层基础设施，ChatGPT属于直接应用，这些都是已经明晰的答案。但ChatGPT在哪些设备上才能最大发挥出其应用潜力，哪些设备又是大语言模型的最佳载体？这些成为OpenAI、微软、谷歌等科技巨头们如今开始摸索的方向。

从The Information最新爆料看来，带有摄像头的智能眼镜成为不少巨头探索的重要方向，同时也有部分企业开始摸索研发新的可穿戴AI设备。又或者，尝试在手机上适配各类AI大模型。

其实不仅是科技巨头们如此思考。在国内，不少AR眼镜厂商们同样也认为这是机遇所在。“机器人和AR眼镜或许将成为这波AI大模型的最大受益者。”一位关注AI产业十余年的产业人士说道。

但在同一设计思路下，最后谁能调教出最好的轻量化AI大模型？谁又能打造出最实用的智能眼镜？我们将持续观察各大科技巨头的进展，找到答案。

来源：The Information