福无双至,祸不单行,google 又又又「翻车」了。
2023 年 2 月,追赶 ChatGPT 的 Bard,公开犯了事实错误;2023 年 12 月,Gemini 侃侃而谈如同贾维斯,然而视频经过后期处理;2024 年 2 月,Gemini 生成多种肤色的历史人物,被批评歧视白人。
这回,厄运降临到 Google 的看家本领——搜索。海外网友看热闹不嫌事大,甚至上演了一波斗图狂欢。
被群嘲的 Google AI 搜索,有种清澈的愚蠢
过去不久的 Google I/O 大会,推出的其中一项功能是 AI Overview(AI 概述)。
顾名思义,AI Overview 在网页顶部生成综合多个信源的摘要,同时附有链接。
当时,Google 对 AI Overview 很有信心,宣布当即向所有美国用户推出,很快也会推广到更多国家,预计年底覆盖超过 10 亿人。
然而没过几天,AI Overview 先在美国用户这里翻车了。
自制披萨的奶酪容易掉下来怎么办?
Google 建议您,亲,往酱汁里添加约 1/8 杯的胶水即可。特意强调是无毒的,背后原因令人暖心。
Google 并非现编,而是从「美版贴吧」Reddit 一位用户 11 年前的评论照搬了答案,可惜它读不懂人类的幽默。
人一天里应该吃多少石头补充营养?
Google 没有反驳问题本身的不合理,一本正经地胡说八道,根据加州大学伯克利分校地质学家的说法,应该一天至少吃一块小石头,以便摄入维生素和矿物质。
答案的源头是 2021 年的一篇「报道」,出自以假新闻和讽刺文章闻名的洋葱新闻。
AI Overview 也不精通美国历史,掉进了阴谋论的陷阱,说奥巴马是第一位穆斯林总统。
一时间,X 等社交媒体掀起了一股抽象的浪潮:晒截图,比拼谁的 Google 回答最荒谬。
竞争异常激烈,在 AI 的世界里,前总统从威斯康星大学毕业了 21 次,一只狗曾在 NBA、NFL 和 NHL 打过球,蝙蝠侠是一名警察。
乐子人扎堆的地方,浑水摸鱼和颠倒是非的也不会少。
Google 回应,大部分 AI Overview 的信息是高质量的,也提供了有用的链接供用户深入了解,很多「翻车」例子,问题是不常见的,结果无法重现甚至被篡改过。
比如,一张流传甚广的截图显示,治疗抑郁症的方法是跳下金门大桥一了百了。事关人命,Google 特意解释了,这个结果是伪造的。
▲ 被 Google 辟谣的截图
与此同时,Google 没有辟谣其他例子,而是把它们作为改进 AI 的养料。怎么不算一次人类反馈的强化学习(RLHF)呢?
火眼金睛的网友还发现,之前 Google I/O 精挑细选的演示里其实也出现了事实错误,只不过更加隐蔽。
被问到如何修复卡住的胶片相机,Google 建议打开后门并轻轻地取下胶片,但这样操作会毁掉照片。
流年不利的 Google,不是第一次在万众瞩目的公共场合犯错误。
2023 年 2 月,Google Bard 在演示时说,詹姆斯·韦伯太空望远镜是第一个拍摄太阳系外行星的望远镜。事实上,第一张系外行星图像是在 2004 年拍摄的。一个错误,付出市值缩水 1000 亿美元的代价。
这次,除了 AI Overview 本身犯错,还有一个槽点:这个功能,它不好关。一些热心的开发者,赶制了扩展程序,强制只显示传统的搜索结果。
没有方便的退出机制是 Google 的不对,AI Overview 基于传统搜索页面,用户量极大,万一有不熟悉 AI 的用户,盲目信任它的结果并被误导,后果就不好说了。
「Google 怎么会错 30%?」
其实,AI Overview 被曝光的问题并不新鲜。AI 会犯错,早就是公开的秘密。
如同起到造型作用的「吸烟有害健康」,AI Overview 下方标注着:「生成式 AI 是实验性的。」ChatGPT 也小字提醒:「可能会犯错。请核查重要信息。」
大语言模型的基础原理是,通过预测下一个单词或者短语生成概率最大的文本,有时可能会选择不正确但看似合理的词语,也就导致了虚假信息或者说「幻觉」。
AI Overview 的胡言乱语也是幻觉的表现,它结合了大语言模型生成的语句和互联网的链接,可以引用信源,但不保证信源的准确。
哪怕用到了 RAG(检索增强生成)等技术,将检索系统与生成模型相结合,限制回答问题的范围,也只能抑制幻觉,而非根治幻觉。
并且,信源本身的可信度存疑。「美版贴吧」Reddit,由网友贡献内容,而非权威媒体。
今年 2 月,Google 与 Reddit 达成协议,将其内容用于训练 AI 模型。当时就有人怀疑,会否导致「garbage in, garbage out」(垃圾进,垃圾出)的尴尬情况。
被「幻觉」困扰的不只 Google。去年 5 月,一位网友提问微软的 New Bing 时,答案明显错误,他点开参考链接时发现,作为引用源的知乎回答,居然也是 AI 生成的,遣词造句尽显 AI 风味,速度人力所不可及。
AI 搜索们是如何引用信源的,也是个让人费解的问题。当我用中文搜索「怎么给柴犬洗澡」,Perplexity 的信源是搜狐、YouTube、豆瓣日记、B 站,天工是知乎、百度文库,一时也不知道哪个更为权威,不敢轻信。
既然 AI 搜索都有幻觉,为什么总是 Google 被架在火上烤?
创立于 1998 年的 Google,成为搜索代名词的 Google,身为 AI 巨擘的 Google,拉高了外界的期待,也必须承担犯错的后果。
相反,Perplexity 的 CEO Aravind Srinivas 表示,轻装上阵就是他们的优势,字里行间还有些骄傲。
如果你使用我们的产品,80% 表现不错,你可能觉得印象深刻,但如果你使用 Google 的产品,只有 70% 正确,你可能会不解,Google 怎么会错 30%?
另外,AI 搜索也导致了一个用户认知上的转变。
我们以前说「用 Google 搜索」,而介绍搜索的生成式 AI 功能时,Google 自己给博客起的标题是「让 Google 为您进行搜索」,主次微妙地倒转了。
过去,Google 展现哪些链接可以回答你的问题。现在,Google 自己用 AI 回答你的问题。
传播错误信息的矛头,从信源本身,转移到了引用信源的 Google 身上。这口锅,Google 不得不背。
AI 搜索在提供事实之外,还有哪些可能性
既然幻觉已然是前提,我们应该换个角度看待 AI 搜索,问自己一个问题:是不是我们的预期出了错误?
其实在 AI Overview 被批评前,Google CEO 皮查伊就在近日 The Verge 的采访中提到过,「幻觉」问题仍未解决,甚至可以说是大语言模型固有的特征。
他认为,大语言模型不一定是了解事实的最佳渠道,但这不代表大语言模型是个废柴,非黑即白的思维不可取,比如它可以创造诗歌、引入搜索。
CEO 接受采访也好,I/O 大会也罢,都是在向用户传递一个理念:不要只把 AI 搜索当作对现有网页的简单总结,AI 发光发热的地方还有很多。
但 AI Overview 没能让人满意,怪不到用户头上,相比演示,现在的 AI Overview 并非完全形态,很多功能还没有上线。
Google 搜索主管 Liz Reid 在 I/O 展示了一个「多步推理」的例子,输入「找到波士顿最好的瑜伽馆,展现优惠信息,以及从灯塔山出发的步行时间」,AI 一步到位,以前要搜索三次的,现在一次就够了。
同时,AI Overview 未来还将有「规划」能力,比如要求 AI 策划三天的晚餐,用户可以直接拿到一份食谱,并在中途进行细化,加上「素食」等需求,然后导出到文档。
Google 的思路,和其他 AI 搜索产品殊途同归——让搜索更加可视化、交互性和个性化,用人话而非关键词沟通,节省查找信息的时间,回答更加复杂和具体的问题。
秘塔提供简洁、深入、研究的不同搜索模式,研究模式甚至可以给出大纲和脑图,生成演示文稿。
Perplexity 可以控制搜索范围,既能覆盖整个互联网,也能按照搜索需求,缩小到学术论文、YouTube、Reddit。
天工将 AI 搜索作为一个门户,搭载更多的生产力工具,提供了 AI 速读、音乐创作等智能体,等于在 AI 搜索之上,又搭建了一个 AIGC 内容创作平台。
平时的大多数问题,天气如何,汇率多少,跳转官网,其实通过简单的传统搜索就可以得到答案。
但相对复杂的场景,AI 搜索被寄予了厚望,毕竟它比起 ChatGPT 等多了信源,更加方便查证,比起传统搜索,又能进行更多的研究、创作、规划、头脑风暴。与其说是比传统搜索更好的百科全书,不如说更有 agent 的形状。
当然,饼画得再多,AI 搜索的幻觉还是让人膈应。为此有人建议,安全起见,用生成式 AI,别只看摘要,再用传统的 Google 搜索检查一下。所谓风水轮流转,但大哥还是大哥。