让用户吃石头，给披萨涂胶水，Google AI 搜索疯了吗

2024-05-28 爱范儿

加入收藏

福无双至，祸不单行，google 又又又「翻车」了。

2023 年 2 月，追赶 ChatGPT 的 Bard，公开犯了事实错误；2023 年 12 月，Gemini 侃侃而谈如同贾维斯，然而视频经过后期处理；2024 年 2 月，Gemini 生成多种肤色的历史人物，被批评歧视白人。

这回，厄运降临到 Google 的看家本领——搜索。海外网友看热闹不嫌事大，甚至上演了一波斗图狂欢。

被群嘲的 Google AI 搜索，有种清澈的愚蠢

过去不久的 Google I/O 大会，推出的其中一项功能是 AI Overview（AI 概述）。

顾名思义，AI Overview 在网页顶部生成综合多个信源的摘要，同时附有链接。

当时，Google 对 AI Overview 很有信心，宣布当即向所有美国用户推出，很快也会推广到更多国家，预计年底覆盖超过 10 亿人。

然而没过几天，AI Overview 先在美国用户这里翻车了。

自制披萨的奶酪容易掉下来怎么办？

Google 建议您，亲，往酱汁里添加约 1/8 杯的胶水即可。特意强调是无毒的，背后原因令人暖心。

Google 并非现编，而是从「美版贴吧」Reddit 一位用户 11 年前的评论照搬了答案，可惜它读不懂人类的幽默。

人一天里应该吃多少石头补充营养？

Google 没有反驳问题本身的不合理，一本正经地胡说八道，根据加州大学伯克利分校地质学家的说法，应该一天至少吃一块小石头，以便摄入维生素和矿物质。

答案的源头是 2021 年的一篇「报道」，出自以假新闻和讽刺文章闻名的洋葱新闻。

AI Overview 也不精通美国历史，掉进了阴谋论的陷阱，说奥巴马是第一位穆斯林总统。

一时间，X 等社交媒体掀起了一股抽象的浪潮：晒截图，比拼谁的 Google 回答最荒谬。

竞争异常激烈，在 AI 的世界里，前总统从威斯康星大学毕业了 21 次，一只狗曾在 NBA、NFL 和 NHL 打过球，蝙蝠侠是一名警察。

乐子人扎堆的地方，浑水摸鱼和颠倒是非的也不会少。

Google 回应，大部分 AI Overview 的信息是高质量的，也提供了有用的链接供用户深入了解，很多「翻车」例子，问题是不常见的，结果无法重现甚至被篡改过。

比如，一张流传甚广的截图显示，治疗抑郁症的方法是跳下金门大桥一了百了。事关人命，Google 特意解释了，这个结果是伪造的。

▲ 被 Google 辟谣的截图

与此同时，Google 没有辟谣其他例子，而是把它们作为改进 AI 的养料。怎么不算一次人类反馈的强化学习（RLHF）呢？

火眼金睛的网友还发现，之前 Google I/O 精挑细选的演示里其实也出现了事实错误，只不过更加隐蔽。

被问到如何修复卡住的胶片相机，Google 建议打开后门并轻轻地取下胶片，但这样操作会毁掉照片。

流年不利的 Google，不是第一次在万众瞩目的公共场合犯错误。

2023 年 2 月，Google Bard 在演示时说，詹姆斯·韦伯太空望远镜是第一个拍摄太阳系外行星的望远镜。事实上，第一张系外行星图像是在 2004 年拍摄的。一个错误，付出市值缩水 1000 亿美元的代价。

这次，除了 AI Overview 本身犯错，还有一个槽点：这个功能，它不好关。一些热心的开发者，赶制了扩展程序，强制只显示传统的搜索结果。

没有方便的退出机制是 Google 的不对，AI Overview 基于传统搜索页面，用户量极大，万一有不熟悉 AI 的用户，盲目信任它的结果并被误导，后果就不好说了。

「Google 怎么会错 30%？」

其实，AI Overview 被曝光的问题并不新鲜。AI 会犯错，早就是公开的秘密。

如同起到造型作用的「吸烟有害健康」，AI Overview 下方标注着：「生成式 AI 是实验性的。」ChatGPT 也小字提醒：「可能会犯错。请核查重要信息。」

大语言模型的基础原理是，通过预测下一个单词或者短语生成概率最大的文本，有时可能会选择不正确但看似合理的词语，也就导致了虚假信息或者说「幻觉」。

AI Overview 的胡言乱语也是幻觉的表现，它结合了大语言模型生成的语句和互联网的链接，可以引用信源，但不保证信源的准确。

哪怕用到了 RAG（检索增强生成）等技术，将检索系统与生成模型相结合，限制回答问题的范围，也只能抑制幻觉，而非根治幻觉。

并且，信源本身的可信度存疑。「美版贴吧」Reddit，由网友贡献内容，而非权威媒体。

今年 2 月，Google 与 Reddit 达成协议，将其内容用于训练 AI 模型。当时就有人怀疑，会否导致「garbage in, garbage out」（垃圾进，垃圾出）的尴尬情况。

被「幻觉」困扰的不只 Google。去年 5 月，一位网友提问微软的 New Bing 时，答案明显错误，他点开参考链接时发现，作为引用源的知乎回答，居然也是 AI 生成的，遣词造句尽显 AI 风味，速度人力所不可及。

AI 搜索们是如何引用信源的，也是个让人费解的问题。当我用中文搜索「怎么给柴犬洗澡」，Perplexity 的信源是搜狐、YouTube、豆瓣日记、B 站，天工是知乎、百度文库，一时也不知道哪个更为权威，不敢轻信。

既然 AI 搜索都有幻觉，为什么总是 Google 被架在火上烤？

创立于 1998 年的 Google，成为搜索代名词的 Google，身为 AI 巨擘的 Google，拉高了外界的期待，也必须承担犯错的后果。

相反，Perplexity 的 CEO Aravind Srinivas 表示，轻装上阵就是他们的优势，字里行间还有些骄傲。

如果你使用我们的产品，80% 表现不错，你可能觉得印象深刻，但如果你使用 Google 的产品，只有 70% 正确，你可能会不解，Google 怎么会错 30%？

另外，AI 搜索也导致了一个用户认知上的转变。

我们以前说「用 Google 搜索」，而介绍搜索的生成式 AI 功能时，Google 自己给博客起的标题是「让 Google 为您进行搜索」，主次微妙地倒转了。

过去，Google 展现哪些链接可以回答你的问题。现在，Google 自己用 AI 回答你的问题。

传播错误信息的矛头，从信源本身，转移到了引用信源的 Google 身上。这口锅，Google 不得不背。

AI 搜索在提供事实之外，还有哪些可能性

既然幻觉已然是前提，我们应该换个角度看待 AI 搜索，问自己一个问题：是不是我们的预期出了错误？

其实在 AI Overview 被批评前，Google CEO 皮查伊就在近日 The Verge 的采访中提到过，「幻觉」问题仍未解决，甚至可以说是大语言模型固有的特征。

他认为，大语言模型不一定是了解事实的最佳渠道，但这不代表大语言模型是个废柴，非黑即白的思维不可取，比如它可以创造诗歌、引入搜索。

CEO 接受采访也好，I/O 大会也罢，都是在向用户传递一个理念：不要只把 AI 搜索当作对现有网页的简单总结，AI 发光发热的地方还有很多。

但 AI Overview 没能让人满意，怪不到用户头上，相比演示，现在的 AI Overview 并非完全形态，很多功能还没有上线。

Google 搜索主管 Liz Reid 在 I/O 展示了一个「多步推理」的例子，输入「找到波士顿最好的瑜伽馆，展现优惠信息，以及从灯塔山出发的步行时间」，AI 一步到位，以前要搜索三次的，现在一次就够了。

同时，AI Overview 未来还将有「规划」能力，比如要求 AI 策划三天的晚餐，用户可以直接拿到一份食谱，并在中途进行细化，加上「素食」等需求，然后导出到文档。

Google 的思路，和其他 AI 搜索产品殊途同归——让搜索更加可视化、交互性和个性化，用人话而非关键词沟通，节省查找信息的时间，回答更加复杂和具体的问题。

秘塔提供简洁、深入、研究的不同搜索模式，研究模式甚至可以给出大纲和脑图，生成演示文稿。

Perplexity 可以控制搜索范围，既能覆盖整个互联网，也能按照搜索需求，缩小到学术论文、YouTube、Reddit。

天工将 AI 搜索作为一个门户，搭载更多的生产力工具，提供了 AI 速读、音乐创作等智能体，等于在 AI 搜索之上，又搭建了一个 AIGC 内容创作平台。

平时的大多数问题，天气如何，汇率多少，跳转官网，其实通过简单的传统搜索就可以得到答案。

但相对复杂的场景，AI 搜索被寄予了厚望，毕竟它比起 ChatGPT 等多了信源，更加方便查证，比起传统搜索，又能进行更多的研究、创作、规划、头脑风暴。与其说是比传统搜索更好的百科全书，不如说更有 agent 的形状。

当然，饼画得再多，AI 搜索的幻觉还是让人膈应。为此有人建议，安全起见，用生成式 AI，别只看摘要，再用传统的 Google 搜索检查一下。所谓风水轮流转，但大哥还是大哥。