用上大模型的「直答」，能让知乎答案更靠谱吗？

还不完善，但真的有用。

如果说 2023 年，AI 大模型给所有人都带来了一种前所未有的震撼，那么到了 2024 年，这种震撼毫无意外地有所削弱，AI 大模型竞争的核心焦点已经转移到了落地的应用上：

得让更多人真正地用起来。

在前几天举办的 2024 知乎第十届盐 Club 新知青年大会上，知乎正式发布了一款新的 AI 大模型产品「知乎直答」，底层基于知乎自主训练的「知海图 AI」大模型。

不过严格来说，「知乎直答」并不新。

早在今年 3 月举办的 2024 知乎发现大会上，知乎其实就发布了 AI 功能「发现·AI 搜索」。在官方表述中，「发现·AI 搜索」是以社区可信赖内容为来源，给用户带来集新搜索、实时问答和追问功能于一体的全新体验。

这个表述基本可以套用在「知乎直答」上，区别在于从「以社区可信赖内容为来源」转变到了「以知乎社区的优质内容为核心，多种数据源为辅助」，还从依附知乎的一个功能正式升级为一个拥有独立域名（zhida.ai）的独立产品。

但对于普通用户，更关心的问题可能还是：作为一款 AI 大模型产品，「知乎直答」真的可以如官方所言，「为大家提供一种全新的获取可靠信息的途径」吗？以及比起其他类似的 AI 搜索产品，以知乎社区内容为核心的「知乎直答」又有什么优势？

一切都要「实践出真知」。

“AI 搜索”只是皮囊，知乎内容才是灵魂

「知乎直答」的产品设计非常简单，也非常熟悉，一言以蔽之就是——类 Perplexity 的 AI 搜索设计。国内外很多 AI 搜索产品也都采用了这一设计，原因倒也不复杂：好用，也够用。

图/雷科技

进入主页，正中间是最核心的提问框，下方是问题推荐栏，作为初上手用户的一种引导以及提高用户粘性的一种策略，侧栏则是问答列表和用户设置。

输入问题后，「知乎直答」同样也是经过「理解问题」「查找信息」，才能「生成回答」「完成回答」。完成回答后，除了能看到最终呈现的回答内容，你还可以看到前置的「参考来源」。

图/雷科技

与此同时，你还可以继续「深入」，追问 AI 一些问题，比如在 iPhone 16 计划引入不锈钢电池外壳这个问题下，小雷继续追问「其他厂商会用吗？」AI 可以联系上下文进行理解，不需要重复提及「不锈钢电池外壳」。

图/雷科技

此外除了默认的「深入」模式，用户还能选择「简略」模式进行提问，顾名思义就是每次输出更少字数的回答。

而这些，也就基本构成了「知乎直答」的「皮囊」。坦白讲，谈不上什么惊喜，但也算得上现阶段比较成熟的设计，只是有些细节需要打磨，比如在追问中选择回答模式时，选项窗口的弹出位置等。

不过正所谓，「好看的皮囊千篇一律，有趣的灵魂万里挑一。」

「知乎直答」最核心的竞争力都来自知乎的海量回答，这既是中文互联网最高质量、最重要的语料库之一，也是一个实时更新、汇集无数用户问答的数据库。

简而言之，在预训练大模型的阶段，「知海图 AI」大模型就将高质量的知乎问答作为核心语料进行训练；而在「知乎直答」的落地应用上，也将知乎作为核心数据库用来「查找信息」，最终基于此「生成回答」。

但说归说，最终还是要见真招的。

用上AI大模型，知乎答案会更靠谱吗？

众所周知，AI 大模型最强大的能力之一是对自然语言的理解，AI 搜索对比传统搜索最大的一个优势也是能够更准确地理解用户意图。

从「理解问题」的角度，「知乎直答」确实在一定程度上体现出了 AI 大模型的优势。比如询问「你和秘塔 AI 搜索之间有什么区别」，能够理解我是在问「知乎直答」和「秘塔 AI 搜索」之间的区别，并从功能定位、技术特点、用户交互等角度进行对比。

图/雷科技

就是祭出中文十级考题，让「知乎直答」理解下「人要是行，干一行行一行，一行行行行行，行行行干哪行都行。要是不行，干一行不行一行，一行不行行行不行，行行不行干哪行都不行」，也能准确理解语义。

图/雷科技

此外，「知乎直答」也能根据语境进行理解，还了解一些垂直领域的专用名词，比如询问「詹姆斯是 NBA 的 GOAT 吗」，能明白是指勒布朗·詹姆斯（LeBron James），也明白 GOAT 在此处代表 NBA 历史上最伟大的球员。

图/雷科技

不过「知乎直答」在时间判断上似乎存在一些问题。比如询问五年前能准确推导到 2019 年，问十年前却直接推导到了 2012 年（应该是 2014 年）。

图/雷科技

另外从参考来源来看，「知乎直答」的逻辑也可能存在问题，在「查找信息」过程中更多是以「十年前」，而非「2012 年」或者「2014 年」为关键词进行查找。

这也引出了「知乎直答」在理解问题后的下一步：查找信息。

相比其他 AI 大模型产品，AI 搜索在技术上最核心的区别是基于 RAG （检索增强生成）技术和实时联网生成回答，除了检索能力，另一个影响大模型生成质量的关键因素是数据库。

而相比其他 AI 搜索，知乎恰恰拥有一个得天独厚的优势——可能是中文世界最优质的站内内容，同时在从「发现·AI 搜索」功能升级到「知乎直答」产品的过程中，知乎没有局限于站内内容，而是扩大到了全网的可检索内容。

比如在「C919 国产大飞机目前处于什么水准」的问题中，「知乎直答」除了找到站内的一些回答，还查阅到了不少来自媒体报道的内容，包括百度百科、澎湃新闻、政府网站、新华社等网站来源。

图/雷科技

不过当我们使用「知乎直答」的时候，首先会有一个很多人关心的问题：「知乎直答」真的能用上知乎的回答吗？

最简单的回答是：用上了，而且真的做到了可追溯。

以苹果计划引入不锈钢电池外壳的问题为例，「知乎直答」第一个回答的质量倒并未让小雷很惊喜，包括电池能量密度的普遍提高，以及欧盟政策的影响都没有被提及。

但「知乎直答」还是从七个方面回答了苹果引入不锈钢外壳电池的理由，同时在一些地方直接标示了引用来源，绝大部分都是来自知乎站内的回答，只有 13、15 两个来源是站外媒体报道。

图/雷科技

点击这些引用链接，也确实能够看到相对应的信息和观点来源。不过需要注意的是，引用也只是部分引用，比如在「维修友好」的部分，引用来源只提到了前半句的「不锈钢电池外壳的设计可能便于维修」。

至于后半句关于「iOS 维修模式」的内容，实际在引用链接中只字未提，更多还是大模型的「创作」。

另外，「知乎直答」虽然号称可以利用站内的海量优质内容，但实际不同问题下可以利用的站内内容质量参差不齐，有些问答本身的质量就比较低，甚至回答干脆就是由 AI 生成的。

这可能也是知乎选择将检索范围从站内扩大全网的主要原因之一。

但无论如何，「知乎直答」最终都是要「生成回答」的。在这一点上，得益于站内的优质内容，「知乎直答」确实在一些领域中表现得比较专业，回答的内容更加切实，而不是空洞。

以 C919 的问题为例，「秘塔 AI 搜索」的回答比较离题，结论也很宽泛。

秘塔 AI 搜索的回答，图/雷科技

同样的问题在「知乎直答」这边则有更高质量的回答，相关的信息和观点都称得上言之有物，能够帮助用户更好地理解 C919 的定位、竞争力以及意义。

知乎直答的回答，图/雷科技

此外在「五年前大家对 5G 都是什么看法」的问题中，「知乎直答」在开头就回答道，「五年前，即 2019 年，人们对 5G 的看法是多元化的，既充满了期待也伴随着一些质疑。」之后展开的观点，也确实反映了当时中文互联网上对于 5G 的不同观点。

图/雷科技

不过一些问题上，小雷也发现了「知乎直答」的一些不足。

比如询问「姚明加入 NBA 的时候，NBA 亚军队的教练是谁」，可以看到「知乎直答」知道了姚明加入 NBA 是在 2002 年，但表示「没有直接信息表明姚明加入 NBA 那一年的亚军队教练是谁」。

但如果继续追问「所以 2002 年 NBA 亚军队的教练是谁」，「知乎直答」可以给出正确的推导过程和答案——新泽西网队（现布鲁克林篮网队）时任主教练拜伦·斯科特（Byron Scott）。

图/雷科技

换言之，「知乎直答」完全是有能力直接给出正确答案的，但不知道受限于什么因素，需要用户继续追问才能给出最终回答。

还有在不锈钢电池外壳问题的追问中，随着追问轮次的增加也会影响「知乎直答」的上下文理解能力，比如在第五轮的追问，直接询问「换用不锈钢外壳会有哪些变化」，AI 似乎忘掉了之前都是以手机电池为核心。

图/雷科技

而在第六轮的追问中，小雷重新提到了「手机电池」，AI 倒是也能重回正轨，基于手机电池进行回答。

简单来说，「知乎直答」在刚开始能够较轻松地结合上下文理解新的问题，但随着上下文长度的拉长，这种理解能力可能会有明显地下降。

写在最后

总的来说，在一众 AI 大模型产品之中，「知乎直答」确实找到了一些差异化的定位，基于站内的优质内容，提供更高信息量、更能追溯来源的回答。

不过问题也还存在，有些可以通过一些技巧解决，比如最好明确时间而非使用「X 年前」作为输入词，多轮问答可以适当强调下关键词等；有些还是需要基础大模型以及技术上改进，比如模型对用户意图更深层的理解，参考来源的权重排序或者筛选等。

就现在来说，如果我知道一些领域和话题已经在知乎有了精彩的讨论，确实会更愿意使用「知乎直答」快速、便捷地进行了解和深入。

但会不会更大程度地使用「知乎直答」作为日常获取信息和观点的渠道呢？还是要看后续模型和产品的改进，我相信还是很有希望的，就像知乎直答官方号在一个关于「知乎直答」的问题中答到：

AI 时代才刚刚开始，前面的路还很长。

来源：雷科技

原文标题 : 用上大模型的「直答」，能让知乎答案更靠谱吗？

用上大模型的「直答」，能让知乎答案更靠谱吗？

相关推荐