如果说 2023 年,AI 大模型给所有人都带来了一种前所未有的震撼,那么到了 2024 年,这种震撼毫无意外地有所削弱,AI 大模型竞争的核心焦点已经转移到了落地的应用上:
得让更多人真正地用起来。
在前几天举办的 2024 知乎第十届盐 Club 新知青年大会上,知乎正式发布了一款新的 AI 大模型产品「知乎直答」,底层基于知乎自主训练的「知海图 AI」大模型。
不过严格来说,「知乎直答」并不新。
早在今年 3 月举办的 2024 知乎发现大会上,知乎其实就发布了 AI 功能「发现·AI 搜索」。在官方表述中,「发现·AI 搜索」是以社区可信赖内容为来源,给用户带来集新搜索、实时问答和追问功能于一体的全新体验。
这个表述基本可以套用在「知乎直答」上,区别在于从「以社区可信赖内容为来源」转变到了「以知乎社区的优质内容为核心,多种数据源为辅助」,还从依附知乎的一个功能正式升级为一个拥有独立域名(zhida.ai)的独立产品。
但对于普通用户,更关心的问题可能还是:作为一款 AI 大模型产品,「知乎直答」真的可以如官方所言,「为大家提供一种全新的获取可靠信息的途径」吗?以及比起其他类似的 AI 搜索产品,以知乎社区内容为核心的「知乎直答」又有什么优势?
一切都要「实践出真知」。
“AI 搜索”只是皮囊,知乎内容才是灵魂
「知乎直答」的产品设计非常简单,也非常熟悉,一言以蔽之就是——类 Perplexity 的 AI 搜索设计。国内外很多 AI 搜索产品也都采用了这一设计,原因倒也不复杂:好用,也够用。
图/雷科技
进入主页,正中间是最核心的提问框,下方是问题推荐栏,作为初上手用户的一种引导以及提高用户粘性的一种策略,侧栏则是问答列表和用户设置。
输入问题后,「知乎直答」同样也是经过「理解问题」「查找信息」,才能「生成回答」「完成回答」。完成回答后,除了能看到最终呈现的回答内容,你还可以看到前置的「参考来源」。
图/雷科技
与此同时,你还可以继续「深入」,追问 AI 一些问题,比如在 iPhone 16 计划引入不锈钢电池外壳这个问题下,小雷继续追问「其他厂商会用吗?」AI 可以联系上下文进行理解,不需要重复提及「不锈钢电池外壳」。
图/雷科技
此外除了默认的「深入」模式,用户还能选择「简略」模式进行提问,顾名思义就是每次输出更少字数的回答。
而这些,也就基本构成了「知乎直答」的「皮囊」。坦白讲,谈不上什么惊喜,但也算得上现阶段比较成熟的设计,只是有些细节需要打磨,比如在追问中选择回答模式时,选项窗口的弹出位置等。
不过正所谓,「好看的皮囊千篇一律,有趣的灵魂万里挑一。」
「知乎直答」最核心的竞争力都来自知乎的海量回答,这既是中文互联网最高质量、最重要的语料库之一,也是一个实时更新、汇集无数用户问答的数据库。
简而言之,在预训练大模型的阶段,「知海图 AI」大模型就将高质量的知乎问答作为核心语料进行训练;而在「知乎直答」的落地应用上,也将知乎作为核心数据库用来「查找信息」,最终基于此「生成回答」。
但说归说,最终还是要见真招的。
用上AI大模型,知乎答案会更靠谱吗?
众所周知,AI 大模型最强大的能力之一是对自然语言的理解,AI 搜索对比传统搜索最大的一个优势也是能够更准确地理解用户意图。
从「理解问题」的角度,「知乎直答」确实在一定程度上体现出了 AI 大模型的优势。比如询问「你和秘塔 AI 搜索之间有什么区别」,能够理解我是在问「知乎直答」和「秘塔 AI 搜索」之间的区别,并从功能定位、技术特点、用户交互等角度进行对比。
图/雷科技
就是祭出中文十级考题,让「知乎直答」理解下「人要是行,干一行行一行,一行行行行行,行行行干哪行都行。要是不行,干一行不行一行,一行不行行行不行,行行不行干哪行都不行」,也能准确理解语义。
图/雷科技
此外,「知乎直答」也能根据语境进行理解,还了解一些垂直领域的专用名词,比如询问「詹姆斯是 NBA 的 GOAT 吗」,能明白是指勒布朗·詹姆斯(LeBron James),也明白 GOAT 在此处代表 NBA 历史上最伟大的球员。
图/雷科技
不过「知乎直答」在时间判断上似乎存在一些问题。比如询问五年前能准确推导到 2019 年,问十年前却直接推导到了 2012 年(应该是 2014 年)。
图/雷科技
另外从参考来源来看,「知乎直答」的逻辑也可能存在问题,在「查找信息」过程中更多是以「十年前」,而非「2012 年」或者「2014 年」为关键词进行查找。
这也引出了「知乎直答」在理解问题后的下一步:查找信息。
相比其他 AI 大模型产品,AI 搜索在技术上最核心的区别是基于 RAG (检索增强生成)技术和实时联网生成回答,除了检索能力,另一个影响大模型生成质量的关键因素是数据库。
而相比其他 AI 搜索,知乎恰恰拥有一个得天独厚的优势——可能是中文世界最优质的站内内容,同时在从「发现·AI 搜索」功能升级到「知乎直答」产品的过程中,知乎没有局限于站内内容,而是扩大到了全网的可检索内容。
比如在「C919 国产大飞机目前处于什么水准」的问题中,「知乎直答」除了找到站内的一些回答,还查阅到了不少来自媒体报道的内容,包括百度百科、澎湃新闻、政府网站、新华社等网站来源。
图/雷科技
不过当我们使用「知乎直答」的时候,首先会有一个很多人关心的问题:「知乎直答」真的能用上知乎的回答吗?
最简单的回答是:用上了,而且真的做到了可追溯。
以苹果计划引入不锈钢电池外壳的问题为例,「知乎直答」第一个回答的质量倒并未让小雷很惊喜,包括电池能量密度的普遍提高,以及欧盟政策的影响都没有被提及。
但「知乎直答」还是从七个方面回答了苹果引入不锈钢外壳电池的理由,同时在一些地方直接标示了引用来源,绝大部分都是来自知乎站内的回答,只有 13、15 两个来源是站外媒体报道。
图/雷科技
点击这些引用链接,也确实能够看到相对应的信息和观点来源。不过需要注意的是,引用也只是部分引用,比如在「维修友好」的部分,引用来源只提到了前半句的「不锈钢电池外壳的设计可能便于维修」。
至于后半句关于「iOS 维修模式」的内容,实际在引用链接中只字未提,更多还是大模型的「创作」。
另外,「知乎直答」虽然号称可以利用站内的海量优质内容,但实际不同问题下可以利用的站内内容质量参差不齐,有些问答本身的质量就比较低,甚至回答干脆就是由 AI 生成的。
这可能也是知乎选择将检索范围从站内扩大全网的主要原因之一。
但无论如何,「知乎直答」最终都是要「生成回答」的。在这一点上,得益于站内的优质内容,「知乎直答」确实在一些领域中表现得比较专业,回答的内容更加切实,而不是空洞。
以 C919 的问题为例,「秘塔 AI 搜索」的回答比较离题,结论也很宽泛。
秘塔 AI 搜索的回答,图/雷科技
同样的问题在「知乎直答」这边则有更高质量的回答,相关的信息和观点都称得上言之有物,能够帮助用户更好地理解 C919 的定位、竞争力以及意义。
知乎直答的回答,图/雷科技
此外在「五年前大家对 5G 都是什么看法」的问题中,「知乎直答」在开头就回答道,「五年前,即 2019 年,人们对 5G 的看法是多元化的,既充满了期待也伴随着一些质疑。」之后展开的观点,也确实反映了当时中文互联网上对于 5G 的不同观点。
图/雷科技
不过一些问题上,小雷也发现了「知乎直答」的一些不足。
比如询问「姚明加入 NBA 的时候,NBA 亚军队的教练是谁」,可以看到「知乎直答」知道了姚明加入 NBA 是在 2002 年,但表示「没有直接信息表明姚明加入 NBA 那一年的亚军队教练是谁」。
但如果继续追问「所以 2002 年 NBA 亚军队的教练是谁」,「知乎直答」可以给出正确的推导过程和答案——新泽西网队(现布鲁克林篮网队)时任主教练拜伦·斯科特(Byron Scott)。
图/雷科技
换言之,「知乎直答」完全是有能力直接给出正确答案的,但不知道受限于什么因素,需要用户继续追问才能给出最终回答。
还有在不锈钢电池外壳问题的追问中,随着追问轮次的增加也会影响「知乎直答」的上下文理解能力,比如在第五轮的追问,直接询问「换用不锈钢外壳会有哪些变化」,AI 似乎忘掉了之前都是以手机电池为核心。
图/雷科技
而在第六轮的追问中,小雷重新提到了「手机电池」,AI 倒是也能重回正轨,基于手机电池进行回答。
简单来说,「知乎直答」在刚开始能够较轻松地结合上下文理解新的问题,但随着上下文长度的拉长,这种理解能力可能会有明显地下降。
写在最后
总的来说,在一众 AI 大模型产品之中,「知乎直答」确实找到了一些差异化的定位,基于站内的优质内容,提供更高信息量、更能追溯来源的回答。
不过问题也还存在,有些可以通过一些技巧解决,比如最好明确时间而非使用「X 年前」作为输入词,多轮问答可以适当强调下关键词等;有些还是需要基础大模型以及技术上改进,比如模型对用户意图更深层的理解,参考来源的权重排序或者筛选等。
就现在来说,如果我知道一些领域和话题已经在知乎有了精彩的讨论,确实会更愿意使用「知乎直答」快速、便捷地进行了解和深入。
但会不会更大程度地使用「知乎直答」作为日常获取信息和观点的渠道呢?还是要看后续模型和产品的改进,我相信还是很有希望的,就像知乎直答官方号在一个关于「知乎直答」的问题中答到:
AI 时代才刚刚开始,前面的路还很长。
来源:雷科技
原文标题 : 用上大模型的「直答」,能让知乎答案更靠谱吗?