9.11和9.9大模型全错,场景将成AI搜索护城河

Ai芯天下
关注

前言:

根据全球研究与咨询公司Gartner于今年2月发布的报告预测,至2026年,传统搜索引擎的搜索量预计将下降25%。

此预测凸显了随着生成式人工智能技术的不断发展,人们的搜索习惯正在发生显著变化,进而推动了AI搜索领域的快速进步。

作者 | 方文三

图片来源 |  网 络 

9.11与9.9的比较时大模型[犯浑]

在数学领域,比较两个小数的大小是一个基本问题。然而,当这个问题被提出给当前的AI大模型时,却引发了一系列的错误回答。

具体来说,当被问及[9.11和9.9哪个更大]时,多数AI大模型错误地认为9.11大于9.9,这一错误源于对小数点后数字的错误比较。

大部分大模型在处理此类问题时,错误地将小数点后的数字进行比较,而忽略了整数部分的大小。

此次事件中,多个知名的AI大模型均未能正确回答这一问题,包括但不限于ChatGPT-4o、字节豆包、月之暗面kimi等。

在对12个AI大模型的测试中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝给出了正确答案,其余8个模型均未能正确回答。

在某些场景表现不佳反映了技术的局限性

从技术层面来看,大模型在分析文本时,通常会使用特定机制将文本拆分成更小的单元进行处理,这种拆分方式在处理数学问题时可能不够严谨,容易出现[断章取义]的情况。

①AI大模型在数学能力上的不足,部分源自其技术架构的固有限制。

当前的AI大模型主要基于Transformer架构,该架构在处理序列数据时表现出色,但对数学和逻辑推理的精确性存在局限。

Transformer模型依赖于自注意力机制来捕捉输入数据中的依赖关系。

然而,这种机制在处理数学表达式时可能无法有效捕捉数学运算的精确顺序和逻辑结构。

②AI大模型通常使用浮点数来表示数值,但这种表示方式在处理小数点后的精确比较时可能会引入误差,导致错误的数学判断。

尽管大模型在训练过程中接触到了大量数据,但其泛化能力在数学问题上仍显不足,特别是在处理未见过的数学问题或需要复杂推理的场景。

③大模型的设计初衷可能更侧重于文字思维而非数字思维。

它们在处理自然语言时表现出色,但在应对数学这种需要精确计算和严格逻辑的领域时,就显得力不从心。

④训练数据的质量和多样性直接影响AI大模型的数学能力。

现有训练数据集中缺乏对数学逻辑和推理过程的描述,模型未能学习到数学问题解决的逻辑链条。

AI技术中场景的选择和适配性至关重要

虽然[9.11]和[9.9]大模型可能在某些场景下遇到挑战,但将特定场景视为AI搜索的护城河是一种具有战略意义的思考方式。

它强调了场景适配性、定制化优化和技术创新在构建竞争优势中的重要性。

在AI搜索领域,这可能意味着通过专有技术、数据资源、用户体验设计等手段,构建独特的竞争优势。

不同的应用场景可能对模型的性能有不同的要求。

因此,将特定场景视为AI搜索的护城河,意味着在这个特定场景下,通过优化模型或整合相关技术,可以实现更优越的用户体验和搜索效果。

①定制化优化:针对特定场景,可以调整和优化搜索算法,使其更符合该场景下的用户需求和信息结构。

②数据优势:在特定场景下积累的大量相关数据,可以用于训练更精准的模型,从而提升搜索的准确性和效率。

③技术创新:在特定场景下不断探索和研发新技术,如语义理解、图像识别等,以提供更丰富的搜索功能和服务。

场景是AI搜索的长期护城河

在中国当前的搜索市场格局中,AI与搜索的融合呈现出两种主要趋势。

①以360和昆仑万维为代表的企业,通过推出[AI搜索]应用,实现了对话式搜索的创新体验;

②如字节、腾讯、百度等公司,则选择将自身的AI技术融入传统搜索框中,为用户提供更智能的搜索服务。

其中,360AI搜索、天工AI及秘塔AI搜索在体验上仿照了Perplexity的模式,即先给出总结性的[答案],再通过[参考资料]的形式呈现相关网页内容。

根据AIwatch.ai发布的[全球AI产品增速黑马榜],360AI搜索在3月份的访问量环比增加了1677%;天工AI搜索网页版在4月份的访问量达到400万,环比增长120%;

而秘塔AI搜索在推出不到两个月的时间里,便累积了数百万的访问量。

然而,随着AI搜索热潮的逐渐降温,场景适用性、用户留存等现实问题开始浮出水面,标志着行业已迈入比拼内功的新阶段。

在这一阶段,竞争的核心将不再局限于融资额或产品功能的极端化,而是转向对真实用户场景的理解和满足。

因此,中国AI搜索市场的下半场,或将聚焦于模型之外的理解能力、爬虫程序的逻辑思维、数据集的全面性,以及在回答时精准判断哪些页面对于用户获取准确数据最为重要。

综上所述,AI搜索产品并非仅具备搜索功能。原有的搜索市场参与者通过AI技术抢夺并留住用户;

而新进入者则借助AI拓宽业务边界,开辟通往搜索领域的新道路。

无论何种AI搜索产品,其本质目标均在于更好地满足用户的搜索需求,即利用AI能力为用户提供更精准的内容匹配。

经过对比体验发现,当前市场上的AI搜索产品在应对泛化信息需求时表现出色,但在垂直领域的精细要求下,往往难以提供专业、准确、全面的回答。

因此,无论是原生AI搜索还是传统搜索引擎,在追求低门槛的同时,还需注重产品差异化以形成核心竞争力。

同时,应警惕因缺乏应用场景、数据支撑和用户基础而导致的市场淘汰,因为AI搜索产品的根本驱动力在于用户需求而非技术本身。

只有在拥有成熟的应用场景和稳定的用户留存基础上,AI搜索的飞轮才能持续转动。

AI搜索面临工程化和产品化问题

①在于搜索排序算法的设计。相较于传统搜索引擎主要依赖的基于网页关系的算法(如PageRank),其计算过程相对简化。

然而,AI搜索则引入了深度学习、强化学习等高级模型,这要求在海量数据上执行大规模训练与优化,对算法的性能提出了极高的标准。

据统计,搜索引擎每日需响应数十亿次查询请求,而当前主流的大型语言模型在每次查询时均需执行数十次参数计算,这无疑加剧了整个过程的难度与复杂性。

②实时输出成为另一关键挑战。随着用户对搜索结果实时性要求的提升,任何明显的延迟都将严重影响用户体验。

然而,大型模型因其推理过程而常导致反应时间相对较长。

例如,谷歌的LaMDA对话模型在单次交互中,因涉及大量自然语言推理与生成,其计算延迟往往达到数秒,这对于搜索场景下的即时响应需求构成了显著挑战。

③推理准确度是AI搜索的另一核心要求。在极短时间内完成复杂的逻辑推理,以提供最为精准的搜索结果,这既需要算法具备高效的计算能力,又需能够妥善处理模糊与多义的查询。

结尾:

在可预见的未来,随着AIPC、AI手机等智能设备的日益普及,AI搜索有望成为这些设备的核心功能构成部分。

这些设备将预装AI搜索引擎,进而将搜索流量从传统浏览器迁移至AIPC、AI手机等平台。

此举不仅将重塑传统搜索行业的格局,确立AI搜索为流量汇聚的主要渠道;

而且,通过语音或手势与AI搜索进行交互,用户将享受到更为自然、高效的信息检索体验。

部分资料参考:第一财经:《AI算不出9.11和9.9哪个大?六家大模型厂商总结了这些原因》,科技新和:《AI搜索新贵弯道超车难》,周天财经:《AI搜索之战:谁在成为中国的Perplexity》,AI科技评论:《AI搜索热潮背后:注定要逾越场景的门槛》,技术领导力:《AI搜索,正在杀死传统搜索》

       原文标题 : AI芯天下丨产业丨9.11和9.9大模型全错,场景将成AI搜索护城河

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存