实际上手文心一言4.0,真的媲美GPT-4了?

雷科技
关注

尺有所短,寸有所长。

最近这段时间,大模型世界可以说是再度风起云涌,不断有大模型升级和涌现,作为国内最早推出通用大模型的公司,百度也推出了文心大模型 4.0。

百度创始人、董事长兼 CEO 李彦宏当场表示,文心 4.0 实现基础模型的全面升级,在理解、生成、逻辑和记忆等能力上均有提升,「综合水平与 GPT-4 相比已经毫不逊色。」

文心大模型 4.0 不是唯一一个对标 GPT-4 的大模型,中国有无数个大模型正在追赶 GPT-4,上周就有科大讯飞宣布星火大模型的下一次升级,就将全面对标 GPT-4。但话又说回来,文心大模型 4.0 真的能打了吗?

终究还是得见真功夫。

众所周知,百度在今年 3 月发布了国内第一个大模型——文心大模型 3.5,并以此为基础对话机器人文心一言,当时雷科技就做了上手体验,评价是还有很大的优化空间,但也有不少惊喜。

所以我们干脆先看看过去半年时间,文心 4.0 到底能有多少进步。

文心 3.5 的时候我们就问过如何评价《流浪地球 2》的问题,评价内容水分较大,还提到了「星际战斗场面」等错误信息,上映时间和演员信息上也出现了常见的错误。

微信截图_20230317174846.png

公允地说,那个时候 ChatGPT 上也经常遇到类似的问题,表现最好的可能还是联网的 Bing Chat(GPT-4)。

到了文心 4.0 上,评价会相对更贴近实际内容一些,尽管还是会出现探讨「我们应该如何保护地球」这种「胡话」,但追问上映时间和演员阵容都能给出准确的信息。

 

Snipaste_2023-10-30_15-18-55.png

此外,我们还问了一个常被用来「拷问」大模型的脑筋急转弯,文心 3.5 的时候显然还没有理解人类:

微信截图_20230317180424.png

但文心 4.0 不仅能从题目本身分析题意,还能将这个问题放到真实环境下进行推理:

Snipaste_2023-10-27_10-065.png

此外,文心 4.0 还能准确明白近期的网络热梗和「中文十级难题」:

Snipaste_2023-10-30_15-59-39.png

如果说前一个问题意味着文心 4.0 可以降维打击所有「梗百科」产品,后一个问题则代表了文心 4.0 对中文的理解能力又上了一个新台阶,要知道,不少网友也是花了一段时间才真正看懂这个「几等座」的问题。

更多的比较就不展示了,但显然,文心 4.0 比起半年多前已经聪明了不少,对中文的理解能力,联网后对新信息的掌握以及逻辑推理能力都有明显的提升。

但文心 4.0 还远不止于此。

既然大家都认为 GPT-4 是目前最「聪明」的大模型,那我们自然也不能免俗拿 Bing Chat(GPT-4)和文心 4.0 进行对比,比如先来一个比较简单的「请假理由」。

Snipaste_2023-10-30_18-05-12.png

文心一言给出的回答比较泛用,一般而言确实比较好用。

Snipaste_2023-10-30_18-04-06.png

Bing Chat 则给出了更多的理由,比如腹泻、家里断水和身体不适也比较实用。

当然,都到了「4.0」的阶段,我们也尝试提出一些比较高阶且更具实际价值的挑战。

第一个挑战就是直接写一份短视频脚本,分别让文心 4.0 和 Bing Chat 写份关于广州早餐的短视频脚本。

 

Snipaste_2023-10-30_17-50-44.png

Bing Chat 给出一份完成度相当不错,同时兼具创意和广州特色的脚本,稍微补充修改是真的可以采用。

Snipaste_2023-10-30_17-34-43.png

文心 4.0 创作的脚本就比较空泛,甚至把广州替换成任意一座城市都不会影响内容,更遑论「广州特色」了。但如果多给一些提示,比如指出广州的早茶、肠粉这些元素,文心 4.0 会进一步完善脚本内容,增加「广州特色」的相关内容。

Snipaste_2023-10-30_17-49-50.png

但较真起来,显然还是 Bing Chat 给出的脚本更具备实际价值,包括在画面的细节描述上也更加丰富,更胜文心 4.0 一筹。

第二个挑战则是创建网站教程,我们以比较简单的树洞网站为例,请教文心 4.0 和 Bing Chat。

 

Snipaste_2023-10-30_19-21-23.png

但 Bing Chat 第一步就歇菜了,只是给出了一个树洞网站及其功能的介绍,进一步追问也只能「理解万岁」,表示「我不能提供全部的代码,因为这超出了我的能力范围。」

相比之下,当我们要求文心 4.0 给出创建一个树洞网站需要的全部代码,可以看到它列出创建一个基本的树洞网站需要的 HTML、CSS 和 JavaScript 代码:

Snipaste_2023-10-30_19-22-36.png

接下来进一步请教如何在百度云上部署这些代码,它也会先提供一些大概的步骤,比如注册百度云账号、创建实例、连接云服务器、上传代码等操作:

Snipaste_2023-10-30_19-23-12.png

同时每一步还要继续展开,比如连接云服务器的步骤:

Snipaste_2023-10-30_19-23-49.png

诚然,现在大模型距离「用嘴」搭建网站、开发 APP 还有很远的距离,但文心 4.0 确实展示了一些改变开发生态的能力,未来如果能够与百度云打通,用文心一言贯穿整个流程,未必不能实现人人都可开发的未来。

不过大模型改变的不仅是内容创作和代码开发,还有翻译。先简单来一段英译中:

稿定设计导出-20231030-192728.jpg

左:Bing Chat,右:文心 4.0

两者的差别不是很大,只有在细节处理上有些微区别,但如果换成文言文风格呢?

稿定设计导出-20231030-193124.jpg

下:Bing Chat,上:文心 4.0

相比 Bing Chat,文心 4.0 的翻译更加准确,没有为了更精简的文辞而略去了一些关键信息,就比如开头第一句的「1985 年」。

如果我们在进一步,要求它们将李白的《侠客行》翻译成英文:

Snipaste_2023-10-30_19-32-39.png

只能说,现如今的大模型还做不太到位。

另外,借助插件系统文心 4.0 还能做到 GPT-4 无法实现的一些功能,比如一镜流影,即通过文字直接生成视频内容。需要解释的是,这并非直接地文字生成视频,而是通过 AI 生成文案、配音,再搭配实际拍摄画面,最后再自动剪辑导出。

Snipaste_2023-10-30_18-54-26.png

目前来看,这个功能还是有很多欠缺之处,生成视频的质量比较一般,又不能导入实际的制作流程,更多可能还是充当创意发散和尝鲜的价值。

尽管如此,文心 4.0 的表现已经足够让我眼前一亮了,不仅在中文语义理解又有了一定的提升,在逻辑推理、知识问答方面也更多避免了大模型「幻觉」的出现。可以说,文心 4.0 在综合能力上确实与 GPT-4 不分上下。

题图来自百度

    来源:雷科技

           原文标题 : 实际上手文心一言4.0,真的媲美GPT-4了?

    声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
    侵权投诉

    下载OFweek,一手掌握高科技全行业资讯

    还不是OFweek会员,马上注册
    打开app,查看更多精彩资讯 >
    • 长按识别二维码
    • 进入OFweek阅读全文
    长按图片进行保存