实际上手文心一言4.0，真的媲美GPT-4了？

尺有所短，寸有所长。

最近这段时间，大模型世界可以说是再度风起云涌，不断有大模型升级和涌现，作为国内最早推出通用大模型的公司，百度也推出了文心大模型 4.0。

百度创始人、董事长兼 CEO 李彦宏当场表示，文心 4.0 实现基础模型的全面升级，在理解、生成、逻辑和记忆等能力上均有提升，「综合水平与 GPT-4 相比已经毫不逊色。」

文心大模型 4.0 不是唯一一个对标 GPT-4 的大模型，中国有无数个大模型正在追赶 GPT-4，上周就有科大讯飞宣布星火大模型的下一次升级，就将全面对标 GPT-4。但话又说回来，文心大模型 4.0 真的能打了吗？

终究还是得见真功夫。

众所周知，百度在今年 3 月发布了国内第一个大模型——文心大模型 3.5，并以此为基础对话机器人文心一言，当时雷科技就做了上手体验，评价是还有很大的优化空间，但也有不少惊喜。

所以我们干脆先看看过去半年时间，文心 4.0 到底能有多少进步。

文心 3.5 的时候我们就问过如何评价《流浪地球 2》的问题，评价内容水分较大，还提到了「星际战斗场面」等错误信息，上映时间和演员信息上也出现了常见的错误。

微信截图_20230317174846.png

公允地说，那个时候 ChatGPT 上也经常遇到类似的问题，表现最好的可能还是联网的 Bing Chat（GPT-4）。

到了文心 4.0 上，评价会相对更贴近实际内容一些，尽管还是会出现探讨「我们应该如何保护地球」这种「胡话」，但追问上映时间和演员阵容都能给出准确的信息。

此外，我们还问了一个常被用来「拷问」大模型的脑筋急转弯，文心 3.5 的时候显然还没有理解人类：

微信截图_20230317180424.png

但文心 4.0 不仅能从题目本身分析题意，还能将这个问题放到真实环境下进行推理：

此外，文心 4.0 还能准确明白近期的网络热梗和「中文十级难题」：

如果说前一个问题意味着文心 4.0 可以降维打击所有「梗百科」产品，后一个问题则代表了文心 4.0 对中文的理解能力又上了一个新台阶，要知道，不少网友也是花了一段时间才真正看懂这个「几等座」的问题。

更多的比较就不展示了，但显然，文心 4.0 比起半年多前已经聪明了不少，对中文的理解能力，联网后对新信息的掌握以及逻辑推理能力都有明显的提升。

但文心 4.0 还远不止于此。

既然大家都认为 GPT-4 是目前最「聪明」的大模型，那我们自然也不能免俗拿 Bing Chat（GPT-4）和文心 4.0 进行对比，比如先来一个比较简单的「请假理由」。

文心一言给出的回答比较泛用，一般而言确实比较好用。

Bing Chat 则给出了更多的理由，比如腹泻、家里断水和身体不适也比较实用。

当然，都到了「4.0」的阶段，我们也尝试提出一些比较高阶且更具实际价值的挑战。

第一个挑战就是直接写一份短视频脚本，分别让文心 4.0 和 Bing Chat 写份关于广州早餐的短视频脚本。

Bing Chat 给出一份完成度相当不错，同时兼具创意和广州特色的脚本，稍微补充修改是真的可以采用。

文心 4.0 创作的脚本就比较空泛，甚至把广州替换成任意一座城市都不会影响内容，更遑论「广州特色」了。但如果多给一些提示，比如指出广州的早茶、肠粉这些元素，文心 4.0 会进一步完善脚本内容，增加「广州特色」的相关内容。

但较真起来，显然还是 Bing Chat 给出的脚本更具备实际价值，包括在画面的细节描述上也更加丰富，更胜文心 4.0 一筹。

第二个挑战则是创建网站教程，我们以比较简单的树洞网站为例，请教文心 4.0 和 Bing Chat。

但 Bing Chat 第一步就歇菜了，只是给出了一个树洞网站及其功能的介绍，进一步追问也只能「理解万岁」，表示「我不能提供全部的代码，因为这超出了我的能力范围。」

相比之下，当我们要求文心 4.0 给出创建一个树洞网站需要的全部代码，可以看到它列出创建一个基本的树洞网站需要的 HTML、CSS 和 JavaScript 代码：

接下来进一步请教如何在百度云上部署这些代码，它也会先提供一些大概的步骤，比如注册百度云账号、创建实例、连接云服务器、上传代码等操作：

同时每一步还要继续展开，比如连接云服务器的步骤：

诚然，现在大模型距离「用嘴」搭建网站、开发 APP 还有很远的距离，但文心 4.0 确实展示了一些改变开发生态的能力，未来如果能够与百度云打通，用文心一言贯穿整个流程，未必不能实现人人都可开发的未来。

不过大模型改变的不仅是内容创作和代码开发，还有翻译。先简单来一段英译中：

稿定设计导出-20231030-192728.jpg

左：Bing Chat，右：文心 4.0

两者的差别不是很大，只有在细节处理上有些微区别，但如果换成文言文风格呢？

稿定设计导出-20231030-193124.jpg

下：Bing Chat，上：文心 4.0

相比 Bing Chat，文心 4.0 的翻译更加准确，没有为了更精简的文辞而略去了一些关键信息，就比如开头第一句的「1985 年」。

如果我们在进一步，要求它们将李白的《侠客行》翻译成英文：

只能说，现如今的大模型还做不太到位。

另外，借助插件系统文心 4.0 还能做到 GPT-4 无法实现的一些功能，比如一镜流影，即通过文字直接生成视频内容。需要解释的是，这并非直接地文字生成视频，而是通过 AI 生成文案、配音，再搭配实际拍摄画面，最后再自动剪辑导出。

目前来看，这个功能还是有很多欠缺之处，生成视频的质量比较一般，又不能导入实际的制作流程，更多可能还是充当创意发散和尝鲜的价值。

尽管如此，文心 4.0 的表现已经足够让我眼前一亮了，不仅在中文语义理解又有了一定的提升，在逻辑推理、知识问答方面也更多避免了大模型「幻觉」的出现。可以说，文心 4.0 在综合能力上确实与 GPT-4 不分上下。

题图来自百度

来源：雷科技

原文标题 : 实际上手文心一言4.0，真的媲美GPT-4了？

实际上手文心一言4.0，真的媲美GPT-4了？

相关推荐