8家大模型挑战高考作文

OFweek人工智能网 中字

6 月 7 日消息,2023 年全国高考正式拉开大幕,全国有 1291 万考生奔赴考场,报考人数再创历史新高。

高考作文题历年来都是最受瞩目的热点,今天,就用高考作文题来检验一下各家大模型的真实水平,是骡子是马出来溜溜。

这里选择“ChatGPT、微软 Bing、文心一言、通义千问、昆仑万维「天工」、钉钉斜杠「/」、360智脑、讯飞星火” 8 款代表性产品检测大模型能力。测试标准统一,输入全国卷甲卷高考题目全文,对比各大模型产品首次生成的内容。

全国卷全国甲卷作文土木要求如下——

阅读下面的材料,根据要求写作。(60分)

人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。

这句话引发了你怎样的联想与思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

真金不怕火炼,一起看看各家大模型表现。

ChatGPT

题目《科技的发展:让人们更好地掌控时间还是失去掌控能力?》

评价:字数 702 字,表现中庸,乏善可陈。


微软 New Bing

题目:《技术的发展:掌控时间与成为时间的奴隶》

评价:字数702 字,不及作文硬性要求,产出结果为“回答”样式,并非结构完整的“作文”。优点在于上下文、上下句逻辑尚算的上连贯。


百度「文心一言」

题目《技术的双面性:时间的掌控与自由的丧失》


评价:997 字字数达标,对比下来属于表现优秀的了,一次提示直接给出题目和文章主干,结构整齐,有引用名言加分。缺点方面,各位请看文章倒数第一、二自然段,“最后”和“总得来说”章节中,车轱辘话反复说,有拼凑感。


阿里「通义千问」

题目《把握时间的“度”》


评价:字数 551 字恐会扣分,文章题目需要二次问询才能生成。


钉钉斜杠「/」

题目《技术的双刃剑:掌控时间,还是被时间支配?》

评价:918 字,在逻辑上和措辞上表现不俗,“议论文”特质拉满,进行了反思并给出措施。也存在车轱辘话反复说的问题。


昆仑万维「天工」

题目《掌控时间,而不是被时间控制:如何在科技时代保持自主性和掌控力》


评价:585 字恐被扣分,文章题目奇怪,且需要追问题目是什么,理解题意的能力有限。


科大讯飞「讯飞星火」

题目《时间的掌控与仆人》


评价:820 字,在逻辑上和措辞上挺好,还会“结合自身经历”,举例“我有一个程序员朋友”。


360 智脑

题目《技术发展与时间管理》


评价:821 字,需要追问方给出题目,表现中规中矩。


Closing  Thoughts

以上,就是八款主流 AI 工具生成的高考作文。

整体上,细读以上文章不难发现,写的不咋地都。。(摊手)

各家大模型产出内容普遍逻辑结构混乱,论据不充分,上下文衔接是生硬,名言引用并不那么贴切,这种文章在高考赛场上是拿不到高分的。要是加个查重率,不得全军覆没。

但是,大模型产出内容胜在产量高,速度快,几秒钟就好了,随着迭代内容质量会被优化。

具体来说,从文章结构上来看文心一言更胜一筹,层次清楚分明;讯飞星火和钉钉在逻辑上和措辞上挺好,讯飞星火还会“结合自身经历”,举例“我有一个程序员朋友”;钉钉斜杠「/」文风“议论文”特质拉满,进行了反思并给出措施;New Bing 给出的答案不能构成完整文章结构,产出字数493字是偏离字数要求的;至于 ChatGPT,表现中规中矩,因期望过高反而没感受到“惊喜”。

那么,您看下来觉得哪篇文章写得最好?满分 60 分的作文,它们又分别能得多少分呢?

声明: 本网站所刊载信息,不代表OFweek观点。刊用本站稿件,务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像,违者将依法追究法律责任。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存