作者 | 辰纹
来源 | 洞见新研社
星星之火,可以燎原。
5月6日,讯飞星火认知大模型揭开神秘面纱。
发布会上,科大讯飞董事长刘庆峰、研究院院长刘聪现场实测了星火大模型七大核心能力,并发布基于该大模型的教育、办公、汽车和数字员工等多个领域的相关产品。
与此同时,刘庆峰还给出了讯飞星火的迭代时间表及每阶段目标:
第一阶段:6月9日,突破开放性问答,如实时问答;多轮对话能力再次升级;数学能力再上台阶;
第二阶段:8月15日,突破代码能力;多模态交互能力正式开放给客户;
第三阶段:10月24日,在通用大模型领域对标ChatGPT,其中中文能力超越后者,英文能力与后者相当。
“当前,在文本生成、知识问答、数学能力三大能力上,讯飞星火认知大模型已超ChatGPT”,刘庆峰表示,认知大模型成为通用人工智能的曙光,科大讯飞有信心实现“智慧涌现”。
在星火认知大模型之前,百度文心一言、华为盘古、阿里通义千问、京东灵犀、商汤日日新等科技大厂的大模型先后发布,加上美团联合创始人王慧文、搜狗创始人王小川、出门问问创始人李志飞等科技大佬重出江湖,并且带动了一批资金,也参与到大模型方向的再创业中,以至于有专业人士用“百模大战”来形容当前行业竞争的激烈程度。
此时问题来了,刘庆峰为何如此有信心,星火认知大模型实力又到底如何,凭什么能够超越ChatGPT,实现“智慧涌现”?
01到底行不行,结果说话
光说不练假把式,我们直接对星火认知大模型进行一场测试,验验“成色”,是否真如刘庆峰说的那样“对答如流”。
1、文本生成
发布会现场,刘聪展示了星火大模型的文本生成能力,不但可以现编“故事”,还会撰写新闻稿,然而,通过我们后续的测试发现,星火大模型的文本生成能力远远不止这两项,根据场景的不同,还能衍生出更多的能力。
比如,可以请大模型担任编辑助手,根据用户提供的文本段落进行修改并提出写作技巧上的改进建议。
比如,请大模型帮忙润色群聊通知,甚至还可要求大模型加上emoji表情。
至于将口语转换成书面语,或是与大模型进行英文陪练,不在话下。
甚至要求大模型制作旅游指南,或是设计一份幼儿园大班体育游戏活动的计划,也能很好的完成任务。
点评:很显然星火大模型的文本生成能力长文本、短文本都能来者不拒,还具备多种风格、多种任务、跨语言等能力,实测结果显示,刘庆峰所说这一功能“星火大模型在国内明显领先,并且在中文方面超过ChatGPT”并不是吹牛自大。
2、语言理解
理解问题是解答的第一步,而中文又博大精深,星火大模型能准确理解不同语境下的语义吗?
我们先看看发布会现场的测试案例:“俗话说,男子汉大丈夫,宁死不屈。但俗话又说,男子汉大文夫,能屈能伸。这两种说法哪种是对的”?
然后追问:“如果有个小伙子和女朋友吵架了,他是应该宁死不屈还是能屈能伸”。
如果女朋友生气时,说随便,在这个语境下,男朋友应该怎么做呢?
对时下流行的热点,星火大模型掌握的怎样?
将问题再深入一些,代入到心理治疗的特定场景中,大模型又会给出怎样的答案呢?
点评:由于有深厚的知识积累,讯飞星火大模型的情商和语义理解能力在很多情况下甚至超过了个别人类,这也是科大讯飞一贯以来的强项,表现突出并不意外。
3、数学能力
数理能力一定程度代表一个大模型的聪明程度,刘庆峰在发布会上就表示,讯飞星火大模型的数学能力很强,能够达到ChatGPT的水平,现场测试中,刘聪出了一个计算三类花朵数量的题目,大模型用三元一次方程顺利解出了答案。
这个问题不算难,接着我们设计了一个根据“三个点的坐标,如何计算三角形面积”的问题,大模型除了给出正确答案外,还能解释和列出具体的分步步骤,显示格式也非常友好。
点评:数学能力是体现大模型通用水平的重要能力之一,而在统一大模型框架下也是非常难以实现的,大量测试证明ChatGPT在这一块也很容易出错,因为不是大家原来理解的规则性的输入输出(例如平常的直接调用计算器能力),而是在统一框架下用文本生成的方式来输出每一个字符。
因此在这个框架之下也不是大家通常理解的难的数学题难做,简单的数学题就好做。整体来说,星火大模型在解决综合性数学问题的效果上,目前是很领先的(综合评价比ChatGPT 3.5效果好,差于GPT 4),但是在各类题型的整体覆盖上,还要持续去优化。
4、逻辑推理
逻辑推理与语义理解强关联,科大讯飞在这方面继续延续着自己的技术优势。
我们先用一个日常生活中不是很常见的促销套路来探路,看看大模型能否理解其中的意思。
很可惜,大模型中了圈套,没能识破文字陷阱,不过话说回来,人类在这个问题上,如果稍不注意,也会翻车,换位思考下,对大模型的疏漏也就可以理解了。
我们换一个经典的“过河”推理问题再测一次。
这次大模型的表现很棒,知无不言,言无不尽,回答的非常详细。
接着,我们再问一个“探宝”的推理问题。
点评:星火大模型在逻辑推理上的表现整体不错,特别是一些复杂的推理问题,表现出非常强的逻辑性,在这方面,大大强于一般人类的表现。
5、泛领域知识问答
我们先来一个生活常识,铁锅炒菜能补铁吗?
再问一个科学知识,为什么自拍总是比他拍更好看?哪个更接近自己真实的样子?
如果将大模型模拟成一名育儿专家,将生活常识、科学知识等进行融合,它又会如何作答呢?
再来一个有关文言文学习的提问,模拟一个苦于学习文言文的高中生,向大模型求教有关文言文字句和语法的疏通,主要内容,以及作者想要表达的含义和文字艺术之美。
点评:通过这项能力的展现,我们第一次了解到科大讯飞在泛领域知识数据上的积累完全不输其他科技大厂,通过与文本生成能力相融合,形成了科大讯飞在中文能力上的特有优势,也使得大模型更加接近个人助手的形态。
6、代码能力
在官方介绍中,星火认知大模型不仅可以生成代码,还可以修改、理解、编译代码,并且还具备Python、Java等多语言能力。
发布会现场,科大讯飞研究院院长刘聪就演示了用Python生成一段简单代码的能力,我们在后续测评中,星火大模型对找Bug以及类似数据抽取、条件筛选等方向的代码生成的表现都还不错。
下面是要求星火大模型对一段代码进行修改与改良的实例。
我们请教了一名资深程序员,对星火大模型的上述工作进行评价,星火大模型基本上完成了任务要求,经程序员检查,星火大模型在将boxes的数字转换成整数的过程中还是存在小小的瑕疵,漏掉了path节点。
事实上,刘庆峰在发布会上也承认星火大模型的代码能力与ChatGPT相比,存在一定差距,下一步升级的重点功能也是这一块。
大模型自己也说:“我的代码生成功能仍然有限,可能无法满足复杂的业务需求”。
点评:目前星火认知大模型对于简单的代码问题不大,但在涉及到一些复杂问题,架构时,则需保持警惕,其生成内容只能作为参考,站在开发者的角度,需要自行检查代码的正确性、可靠性和保密性等等。
02大模型竞速,落地为王
通过上文的实测,星火大模型的表现已经很好的回答了文章开头的提问,也确实具备与头部大模型掰掰手腕的实力,在各项能力中,如刘庆峰所说的,文本生成、知识问答、数学能力这三项表现出有别于友商竞品的长板。
除此之外,星火大模型的差异性还体现在商业化的落地实践,表现出更强的进攻性。
科大讯飞之所以能够突然爆发,给到行业惊喜,其实是从诞生之时起就开始进行铺垫了。
24年前,6个中科大在校学生喊出,“要把中文语音做到世界最好”,这也成了科大讯飞创业的初心。
2011年,科大讯飞承建语音及语言信息处理国家工程实验室,跻身人工智能“国家队”,提出“让机器像人一样能听会说。”
2014年,科大讯飞推出“讯飞超脑计划”,明确提出:让机器像人一样能理解会思考。
2022年,又升级为“讯飞超脑2030计划”,提出让懂知识、善学习、能进化的通用人工智能技术成为每个人未来发展的重要机会,让机器人走进家庭。
从学界到产届,从输入法到翻译机,科大讯飞一直深耕于语音语义领域,继而形成了对认知智能的独到理解和布局。
算法上,科大讯飞经验丰富,尤其擅长认知智能,仅去年就获得了常识阅读理解挑战赛OpenBookQA等13项世界冠军,开源了六个大类,超过40个通用领域的系列中文预训练语言模型。
数据上,在多年认知智能系统研发推广中积累了超过50TB的行业语料和每天超10亿人次用户交互的活跃应用。
算力上,讯飞总部有自建的数据中心,在工程技术方面实现了百亿参数大模型推理效率的近千倍加速,同时还与华为合作,大模型建立在安全可靠的国产算力平台之上。
所以,星火大模型发布的时间虽然较晚,但技术储备的时间却非常的长,继而由模型到产品落地的速度反而跑到了前面。
对于当前大模型的“涌现”,很多行业人士都旗帜鲜明的表率,大模型的应用不应只停留在人机对答的自我娱乐,而应与产业融合才能产生更大的价值。
刘庆峰也强调,“一个大模型系统到底好不好,首先要看它是不是能解决刚需、是不是真的有用,而不是一个简单的单点测试。”
因而星火大模型很大一个特点是,一方面不忌讳自己的缺陷和不足,勇于面向公众大规模开放,这也显示出科大讯飞超强的技术自信。
另一方面,实现了大模型在应用和产品层面的率先落地,通过学习机、智能办公本、汽车座舱交互系统、讯飞听见、数字员工等一系列产品,打通了“大模型+产品”的生态闭环,在数据和模型之间形成正向反馈循环的“涟漪效应”。
星火大模型落地的上述产品本身就拥有数量庞大的用户群体,自然而然会产生大量数据,数据反馈给模型后,在“涟漪效应”下,将推动模型的迭代更新,变得越来越强。
星火大模型的率先落地,表面上看以提升用户体验的方式,提高了讯飞产品的竞争力,特别是像学习机和智能办公本,几乎变成了完全不同的产品,更深层次的影响或将改变行业生产协同的行为模式。
03结语
科大讯飞是人工智能国家队,自身也有非常强的AI标签,因而在拥抱大模型这件事情上,一定比像百度、华为这类拥有多条业务线,更多方向选择的科技巨头更加坚定。
在中国率先实现“智慧涌现”之前,科大讯飞还得对照着人工智能红利兑现的三大标准:“有没有看得见摸得着的真实应用案例,有没有能够规模化推广应用的产品,有没有统计数据能够证明的应用成效”,继续夯实科研、产品和服务这些基础工作,这样才能经得住时间的考验,真正迎来星火燎原。
原文标题 : 科大讯飞交卷,实测星火大模型