高考数学能否“难倒”AI大模型？讯飞星火居然“最聪明”！

栏目：学前教育时间：2023-06-13

　　过去两天，高考成为了社会各界广泛关注的话题，但与往年相比，由于今年AI大模型风靡全球，使得高考试卷也成为了检测AI大模型“智商”的试金石。对于人类而言，IQ越高的人大多数学越强，这是因为数学考验的是一个人的理解和推理能力，甚至很多检测IQ的题目就是数学题，对于大模型也是如此，数学能力高低也能反映一个大模型是否“聪明”。

　　那么这次的高考数学题能否难倒AI大模型呢？根据搜狐科技、量子位等权威科技媒体对ChatGPT、讯飞星火、文心一言、通义千问、360智脑等主流AI大模型的横向评测，讯飞星火居然力压群雄，成为了解题正确率最高、“最聪明”的AI大模型。

　　先来看下搜狐科技的测试方法，他们选择了2023年高考数学试卷的前10道填空题，让五款AI大模型轮番进行回答。仔细看这10道填空题，既包括了不等式解方程解，圆形方程解和三角形方程解，还包括了GDP逐季度递增的解法，非常全面地考验了人类的数学计算能力，而“智力超群”的AI大模型面对高考数学题会怎样？

　　根据搜狐科技得出的结论，讯飞星火答对了5道题，正确率为50%；ChatGPT和文心一言答对了4道题，正确率为40%；其他两个大模型一道题都没答对，等同于交了“白卷”。

　　接下来我们再来看量子位对五款大模型的测试，他们去掉了360智脑，但新增了公认最强的GPT-4。在 “已知函数 f ( x ) = cos ω x -1 (ω>0 ) 在区间 [0,2 π] 有且仅有3个零点 , 则ω的取值范围是？”这道题的求解中，GPT-4给出了ω的取值范围是(0,1/2]U{1}的错误答案。随后其余的大模型也可谓是“全军覆没”，它们都给出了错误的答案。

　　唯独只有讯飞星火给出了正确的答案。量子位的测试编辑心情悲喜交加地表示道：“本已经抱着再一次全军覆没的心情了，没想到中文大模型（讯飞星火）力挽狂澜！”

　　后来在三角函数题中，讯飞星火第一小问答案对了，但是步骤中出现了偏差，这说明讯飞星火在数学能力上还有改进空间。估计在6月9日科大讯飞发布星火V1.5之后，这种数学计算的小bug会得以修复。

　　最终量子位同样制作了一张横评汇总表，结果显示GPT-4在排列组合、立体几何和三角函数三道天空题中只有一道答对，在三角函数解答题中回答错误。而讯飞星火同样答对了一道填空题，但在三角函数解答题中答对了一问。而其余大模型完全就是“陪跑”，没有答对任何一道数学题。

　　讯飞星火数学能力一直是其优势之一，据悉，6月9日讯飞星火迎来V1.5迭代，不仅会在数学能力方面再上新台阶，还会在开放式问答、多轮对话方面明显升级，并在文本生成、语言理解和逻辑推理能力上持续提升。按照科大讯飞公布的三轮迭代时间表，看来星火将在10月24日实现中文超越ChatGPT、英文旗鼓相当的目标应该可以踏踏实实地一步一个脚印地抵达！

上一篇：湖南省交通运输厅赴衡山与省政协委员沟通办理重点提案
下一篇：4个心理不成熟的表现，你有过几个

高考数学能否“难倒”AI大模型？讯飞星火居然“最聪明”！

最近更新学前教育