高考数学能否“难倒”AI大模型?讯飞星火居然“最聪明”!
过去两天,高考成为了社会各界广泛关注的话题,但与往年相比,由于今年AI大模型风靡全球,使得高考试卷也成为了检测AI大模型“智商”的试金石。对于人类而言,IQ越高的人大多数学越强,这是因为数学考验的是一个人的理解和推理能力,甚至很多检测IQ的题目就是数学题,对于大模型也是如此,数学能力高低也能反映一个大模型是否“聪明”。
那么这次的高考数学题能否难倒AI大模型呢?根据搜狐科技、量子位等权威科技媒体对ChatGPT、讯飞星火、文心一言、通义千问、360智脑等主流AI大模型的横向评测,讯飞星火居然力压群雄,成为了解题正确率最高、“最聪明”的AI大模型。
先来看下搜狐科技的测试方法,他们选择了2023年高考数学试卷的前10道填空题,让五款AI大模型轮番进行回答。仔细看这10道填空题,既包括了不等式解方程解,圆形方程解和三角形方程解,还包括了GDP逐季度递增的解法,非常全面地考验了人类的数学计算能力,而“智力超群”的AI大模型面对高考数学题会怎样?
根据搜狐科技得出的结论,讯飞星火答对了5道题,正确率为50%;ChatGPT和文心一言答对了4道题,正确率为40%;其他两个大模型一道题都没答对,等同于交了“白卷”。
接下来我们再来看量子位对五款大模型的测试,他们去掉了360智脑,但新增了公认最强的GPT-4。在 “已知函数 f ( x ) = cos ω x -1 (ω>0 ) 在区间 [0,2 π] 有且仅有3个零点 , 则ω的取值范围是?”这道题的求解中,GPT-4给出了ω的取值范围是(0,1/2]U{1}的错误答案。随后其余的大模型也可谓是“全军覆没”,它们都给出了错误的答案。
唯独只有讯飞星火给出了正确的答案。量子位的测试编辑心情悲喜交加地表示道:“本已经抱着再一次全军覆没的心情了,没想到中文大模型(讯飞星火)力挽狂澜!”
后来在三角函数题中,讯飞星火第一小问答案对了,但是步骤中出现了偏差,这说明讯飞星火在数学能力上还有改进空间。估计在6月9日科大讯飞发布星火V1.5之后,这种数学计算的小bug会得以修复。
最终量子位同样制作了一张横评汇总表,结果显示GPT-4在排列组合、立体几何和三角函数三道天空题中只有一道答对,在三角函数解答题中回答错误。而讯飞星火同样答对了一道填空题,但在三角函数解答题中答对了一问。而其余大模型完全就是“陪跑”,没有答对任何一道数学题。
讯飞星火数学能力一直是其优势之一,据悉,6月9日讯飞星火迎来V1.5迭代,不仅会在数学能力方面再上新台阶,还会在开放式问答、多轮对话方面明显升级,并在文本生成、语言理解和逻辑推理能力上持续提升。按照科大讯飞公布的三轮迭代时间表,看来星火将在10月24日实现中文超越ChatGPT、英文旗鼓相当的目标应该可以踏踏实实地一步一个脚印地抵达!
最近更新学前教育
- 河南41个博士后团队将出征第二届全国博士后创新创业大赛总决赛
- 广西:依托“硕师计划”让高素质教师走向农村学校
- 数字工匠不足,育人短板怎么补?
- 闵行这个“服务圈”,已为200多青年找到心仪工作!
- 海大99周年校庆专属头像上线!
- 江西有哪些自学考试学习形式?
- 北中医房山医院:相约地坛共赴中医药文化盛会,走进文化宣传周共促中医药文化素养
- 军自考有哪些专业?
- 重要提醒!湖北省10月高等教育自考考前须知
- 新丝路幼儿园:九九重阳暖相融 孝亲敬老情意浓
- 7天搞定托福作文的技巧
- 躬耕教坛,强国有我!上音“大先生”荣登 “上海市教育功臣”群像展
- 自考需要去学校上课吗?
- 助推重大项目建设廉洁高效
- 青海省玉树藏族自治州:深化河湖长制守护“中华水塔” 力保“一江清水向东流”
- “国际角膜塑形学会亚洲分会(IAOA)基础课程培训班”首次在渝开课!
- 豆神教育窦昕老师不断加码大语文布局,推动文化传承
- 九江家有电动车的快看!11月1日起实施
- 宝馨科技:重大经营与投资决策管理制度(2023年10月)
- 新托福独立写作满分
- 获评国家级优秀!海淀区人工智能产业集群蔚然成势!
- 喜迎妇女十三大|织密防护网,“她”权益法治屏障更坚实
- 晋州市和平小学组织观看“新时代好少年”直播活动
- 金融支点“撬动”科技创新 企业如何加快自主创新?
- 宋旦汉字艺术博物馆在湖南外国语职业学院开馆揭牌