12项评测成绩超过GPT

栏目：教育培训时间：2023-09-15

　　记者今天从商汤科技获悉，这家企业联合上海人工智能实验室等多家科研机构研发的ai大语言模型“书生·浦语”（internlm-123b）在12项权威评测中超越gpt-4，综合性能全面超越gpt-3.5-turbo。

　　今年上半年，商汤发布了“日日新”大模型体系，并发布了国内第一个综合性能全面超越gpt-3.5-turbo的基模型“书生·浦语”（internlm）。这个大模型的研发共投入约10000张gpu，其能力实现了飞跃式发展。

　　今年8月，新模型internlm-123b完成训练，参数量提升至1230亿。这个新模型的语言、知识、理解、推理和学科五大能力均显著提高，在全球51个知名评测集（包括mmlu、agieval、arc、ceval、race、gsm8k等）共计30万道问题集合上，测试成绩整体排名全球第二，超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。

　　据介绍，internlm-123在主要评测中，有12项成绩排名第一。其中，在评测集综合考试中的agieval分数为57.8，超越gpt-4位列第一；知识问答commonsenseqa的评测分数为88.5，排名第一；internlm-123b在阅读理解的五项评测中成绩全部居榜首；此外，在推理的五项评测中成绩排名第一。

　　与第一代“书生·浦语”大模型相比，internlm-123b不仅生成的内容更加准确、可靠，可在复杂场景中进行多步推理和计算，还具备了自主反思及修正错误的能力。internlm-123b也重点升级了代码解释器及插件调用能力，可使用python解释器、api调用和搜索三类常用工具来解决复杂任务、灵活搭建ai智能体应用。在此基础上，商汤自主研发的“商量”（sensechat）大模型将在9月升级到3.0版本。

　　在向全球领先的gpt-4发起冲击的同时，商汤与多家科研机构合作，推进ai大模型开源平台建设，internlm-7b（70亿参数）的部分训练数据、训练代码、基模型权重已经向学术界和工业界免费开源，并支持商用。

　　目前，internlm-7b在多个模型测试榜单高居榜首，成为世界上性能最好的轻量级基模型之一。商汤表示，期待看到ai社区对internlm的改进和更多ai应用的共建。

　　大语言模型的突破带来了产业新机遇。基于internlm模型，结合自研推理加速算法，商汤正在与头部手机芯片厂商合作研发，已实现大语言模型的手机端实时计算能力，将为手机操作系统增加一系列新功能。

　　“今年上半年，大模型和生成式ai可以说是全球最受瞩目的科技突破。”商汤集团董事会执行主席兼首席执行官徐立博士说，“我们希望给行业带来更强的大模型能力，助力我们的用户在生成式ai的时代做出颠覆性产品。”

　　栏目主编：黄海华

　　本文作者：俞陶然

上一篇：花式“开学礼”点亮新学期
下一篇：大学新生行李箱里都有啥？这届年轻人主打一个“精致”

12项评测成绩超过GPT

最近更新教育培训