![](https://www.265xx.com/res/images/mobile.png)
12项评测成绩超过GPT
记者今天从商汤科技获悉,这家企业联合上海人工智能实验室等多家科研机构研发的ai大语言模型“书生·浦语”(internlm-123b)在12项权威评测中超越gpt-4,综合性能全面超越gpt-3.5-turbo。
今年上半年,商汤发布了“日日新”大模型体系,并发布了国内第一个综合性能全面超越gpt-3.5-turbo的基模型“书生·浦语”(internlm)。这个大模型的研发共投入约10000张gpu,其能力实现了飞跃式发展。
今年8月,新模型internlm-123b完成训练,参数量提升至1230亿。这个新模型的语言、知识、理解、推理和学科五大能力均显著提高,在全球51个知名评测集(包括mmlu、agieval、arc、ceval、race、gsm8k等)共计30万道问题集合上,测试成绩整体排名全球第二,超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。
据介绍,internlm-123在主要评测中,有12项成绩排名第一。其中,在评测集综合考试中的agieval分数为57.8,超越gpt-4位列第一;知识问答commonsenseqa的评测分数为88.5,排名第一;internlm-123b在阅读理解的五项评测中成绩全部居榜首;此外,在推理的五项评测中成绩排名第一。
与第一代“书生·浦语”大模型相比,internlm-123b不仅生成的内容更加准确、可靠,可在复杂场景中进行多步推理和计算,还具备了自主反思及修正错误的能力。internlm-123b也重点升级了代码解释器及插件调用能力,可使用python解释器、api调用和搜索三类常用工具来解决复杂任务、灵活搭建ai智能体应用。在此基础上,商汤自主研发的“商量”(sensechat)大模型将在9月升级到3.0版本。
在向全球领先的gpt-4发起冲击的同时,商汤与多家科研机构合作,推进ai大模型开源平台建设,internlm-7b(70亿参数)的部分训练数据、训练代码、基模型权重已经向学术界和工业界免费开源,并支持商用。
目前,internlm-7b在多个模型测试榜单高居榜首,成为世界上性能最好的轻量级基模型之一。商汤表示,期待看到ai社区对internlm的改进和更多ai应用的共建。
大语言模型的突破带来了产业新机遇。基于internlm模型,结合自研推理加速算法,商汤正在与头部手机芯片厂商合作研发,已实现大语言模型的手机端实时计算能力,将为手机操作系统增加一系列新功能。
“今年上半年,大模型和生成式ai可以说是全球最受瞩目的科技突破。”商汤集团董事会执行主席兼首席执行官徐立博士说,“我们希望给行业带来更强的大模型能力,助力我们的用户在生成式ai的时代做出颠覆性产品。”
栏目主编:黄海华
本文作者:俞陶然
最近更新教育培训
- 丰林县:打好“组合拳” 稳岗促就业
- 进城务工人员随迁子女可在北京参加高职招考!今天17时截止——
- 政策|促进负责任创新与隐私保护:《科技伦理审查办法(试行)》解读
- 湖北教育行业微信9月TOP30榜:“湖北民族大学”等8个账号新晋榜单
- 晒课堂常规 看星湖学校促师生习惯养成
- “乡”味浓浓,侨后代千里返乡学潮菜
- 房车资讯:房车买个什么车好?正犹豫的你,请收下本篇测评!
- 张家界市总工会女职工芙蓉公益讲堂送课到永定区教师进修学校
- 广东2024年普通高考报名百问百答(一)
- “首批二孩”集中入学 看银川如何从容应对
- 【理通三迤】好品德造就干部好风尚
- 长春职业技术学院探索职教援外新路径
- 排名公开:贵阳精神病医院2023排名10月详情榜单
- 亳州教师勇救落水青年 彰显师者大爱
- 贵州省2023年下半年高等教育自学考试考前提示
- 10月17日起,贵州省2023年度全国社会工作者职业资格证书(纸质)可以领取啦!
- 四川北川:“羌山领头羊”计划让中学生成为科学实验的“研究者”
- 山东代表寄语妇女十三大丨刘莉:让巾帼之力在乡村振兴路上更加出彩
- “只要有孩子来读书,我就不会放弃”
- 原创国乒世界排名洗牌!王楚钦3项第1,张本智和暴跌,马龙第3难保
- 68125亿元!同比增长6%!山东前三季度“成绩单”出炉
- 文教融合共创未来
- 生态环境部、市场监管总局联合发布《温室气体自愿减排交易管理办法(试行)》
- 约老师轰22+12+7,掘金险胜灰熊!罗斯梦回巅峰,穆雷只打关键球
- 定档12月31日!2023深圳宝安马拉松报名今日开启