大语言模型“书生·浦语”多项专业评测拔头筹
最近,AI大模型测评火热,尤其在大语言模型领域,“聪明”的上限被不断刷新。商汤与上海AI实验室等联合打造的大语言模型“书生·浦语”(InternLM)也表现出色,分别在智源FlagEval大语言模型评测8月排行榜和中文通用大模型综合性评测基准SuperCLUE 7月评测榜两项业内权威大模型评测榜单中获得优异成绩。
“FlagEval是知名人工智能新型研发机构北京智源人工智能研究院推出的大模型评测体系及开放平台。FlagEval大模型评测体系构建了“能力-任务-指标”三维评测框架,可视化呈现评测结果,总计600+评测维度,包括22个主观、客观评测数据集,84433道评测题目。除知名的公开数据集 HellaSwag、MMLU、C-Eval外,FlagEval还集成了包括智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC),北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。”
“SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准,包含SuperCLUE-Opt客观题测试、SuperCLUE-Open主观题测试、SuperCLUE-LYB琅琊榜用户投票的匿名对战测试三大基准组成。为更好地反映国内大模型与国际领先大模型间的差距和优势,SuperCLUE选取了多个国内外有代表性的可用模型进行评测,同时由于其数据集保密性高,对大模型来说是‘闭卷考试’,减少了模型训练数据混入评测数据的可能性。此外,SuperCLUE还通过自动化评测方式测试不同模型效果,可一键对大模型进行评测,相对更客观。”
“书生·浦语”:不仅善于考试,还是开源大模型中的佼佼者
“书生·浦语”,是商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学打造的大语言模型,具有千亿参数,在包含1.8万亿token的高质量语料上训练而成。
今年6月,“书生·浦语”联合团队曾选取20余项评测进行检验,包括全球最具影响力的四个综合性考试评测。结果显示,“书生·浦语”在综合性考试中表现突出,在多项中文考试中超越ChatGPT。
7月,“书生·浦语”正式开源70亿参数的轻量级版本InternLM-7B。(
https://github.com/InternLM/InternLM)
后续又推出升级版对话模型InternLM-Chat-7B v1.1,成为首个具有代码解释能力的开源对话模型,能根据需要灵活调用Python解释器等外部工具,解决复杂数学计算等任务的能力显著提升。
此外,该模型还可通过搜索引擎获取实时信息,提供具有时效性的回答。
在北京智源人工智能研究院FlagEval大语言模型评测体系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分别在监督微调模型(SFT Model)榜单、基座模型(Base Model)榜单中取得第一和第二名。
“InternLM-chat-7B”还刷新中英客观评测记录。
「什么是“基座模型”、“有监督微调模型”?」
基座模型(Base Model)是经过海量数据预训练(Pre-train)得到的,它具备一定的通用能力,比如:GPT-3。
有监督微调模型(SFT Model)则是经过指令微调数据(包含了各种与人类行为及情感相关的指令和任务的数据集)训练后得到的,具备了与人类流畅对话的能力,如:ChatGPT。
普遍的观点认为,基座模型在很大程度上决定了微调模型的能力。
因此,FlagEval大语言模型评测体系针对基座模型的评测主要从“提示学习评测”和“适配评测”两方面进行;针对有监督微调模型的评测则从“复用针对基座模型的客观评测” 进一步增加“引入主观评测”。
此次两个榜单中,“InternLM-chat-7B”和“InternLM-7B”均表现出优异的综合性能,超越备受关注的Llama2-chat-13B/7B和Llama2-13B/7B。
特别在SFT Model测试中,InternLM-chat-7B中文能力大幅领先同时,英文能力也与对手保持在相近水平,展现出更强的实用性能。
SuperCLUE评测从基础能力、专业能力、中文特性能力三个不同维度对国内外通用大模型产品进行评价,考察大模型在70余个任务上的综合表现。
“书生·浦语”InternLM-chat-7B在7月公布SuperCLUE评测榜单中表现出色,在SuperCLUE-Opt开源大模型榜单拔得头筹。
作为SuperCLUE综合性三大基准之一,SuperCLUE-Opt评测基准每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,采用封闭域测试方式。
相比第二名ChatGLM2-6B,InternLM-chat-7B主要在学术专业方面取得较大领先,同时全面领先于第三名Baichuan-13B-Chat。
举报/反馈
最近更新教育平台
- 河南出台28个重点产业链行动方案
- 玉林工务段聚力抗击台风“三巴”保障安全
- 2023下半年广西英语四级考试时间具体安排
- 【邀请函】11月29日,北京物资学院2024届毕业生秋招校园双选会(第三场)
- “超级稻”亩产809公斤!江苏省第一家水韵苏米“三品一标”示范基地诞生
- 北京市第八中学京西附属小学 院士开讲“太阳风暴”向学生发出科研“邀请”
- 多地高考报名时间提前 专家:考生把握好自己的学习节奏
- 光谷一街道就业超市开17家“连锁店”,专为60、70后待岗居民“供货”
- 思政有深度,育人有温度——郑州市第四十七中学管城三中校区开展中小学“思政一体化”
- 创新风潮迭起,2023深圳国际金融科技大赛——西丽湖金融科技大学生挑战赛正式启动
- 一图读懂丨上海松江新城“十四五” 规划出炉
- 美国众议院选举第二轮投票依旧无果 众议院仍处混乱状态
- [浦东]竹园小学:长岛|弘扬科学精神,X沪东“科堂”公益科普活动激发科学梦想
- 导读:郑州妇科医院排名公布
- 第六届进博会期间,上海部分道路和区域采取临时交通管制措施
- 热搜第一,王楚钦深夜发声!
- 成人自考本科通过率高吗?
- 打造雄安家门口的名校名院 “三校一院”平稳运行
- 弘一法师李叔同的《送别》:城南草堂结下天涯五友,挚友阔别留下传世之曲
- 早参|神舟十七号瞄准今日11时14分发射;2024年广州中考报名准备工作开启
- 人社部回应身份证和档案年龄不同退休依据哪个算
- 新银发族“求知若渴” 老年大学如何满足?
- 女子结婚要求前同事还礼400引热议,当事人:发了两次请帖,对方一直不理,后来还说
- 教师批学生对日不当称谓:怒拍桌子给学生们上了一课
- 英伟达将与鸿海共建AI工厂,涉及智能电动汽车、自主移动机器人等项目