参数量再加大,百川智能发布13B中英文大模型,开源可商用|最前线
作者 | 周愚
编辑 | 邓咏仪
36氪获悉,7月11日,百川智能公司正式发布通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本,参数量达130亿。
这是自今年4月成立以来,百川智能发布的第二款通用大语言模型。6月15日,百川智能推出首款70亿参数量中英文语言模型——Baichuan-7B,36氪此前也做过报道。
预训练模型“底座”因其灵活的可定制性,适合具有一定开发能力的开发者和企业,而普通用户则更关注具有对话功能的对齐模型。本次发布13B-Base的同时,百川智能也发布了其对话模型Baichuan-13B-Chat,对开发者而言部署简单、开箱即用。
而百川智能还同时开源了Baichuan-13B-Chat的INT8和INT4两个量化版本,可以被近乎无损地部署在如3090等的消费级显卡上。
相比此前发布的Baichuan-7B,这次发布的Baichuan-13B是参数量更大的版本。Baichuan-13B在1.4万亿token数据集上训练,参数量超过LLaMA-13B 40%。
据百川智能,Baichuan-13B在C-EVAL、MMLU等中、英文领域权威评测榜单上均进行了能力测试,测试结果位于国内外大模型的前列。
在中文C-EVAL评测中,Baichuan-13B-Base、Baichuan-13B-Chat分别取得53.4分、51.5分。来源:百川智能
比如,在中文领域权威评测C-EVAL中,Baichuan-13B得分在自然科学、医学、艺术、数学等领域,超过了Meta旗下的LLaMA-13B等同尺寸的大语言模型;而在社会科学、人文科学等领域,超过了ChatGPT。
而在英文权威评测榜单MMLU上,Baichuan-13B得分则在所有领域内,超过了包括LLaMA-13B在内的所有同尺寸开源模型。Baichuan-13B-Base和ChatGPT的得分,分别达51.6分和52.1分。
Baichuan-13B在中文评测C-EVAL上的表现。来源:百川智能
Baichuan-13B在英文评测MMLU上的表现。来源:百川智能
面向中文语言模型的C-Eval评测基准,是由上海交通大学、清华大学以及爱丁堡大学联合创建,覆盖了52个来自不同行业领域的学科。 MMLU则主要是对模型的英文跨学科专业能力进行深入测试,由加州大学伯克利分校等知名高校共同打造,集合了不同领域的57个学科。
在语言模型中,上下文窗口长度对于理解和生成与特定上下文相关的文本至关重要。Baichuan-13B上下文窗口长度为4096,不同于Baichuan-7B的RoPE编码方式,Baichuan-13B使用了ALiBi位置编码技术。
该技术能够处理长上下文窗口,甚至推断超出训练期间读取数据的上下文长度,从而更好捕捉文本中上下文的相关性,做出更准确的预测或生成。
此外,为了取得在中、英两种语言中的均衡表现,Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料。
本次发布依然延续开源、可商用的原则。目前,Baichuan-13B-Base和Chat均已发布在Hugging Face、Github以及Model Scope平台上。该模型对学术研究完全开放,其他开发者在获得官方商用许可后,即可免费试用。
附项目开源地址:
Hugging Face:
预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
Github:https://github.com/baichuan-inc/Baichuan-13B
Model Scope:
预训练模型:https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/
对话模型:https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat/
最近更新教育平台
- 河南出台28个重点产业链行动方案
- 玉林工务段聚力抗击台风“三巴”保障安全
- 2023下半年广西英语四级考试时间具体安排
- 【邀请函】11月29日,北京物资学院2024届毕业生秋招校园双选会(第三场)
- “超级稻”亩产809公斤!江苏省第一家水韵苏米“三品一标”示范基地诞生
- 北京市第八中学京西附属小学 院士开讲“太阳风暴”向学生发出科研“邀请”
- 多地高考报名时间提前 专家:考生把握好自己的学习节奏
- 光谷一街道就业超市开17家“连锁店”,专为60、70后待岗居民“供货”
- 思政有深度,育人有温度——郑州市第四十七中学管城三中校区开展中小学“思政一体化”
- 创新风潮迭起,2023深圳国际金融科技大赛——西丽湖金融科技大学生挑战赛正式启动
- 一图读懂丨上海松江新城“十四五” 规划出炉
- 美国众议院选举第二轮投票依旧无果 众议院仍处混乱状态
- [浦东]竹园小学:长岛|弘扬科学精神,X沪东“科堂”公益科普活动激发科学梦想
- 导读:郑州妇科医院排名公布
- 第六届进博会期间,上海部分道路和区域采取临时交通管制措施
- 热搜第一,王楚钦深夜发声!
- 成人自考本科通过率高吗?
- 打造雄安家门口的名校名院 “三校一院”平稳运行
- 弘一法师李叔同的《送别》:城南草堂结下天涯五友,挚友阔别留下传世之曲
- 早参|神舟十七号瞄准今日11时14分发射;2024年广州中考报名准备工作开启
- 人社部回应身份证和档案年龄不同退休依据哪个算
- 新银发族“求知若渴” 老年大学如何满足?
- 女子结婚要求前同事还礼400引热议,当事人:发了两次请帖,对方一直不理,后来还说
- 教师批学生对日不当称谓:怒拍桌子给学生们上了一课
- 英伟达将与鸿海共建AI工厂,涉及智能电动汽车、自主移动机器人等项目