科技观察|如何推动大模型开源生态?全球最大面向中英文语义向量模型训练数据集发布
封面新闻记者 边雪在全球的大模型竞赛中,中国已占有一席之地,而打造开源生态,推动大模型开源生态,已经成为中国业界的主流选择。9月15日,智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。这是全球最大的中、英文文本对训练数据集,数据规模达3亿对,具有规模巨大、主题丰富、数据质量高三大特征,旨在推动解决中文模型训练数据集缺乏问题,推动人工智能协同创新发展。通用语义向量模型是决定大模型性能的关键组件,可以链接外模型与外部知识;而由“关联文本”为基本元素的优质训练数据,是构建通用语义向量模型的核心要素。本次开源的MTP数据集为智源BGE中英文语义向量模型训练所用中英文数据。“语义向量模型在大模型落地产业中起到十分重要的作用,但往往被忽略了。”北京智源研究院副院长兼总工程师林咏华告诉封面新闻记者,我们希望这次大规模数据集以及语义向量模型的开源,能帮助更多团队加快实现大模型产业落地。得益于大规模、高质量的训练数据,开源可商用的智源BGE模型,自发布以来,即凭借优秀的中英文语义检索精度与整体语义表征能力成为广受社区欢迎的语义向量模型:大规模向量模型权威排行榜MTEB上排名稳居第一;在全球知名的人工智能开源社区Hugging Face累计下载量达到数十万;被LangChain等全球多个知名开源项目集成。伴随2022年末ChatGPT横空出世,全球大模型研发进入如火如荼的爆发期,而激烈的竞争与高昂的成本,也同时推动着开源崛起成为人工智能发展的关键推动力量。标志性的事件是今年5月在全球人工智能圈广为流传的一篇Google内部文件,声称“开源AI将击败谷歌和OpenAI”; 来自Meta的代表性开源模型 Llama则对当前产业发展起到至关重要的作用。作为中国大模型开源生态圈的代表机构,智源正在着力打造FlagOpen飞智大模型技术开源体系,引领共建共享大模型时代的“类Linux”开源开放生态。上线于2022年11月,正式发布于2023年2月,FlagOpen飞智大模型技术开源体系先见性地引领着中国大模型开源生态建设与发展。在今年2月的FlagOpen飞智发布会上,智源研究院院长黄铁军曾表示:“人工智能时代,开源开放生态,是唯一的出路。”黄铁军指出,智能时代需要真开源,不是安卓那样的利用开源,不是某一企业控制的开源,而是完全在开源社区发展的大家的开源,就像Linux、RISC-V和2022年完全转入开源社区的PyTorch。“大模型时代需要这样的开源,也只有这样的开源体系,成为哺育智能之树蓬勃生长的大地母亲。”除了新增的FlagEmbedding语义向量模型开源项目板块,FlagOpen还包括大模型算法、模型、数据、工具、评测等重要组成部分,致力于打造大模型时代的AI技术基础设施,未来将持续向学术界和产业界开源更为完整的大模型全栈技术。数据对大模型训练起着至关重要的基础作用。构建高质量开源数据集,特别是用于训练基础模型的开源数据集对大模型发展意义重大,然而中文社区却鲜少数据开源贡献者。日前,在2023年国家网络安全宣传周活动上,北京智源人工智能研究院院长黄铁军表示:“数据可以说是AI大模型最重要的一个要素,大家认识不同,但是总的来说几乎所有人都认为数据的质量对模型智能水平影响最高,差不多要超过60%。”智源研究院工作人员告诉封面新闻记者,智研正在持续进行包括数据在内的大模型全栈技术开源,持续贡献高质量中文数据集建设与数据资源开源开放。2021年,智源推出全球最大语料库WuDaoCorpora,开放200GB高质量低风险中文语料,由400余个产学研单位合作,已有770多个研发团队申请,为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务,有效支撑全球大模型相关研究。今年开放的最大规模、可商用、持续更新的中文开源指令数据集COIG,由来自全球40余个机构的100多名工程师共同参与,创造了跨越国界、紧密合作的全球数据开源动人故事。举报/反馈
最近更新教育平台
- 河南出台28个重点产业链行动方案
- 玉林工务段聚力抗击台风“三巴”保障安全
- 2023下半年广西英语四级考试时间具体安排
- 【邀请函】11月29日,北京物资学院2024届毕业生秋招校园双选会(第三场)
- “超级稻”亩产809公斤!江苏省第一家水韵苏米“三品一标”示范基地诞生
- 北京市第八中学京西附属小学 院士开讲“太阳风暴”向学生发出科研“邀请”
- 多地高考报名时间提前 专家:考生把握好自己的学习节奏
- 光谷一街道就业超市开17家“连锁店”,专为60、70后待岗居民“供货”
- 思政有深度,育人有温度——郑州市第四十七中学管城三中校区开展中小学“思政一体化”
- 创新风潮迭起,2023深圳国际金融科技大赛——西丽湖金融科技大学生挑战赛正式启动
- 一图读懂丨上海松江新城“十四五” 规划出炉
- 美国众议院选举第二轮投票依旧无果 众议院仍处混乱状态
- [浦东]竹园小学:长岛|弘扬科学精神,X沪东“科堂”公益科普活动激发科学梦想
- 导读:郑州妇科医院排名公布
- 第六届进博会期间,上海部分道路和区域采取临时交通管制措施
- 热搜第一,王楚钦深夜发声!
- 成人自考本科通过率高吗?
- 打造雄安家门口的名校名院 “三校一院”平稳运行
- 弘一法师李叔同的《送别》:城南草堂结下天涯五友,挚友阔别留下传世之曲
- 早参|神舟十七号瞄准今日11时14分发射;2024年广州中考报名准备工作开启
- 人社部回应身份证和档案年龄不同退休依据哪个算
- 新银发族“求知若渴” 老年大学如何满足?
- 女子结婚要求前同事还礼400引热议,当事人:发了两次请帖,对方一直不理,后来还说
- 教师批学生对日不当称谓:怒拍桌子给学生们上了一课
- 英伟达将与鸿海共建AI工厂,涉及智能电动汽车、自主移动机器人等项目