Meta硬刚OpenAI,国产“小模型”官宣开源,“百模大战”走向何方?
今年以来,全球互联网大厂掀起“百模大战”,微软、谷歌、百度、阿里等接连下场。经过半年多的竞争,科技巨头们围绕大模型生态正迎来新一轮道路之争:面对参数“天花板”,大模型的未来走向封闭还是开放?
开源模型可在家用电脑运行
8月3日,国内ai开发者社区“魔搭”(modelscope)上架两款开源模型qwen-7b和qwen-7b-chat,分别为阿里云通义千问的70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。
据介绍,通义千问qwen-7b是支持中英等多种语言的基座模型,在超过2万亿token(文本单位)数据集上训练,而qwen-7b-chat是基于基座模型的中英文对话模型,已达到人类的认知水平。简而言之,前者好比“地基”,后者是地基之上的“房屋”。
经过实际测试显示,qwen-7b模型的综合表现不俗。其中在英文能力测评基准mmlu上,得分普遍高于同等参数规模的主流模型,甚至赶超120亿、130亿参数规模的部分模型。而在中文评测c-eval验证集上,该模型也取得了同等规模的最高分。在数学解题能力评测gsm8k和代码能力评测humaneval方面,qwen-7b模型表现也名列前茅。
也就是说,在中英文写作、数学解题以及写代码等考试中,qwen-7b模型妥妥是一名“学霸”,分数甚至超过同等参数级别的国际主流大模型。
除此之外,业界更关心qwen-7b模型的易用性。众所周知,主流大模型的训练和运行需要专门的ai训练芯片(如英伟达a100),这些芯片不仅售价昂贵,每块英伟达a100售价高达1万—1.5万美元,而且被欧美等国家垄断,国内几乎无法购买。而国产qwen-7b模型支持消费级显卡上部署,相当于高性能的家用电脑就能运行该模型。
得益于免费商用加上低门槛,qwen-7b模型的上架,引起了ai开发者的关注。短短一天,在代码托管平台github上,qwen-7b模型已被千余名开发者标星收藏,绝大多数提问者均为中文开发者。正如阿里云在声明中所说:“相比英文世界热闹的ai开源生态,中文社区缺少优秀的基座模型。通义千问的加入有望为开源社区提供更多选择,推动中国ai开源生态建设。”
开源还是封闭
事实上,qwen-7b模型并非首款开源的大模型,其实chatgpt的“前辈”gpt-2也是彻底开源的,其代码和框架在互联网上均可免费使用,还有相关论文可供查阅。而openai在chatgpt火遍全球之后选择了闭源发展,gpt-3和gpt-4等模型代码已成为openai的商业机密。
所谓开源,就是开放源代码。比如大模型一旦宣布开源后,在版权限制范围内,任何人都可以公开获取模型源代码,并进行修改甚至重新开发。打个简单的比方,源代码就像是一幅画的底稿,所有人可以照着底稿填色创造自己的艺术画作。
闭源与开源正好相反,只有源代码所有者(通常是软件开发商)掌握代码修改的权力,其他人没办法获取“底稿”,只能向软件开发商购买成品。
开源和闭源的优劣都非常明显。大模型开源后无疑会吸引更多开发者,大模型的应用也将更加丰富,但相应的监管和商业化将成为难题,容易出现“替人做嫁衣”的尴尬局面。毕竟,开源考虑的是生态共荣,到底能赚多少钱的经济账,这一阶段很难算清楚,而这些难题恰好是闭源的机遇。
开源还是闭源,这是一道大模型的生死题,国际巨头已给出答案。
facebook母公司meta在上个月发布了大模型llama2,开源免费给开发者和商业伙伴使用,而openai则坚定地选择了gpt-4闭源发展,不仅能保持openai在生成式ai行业的领先地位,还能赚取更多营收。根据权威杂志《fast company》预测,openai在2023年的收入将达到2亿美元,包括提供api数据接口服务、聊天机器人订阅服务费等。
国内大模型也逐渐开始“分道扬镳”。阿里云的通义大模型早在今年4月宣布向企业开放,qwen-7b模型的开源将开放之路走得更远一些。百度的文心一言也在近期宣布,将逐步开放插件生态给第三方开发者,帮助开发者基于文心大模型打造自己的应用。
相比之下,华为则不走寻常路。在发布盘古大模型3.0时,华为云公开表示,盘古大模型全栈技术均由华为自主创新的,没有采用任何开源技术,同时盘古大模型将聚集无数行业大数据(涉及行业机密等),因此盘古大模型在未来也不会开源。
大参数还是小而美
除此之外,qwen-7b模型的开源,还带来了另一个思考:我们到底需要多大参数的大模型?
不可否认,大模型的参数规模正在不断膨胀。以openai旗下的gpt大模型为例,gpt-1仅包含1.17亿参数,gpt-3的参数已经高达1750亿,几年时间内增长了1000多倍,而gpt-4的参数已超过万亿级别。
国内大模型亦是如此。百度文心大模型为2600亿参数,腾讯混元大模型达到千亿级参数,华为盘古大模型参数规模推测接近gpt-3.5,阿里通义大模型官宣已达10万亿参数……据不完全统计,中国10亿参数规模以上的大模型至少有79个。
遗憾的是,参数越大并不代表大模型的能力越强。在世界人工智能大会上,腾讯云副总裁吴运声有一个很恰当的比喻:“就像运动员练体力,举重运动员要举200斤杠铃,游泳运动员举100斤就够了,不同类型的运动员不需要每个人都练习200斤重的杠铃。”
众所周知,大模型的参数越高,消耗的资源和成本也越相应增加。而深耕行业的垂直类大模型,并不需要一味追求“规模大”或是“参数高”,更应该根据客户需求制定相关的模型参数。比如生物大模型biogpt-large仅有15亿参数,而在生物医学专业测试中的准确率,却优于千亿级别参数的通用大模型。
openai联合创始人sam altman也公开表示,openai正接近llm(大型语言模型)规模的极限,规模越大并不一定意味着模型越好,参数规模不再是衡量模型质量的重要指标。
火山引擎智能算法负责人吴迪也有类似观点,长期来看,降低成本将成为大模型应用落地的重要因素,“一个经过良好精调的中小规格模型,在特定工作上的表现可能不亚于通用大模型,而成本可能仅为原来的十分之一。”
当下,国内科技大厂几乎都拿到了大模型的入场券,但真正的道路抉择才刚开始。
栏目主编:李晔
本文作者:查睿
题图来源:图虫
图片编辑:笪曦
上一篇:2023“范长江行动
下一篇:西安扩大国际交流“朋友圈”!
最近更新未来教育
- 打通通关“最后一公里”,青岛海关助力即墨服装产业发展擦亮“针织名城”名片
- 「人社日课·10月20日」试用期未签劳动合同,劳动关系成立吗?
- 还没入学就做课题?大工这波操作很有“未来感”!
- 宜都荣膺“全国生态文明建设示范区”称号
- 海报时评丨口碑是“好客山东”最好的名片
- 新时代 新征程 新伟业丨喜看豫东好“枫”景——商丘市坚持和发展新时代“枫桥经验”
- “以每一位学生成长为中心”培养创新型人才
- 新电商赋能开启“数智新时代” 数字化平台从业者达2.4亿人
- 绿色航空制造业发展纲要发布 相关产业链迎重大发展机遇
- 上海宝山180米、150米超高层项目已开工,轨交江杨南路站将建地铁TOD
- 做细做实“三个强化” 提升老干部归属感、幸福感、使命感
- 68所网络教育都有什么学校 网教有什么优势
- 26岁女孩咳嗽咳痰,以为是感冒,没想到是心脏出了大问题,万分凶险!
- 湖南怀化:房企可给予备案价下浮20%优惠 公积金贷款金额提升至60万
- 自学考试考籍办理要求是什么?
- 全国职业院校技能大赛区块链技术应用赛河北保定开赛
- 银龄教师发展 提质增量为要
- 科德教育三季度净利润增58.2%,中昊芯英已成参股公司
- 紧密团
- 福建省固定资产投资持续向好 前三季度全省投资同比增长3.0%
- 上海已步入重度老龄化阶段!60岁及以上户籍老年人553.66万人 占户籍总人口的
- 相聚医圣故里,感受仲景文化,探析交流医药零售发展新挑战
- 不忘初心 牢记使命
- 是新生,也是新市民!这所大学的始业教育别样精彩
- 计划3