华为AI存储「求解」大模型

栏目:汽车资讯  时间:2023-08-05
手机版

  比起大模型前台的火热,人们的注意力很少关注到产业链上游。

  毕竟,相较于ChatGPT流利的回答、丰富的趣味性,带来工作效率的提升,芯片、存储等硬件并不性感甚至略显枯燥。

  但人们不能忽视这样一个问题:在产业分工极度明确的时代,行业进步从来不是某家厂商推动的结果,而是整条产业链的协同驱动。

  ChatGPT惊艳全世界的背后,并非只有OpenAI 无数天才工程师日夜的技术攻坚。Nvidia的GPU、Samsung的存储器、Intel 的 CPU等硬件亦不可或缺。

  从更底层的逻辑看,以ChatGPT为代表的大模型,本质上离不开两个要素:海量有效的数据,和强大的算力。

  在人工智能的三架马车中,数据是生产原料,算力是基础设施,算法则是大模型的逻辑表示,三者的关系逐层递进,水乳交融。

  毫无疑问,大模型的高楼,建立在数据和算力的基底之上。

  如今,国内千行百业涌起大模型热潮,进入“群魔共舞”时代,谁能做出中国版的ChatGPT尚且未知。

  但训练大模型所需要的GPU和存储器,却迎来了一次新的扩容机会。

  今年5月底,GPU头部玩家 Nvidia 的市值突破万亿美金,昭示着大模型这场火,首先蔓延至产业链上游,让企业吃到了第一波技术红利。

  与数据相伴相生的存储器,在大模型的推动下,也正迎来一次技术革命和市场跃迁。

  肇始于数据大爆炸,当前的数据量正在极速增长,从TB到PB再到惊人的ZB,如何存储海量的数据,是诸多数据中心、企业必须要解决的问题。

  另一方面,以大模型为代表的多模态AI,数据结构、类型远比单模态AI复杂,数据量也更加庞大。

  两大趋势相互叠加,市场对于存储的增量需求呼之欲出。

  站在微观角度,企业研发大模型要经过以下几个阶段:数据归集、数据预处理、模型训练、推理应用,每个阶段都离不开存储。

  在数据归集阶段,大模型所需要的数据量大且种类繁多。对于存储而言,除了要扩容装下数据,更重要的是把各种非结构化的数据整合在一起,并且安全地流转,才能为企业所用。

  这并非一件易事,因为数据格式、种类以及协议各不相同,企业需要花大量人力物力来打通壁垒,甚至建立起标准和生态,技术优势和商业地位缺一不可。

  而到了模型训练阶段,数据的质量决定着模型的上限。

  换句话说,大模型依赖数据并不严谨,更准确的说法,应该是依赖有效数据。

  以往的训练模式,XPU通常直接调用所有数据进行训练。

  但在海量数据中,并非所有数据都能用得上,一些数据的存在反而会降低模型训练效果,延长训练周期。

  因此,在预训练阶段,可以事先做数据预处理和归集,排除这些数据“噪音”,留下干净有效的数据,以减少模型的“幻觉”。

  更进一步,由于网络波动、XPU故障,许多大模型在训练时会中断,即Checkpoint时刻,然后重启训练。恢复过程中,训练会退回到此前的一个节点,相当于有一部分会重新训练一次,这既延长了时间,又增加了XPU功耗。

  该问题的关键点在于,如何快速地接触到Checkpoint的数据,恢复训练,缩短时间,这对存储的并发性、带宽传输等要求极高。

  最后一关是推理应用,大模型将直接与客户面对面,是展现模型效果最有效的窗口。

  这个窗口关系着用户体验,因此对于大模型的响应时间要求非常之高。

  以ChatGPT为例,在一些简单的问题上,用户提问得到回答的平均时间在10s以内。如果时间太长,用户体验将会很糟糕,并且丧失对模型的信任,乃至给予差评。

  这反应的是大模型推理的时延现象。通常来说,模型精度相近,时延越长,体验越差。因而缩短时延,对于大模型厂商而言至关重要,类似问题其实可以在存储上做创新,进行模型优化。

  回归第一性原理,训练大模型的几个难点,本质上都是围绕如何利用好数据这一核心命题展开。

  存储作为数据的基础硬件,并非仅仅只是简单地记录数据,而是深刻参与到了数据归集、流转、利用等大模型训练的全流程。

  国内大模型百家争鸣,率先胜出的却是GPU厂商Nvidia。那么,按照XPU的增长逻辑,存储也理所应当能够复制Nvidia的造富奇迹。

  这一制胜的法门在于,存储厂商谁能抢先解耦大模型训练的痛点,谁就能占据高地,成为第一个吃螃蟹的人。

  以往,训练模型的方法简单而粗暴:大量的数据加上人工,以及强大的算力,不断调优,提高模型精度。

  这种大力出奇迹的方法有用,但成本极高,一度成为许多AI公司脱不掉的旧长衫。

  事实上,在AI的三架马车之中,对任何一个环节的优化,都能降本增效。而此前的训练方法,将侧重点放在了算力方面,一些公司买了强大的XPU,训练效率确实提高了,但模型训练效果仍然较差,效率低、功耗大、精度低等问题层出不穷。

  根本原因在于,算力只是工具,而数据才是生产要素,只提升工具而不优化数据的做法,抓错了重点。

  这就好比,巧妇难为无米之炊,一个再精干的厨师,没有好的食材,也很难做出一道精美可口的菜肴。

  在类似大力出奇迹的模式下,过去几年,国内的公司积累了大量的算力资源。现在面临的问题是:如何把这些算力用上,而不至于冗余、闲置,造成浪费,并且创造价值。

  华为苏黎世研究所存储首席科学家张霁认为,在算力足够的情况下,模型训练的效率已经达到极致,如果要进一步提高效率和模型效果,需要在数据上下功夫;更进一步,则是在数据依附的存储器上做技术创新。

  以前文提及的数据预处理为例,过去的训练方式是XPU直接调用所有的数据训练,用完之后放回存储器,这种方式存在几个问题。

  首先,XPU调动的是所有数据,这些数据存在噪音,会影响训练效果;其次,XPU在调用、放回数据时,会增加能耗及时间;最后,由于数据量过于庞大,单靠内存远远不够,因此必须加载外存的方式来存储数据,那么数据在流转时,面临安全风险。

  举个简单例子:

  假设手机里有一万张照片,如何快速、准确地找到其中一张?

  传统的方式是,打开手机文件夹,里面会显示一万张照片,如果照片分辨率过高,手机加载图片还需要时间,然后由用户一张一张比对、查找,低效而且容易出错。

  目前比较常见的是,在手机存入照片时,存储器便已经提取照片的特征值,做好数据归集。那么当用户想要查找照片时,只需输入图片的标签,就能找到符合特征的图片,缩小了查找范围。

  从存储的角度看,这里面的逻辑,其实是存储器做了数据预处理,当CPU在查找图片时,根据特征值,调用的是一万张图片里的一个小的数据集,因此速度快、能耗低,准确度高,并且不占用更多的计算资源。

  对于大模型而言,上面的逻辑依然成立。

  在存储器端,企业可以先做数据预处理,剔除无效数据(噪音),并将数据做归集整理,那么XPU在调用数据时,则只调用需要用到的数据,速度更快,效率更高,并且XPU的利用率,也得到提升。

  并且,存储器本身直接与数据接触,是数据安全的第一关。因此在存储器上对数据进行加密、保护,也能最大限度地保证数据的安全流转。

  如果说大力出奇迹是靠铺算力来提升模型训练效果,那么在存储器上对数据做预处理,则是从整个模型的训练流程来缩减存算成本、提高效率和精度。

  很明显,前一种方式被广泛使用并达到了极限,后一种方式正呈星火燎原之势,开始席卷整个AI行业。

  翻开ChatGPT的发展史,从1.0迭代到4.0,OpenAI投入了数以亿计的资金,即便是当下,训练一次的成本也高达数百万美元。

  说到底,现阶段大模型还是一门烧钱的生意,没有强大的资金实力和人才梯队,根本上不了牌桌。

  业界存在一个观点:通用大模型只能是大厂的游戏。但这并不意味着,非大厂企业不能够拥有自身的模型。

  当前,在基础大模型之上,建立行业大模型,成为普遍的商业范式。

  对于缺少AI能力的企业而言,站在巨人肩膀上,无疑是一条省时省力且省钱的捷径。

  这些企业的比较优势在于,靠近数据,而且这些数据真实有效。

  这一优势恰恰也是劣势:很多企业不会用这些数据。

  为此,企业不得不与基础大模型厂商合作,将数据开放,训练模型。

  但对于部分企业,数据安全的重要性或许更甚于数据的价值。

  那么,如何在保证数据安全流转的情况下,又能利用好数据,激活数据价值,扩展业务?

  答案呼之欲出:在存储器上,把企业数据,通过向量的方式,转化为模型所需要的数据。并且,基于存储器本身的安全管理,可实现数据的安全流转。

  这样一来,企业不但可以训练行业模型,并且只需要维护这一小部分数据,入住门槛降低了;还能将数据的所有权掌握在自身手中,安全系数也升高了。

  基于此,华为推出了两款AI存储产品:OceanStor A310 ,FusionCube A3000。

  OceanStor A310 是一款深度学习数据湖存储产品,可以为企业训练大模型提供从“数据归集、预处理到模型训练、推理”的存储支撑。

  具体参数方面,OceanStor A310满足多协议无损融合互通,支持96闪存盘,其带宽达到400G/秒,IOPS达到1200万,最高支持4096个节点的横向扩展。

  同时,OceanStor A310具备存内计算能力,内置的算力可以支持AI大模型接入分散在各个地方的原始数据,并实现跨系统、跨地域、跨多云的全局统一数据视图和调度,简化数据的归集流程。

  FusionCube A3000则是一款训/推超融合一体机,集存储、网络、计算、模型开发平台于一体,内置了OceanStor A300的存储节点,面向百亿级模型应用,并支持一站式安装部署,2小时即可部署应用,并通过蓝鲸应用商城提供业界主流大模型服务。

  目前,华为FusionCube A3000产品既可以一站式交付,也支持集成其他的AI大模型软件,并开发算力平台、网络等。在其内置的OceanStor A300存储节点上,厂商可以集成第三方GPU、软件平台,构建适合自身的超融合节点。

  简而言之,OceanStor A310 和 FusionCube A3000,本质上是为了解决许多企业在构建行业模型时缺乏技术支撑的难题。

  而且,这两款产品本身适用于不同的客户,前者适用于“存”,具备通用的能力;后者提供一站式交付能力,为企业实施大模型应用降低门槛。

  从工业社会到信息社会,伴随着新技术的发展,数据的总量呈几何级数增长。

  如何利用好数据成为关键,而这又与存储技术息息相关,两者相互影响、互相作用。

  当大模型这类技术开始“涌现”,市场对于新的存储架构、技术的需求骤然加快。

  华为苏黎世研究所存储首席科学家张霁认为,在传统以XPU为计算中心的体系下,所有的数据都围绕XPU展开,在这个过程中,数据的流转会带来能耗、效率、安全等诸多问题。

  这些问题实际上可以通过数据和控制分离,利用技术创新,让一些数据绕过CPU,直接“投喂”给GPU,一方面减少CPU负荷,另一方面提高GPU利用率,缩减整个训练过程中的流程成本。

  “模型训练应该回归到数据本身。”雷峰网雷峰网(公众号:雷峰网)

  雷峰网原创文章,未经授权禁止转载。详情见转载须知。

上一篇:原创《这!就是街舞》小猪和韩庚输时一起输,赢又一起赢,相爱相杀
下一篇:“大咖云集”也拯救不了的6部大烂片,部部雷人,看完该洗眼睛了