华为AI存储「求解」大模型

栏目：汽车资讯时间：2023-08-05

手机版

　　比起大模型前台的火热，人们的注意力很少关注到产业链上游。

　　毕竟，相较于ChatGPT流利的回答、丰富的趣味性，带来工作效率的提升，芯片、存储等硬件并不性感甚至略显枯燥。

　　但人们不能忽视这样一个问题：在产业分工极度明确的时代，行业进步从来不是某家厂商推动的结果，而是整条产业链的协同驱动。

　　ChatGPT惊艳全世界的背后，并非只有OpenAI 无数天才工程师日夜的技术攻坚。Nvidia的GPU、Samsung的存储器、Intel 的 CPU等硬件亦不可或缺。

　　从更底层的逻辑看，以ChatGPT为代表的大模型，本质上离不开两个要素：海量有效的数据，和强大的算力。

　　在人工智能的三架马车中，数据是生产原料，算力是基础设施，算法则是大模型的逻辑表示，三者的关系逐层递进，水乳交融。

　　毫无疑问，大模型的高楼，建立在数据和算力的基底之上。

　　如今，国内千行百业涌起大模型热潮，进入“群魔共舞”时代，谁能做出中国版的ChatGPT尚且未知。

　　但训练大模型所需要的GPU和存储器，却迎来了一次新的扩容机会。

　　今年5月底，GPU头部玩家 Nvidia 的市值突破万亿美金，昭示着大模型这场火，首先蔓延至产业链上游，让企业吃到了第一波技术红利。

　　与数据相伴相生的存储器，在大模型的推动下，也正迎来一次技术革命和市场跃迁。

　　肇始于数据大爆炸，当前的数据量正在极速增长，从TB到PB再到惊人的ZB，如何存储海量的数据，是诸多数据中心、企业必须要解决的问题。

　　另一方面，以大模型为代表的多模态AI，数据结构、类型远比单模态AI复杂，数据量也更加庞大。

　　两大趋势相互叠加，市场对于存储的增量需求呼之欲出。

　　站在微观角度，企业研发大模型要经过以下几个阶段：数据归集、数据预处理、模型训练、推理应用，每个阶段都离不开存储。

　　在数据归集阶段，大模型所需要的数据量大且种类繁多。对于存储而言，除了要扩容装下数据，更重要的是把各种非结构化的数据整合在一起，并且安全地流转，才能为企业所用。

　　这并非一件易事，因为数据格式、种类以及协议各不相同，企业需要花大量人力物力来打通壁垒，甚至建立起标准和生态，技术优势和商业地位缺一不可。

　　而到了模型训练阶段，数据的质量决定着模型的上限。

　　换句话说，大模型依赖数据并不严谨，更准确的说法，应该是依赖有效数据。

　　以往的训练模式，XPU通常直接调用所有数据进行训练。

　　但在海量数据中，并非所有数据都能用得上，一些数据的存在反而会降低模型训练效果，延长训练周期。

　　因此，在预训练阶段，可以事先做数据预处理和归集，排除这些数据“噪音”，留下干净有效的数据，以减少模型的“幻觉”。

　　更进一步，由于网络波动、XPU故障，许多大模型在训练时会中断，即Checkpoint时刻，然后重启训练。恢复过程中，训练会退回到此前的一个节点，相当于有一部分会重新训练一次，这既延长了时间，又增加了XPU功耗。

　　该问题的关键点在于，如何快速地接触到Checkpoint的数据，恢复训练，缩短时间，这对存储的并发性、带宽传输等要求极高。

　　最后一关是推理应用，大模型将直接与客户面对面，是展现模型效果最有效的窗口。

　　这个窗口关系着用户体验，因此对于大模型的响应时间要求非常之高。

　　以ChatGPT为例，在一些简单的问题上，用户提问得到回答的平均时间在10s以内。如果时间太长，用户体验将会很糟糕，并且丧失对模型的信任，乃至给予差评。

　　这反应的是大模型推理的时延现象。通常来说，模型精度相近，时延越长，体验越差。因而缩短时延，对于大模型厂商而言至关重要，类似问题其实可以在存储上做创新，进行模型优化。

　　回归第一性原理，训练大模型的几个难点，本质上都是围绕如何利用好数据这一核心命题展开。

　　存储作为数据的基础硬件，并非仅仅只是简单地记录数据，而是深刻参与到了数据归集、流转、利用等大模型训练的全流程。

　　国内大模型百家争鸣，率先胜出的却是GPU厂商Nvidia。那么，按照XPU的增长逻辑，存储也理所应当能够复制Nvidia的造富奇迹。

　　这一制胜的法门在于，存储厂商谁能抢先解耦大模型训练的痛点，谁就能占据高地，成为第一个吃螃蟹的人。

　　以往，训练模型的方法简单而粗暴：大量的数据加上人工，以及强大的算力，不断调优，提高模型精度。

　　这种大力出奇迹的方法有用，但成本极高，一度成为许多AI公司脱不掉的旧长衫。

　　事实上，在AI的三架马车之中，对任何一个环节的优化，都能降本增效。而此前的训练方法，将侧重点放在了算力方面，一些公司买了强大的XPU，训练效率确实提高了，但模型训练效果仍然较差，效率低、功耗大、精度低等问题层出不穷。

　　根本原因在于，算力只是工具，而数据才是生产要素，只提升工具而不优化数据的做法，抓错了重点。

　　这就好比，巧妇难为无米之炊，一个再精干的厨师，没有好的食材，也很难做出一道精美可口的菜肴。

　　在类似大力出奇迹的模式下，过去几年，国内的公司积累了大量的算力资源。现在面临的问题是：如何把这些算力用上，而不至于冗余、闲置，造成浪费，并且创造价值。

　　华为苏黎世研究所存储首席科学家张霁认为，在算力足够的情况下，模型训练的效率已经达到极致，如果要进一步提高效率和模型效果，需要在数据上下功夫；更进一步，则是在数据依附的存储器上做技术创新。

　　以前文提及的数据预处理为例，过去的训练方式是XPU直接调用所有的数据训练，用完之后放回存储器，这种方式存在几个问题。

　　首先，XPU调动的是所有数据，这些数据存在噪音，会影响训练效果；其次，XPU在调用、放回数据时，会增加能耗及时间；最后，由于数据量过于庞大，单靠内存远远不够，因此必须加载外存的方式来存储数据，那么数据在流转时，面临安全风险。

　　举个简单例子：

　　假设手机里有一万张照片，如何快速、准确地找到其中一张？

　　传统的方式是，打开手机文件夹，里面会显示一万张照片，如果照片分辨率过高，手机加载图片还需要时间，然后由用户一张一张比对、查找，低效而且容易出错。

　　目前比较常见的是，在手机存入照片时，存储器便已经提取照片的特征值，做好数据归集。那么当用户想要查找照片时，只需输入图片的标签，就能找到符合特征的图片，缩小了查找范围。

　　从存储的角度看，这里面的逻辑，其实是存储器做了数据预处理，当CPU在查找图片时，根据特征值，调用的是一万张图片里的一个小的数据集，因此速度快、能耗低，准确度高，并且不占用更多的计算资源。

　　对于大模型而言，上面的逻辑依然成立。

　　在存储器端，企业可以先做数据预处理，剔除无效数据（噪音），并将数据做归集整理，那么XPU在调用数据时，则只调用需要用到的数据，速度更快，效率更高，并且XPU的利用率，也得到提升。

　　并且，存储器本身直接与数据接触，是数据安全的第一关。因此在存储器上对数据进行加密、保护，也能最大限度地保证数据的安全流转。

　　如果说大力出奇迹是靠铺算力来提升模型训练效果，那么在存储器上对数据做预处理，则是从整个模型的训练流程来缩减存算成本、提高效率和精度。

　　很明显，前一种方式被广泛使用并达到了极限，后一种方式正呈星火燎原之势，开始席卷整个AI行业。

　　翻开ChatGPT的发展史，从1.0迭代到4.0，OpenAI投入了数以亿计的资金，即便是当下，训练一次的成本也高达数百万美元。

　　说到底，现阶段大模型还是一门烧钱的生意，没有强大的资金实力和人才梯队，根本上不了牌桌。

　　业界存在一个观点：通用大模型只能是大厂的游戏。但这并不意味着，非大厂企业不能够拥有自身的模型。

　　当前，在基础大模型之上，建立行业大模型，成为普遍的商业范式。

　　对于缺少AI能力的企业而言，站在巨人肩膀上，无疑是一条省时省力且省钱的捷径。

　　这些企业的比较优势在于，靠近数据，而且这些数据真实有效。

　　这一优势恰恰也是劣势：很多企业不会用这些数据。

　　为此，企业不得不与基础大模型厂商合作，将数据开放，训练模型。

　　但对于部分企业，数据安全的重要性或许更甚于数据的价值。

　　那么，如何在保证数据安全流转的情况下，又能利用好数据，激活数据价值，扩展业务？

　　答案呼之欲出：在存储器上，把企业数据，通过向量的方式，转化为模型所需要的数据。并且，基于存储器本身的安全管理，可实现数据的安全流转。

　　这样一来，企业不但可以训练行业模型，并且只需要维护这一小部分数据，入住门槛降低了；还能将数据的所有权掌握在自身手中，安全系数也升高了。

　　基于此，华为推出了两款AI存储产品：OceanStor A310 ，FusionCube A3000。

　　OceanStor A310 是一款深度学习数据湖存储产品，可以为企业训练大模型提供从“数据归集、预处理到模型训练、推理”的存储支撑。

　　具体参数方面，OceanStor A310满足多协议无损融合互通，支持96闪存盘，其带宽达到400G/秒，IOPS达到1200万，最高支持4096个节点的横向扩展。

　　同时，OceanStor A310具备存内计算能力，内置的算力可以支持AI大模型接入分散在各个地方的原始数据，并实现跨系统、跨地域、跨多云的全局统一数据视图和调度，简化数据的归集流程。

　　FusionCube A3000则是一款训/推超融合一体机，集存储、网络、计算、模型开发平台于一体，内置了OceanStor A300的存储节点，面向百亿级模型应用，并支持一站式安装部署，2小时即可部署应用，并通过蓝鲸应用商城提供业界主流大模型服务。

　　目前，华为FusionCube A3000产品既可以一站式交付，也支持集成其他的AI大模型软件，并开发算力平台、网络等。在其内置的OceanStor A300存储节点上，厂商可以集成第三方GPU、软件平台，构建适合自身的超融合节点。

　　简而言之，OceanStor A310 和 FusionCube A3000，本质上是为了解决许多企业在构建行业模型时缺乏技术支撑的难题。

　　而且，这两款产品本身适用于不同的客户，前者适用于“存”，具备通用的能力；后者提供一站式交付能力，为企业实施大模型应用降低门槛。

　　从工业社会到信息社会，伴随着新技术的发展，数据的总量呈几何级数增长。

　　如何利用好数据成为关键，而这又与存储技术息息相关，两者相互影响、互相作用。

　　当大模型这类技术开始“涌现”，市场对于新的存储架构、技术的需求骤然加快。

　　华为苏黎世研究所存储首席科学家张霁认为，在传统以XPU为计算中心的体系下，所有的数据都围绕XPU展开，在这个过程中，数据的流转会带来能耗、效率、安全等诸多问题。

　　这些问题实际上可以通过数据和控制分离，利用技术创新，让一些数据绕过CPU，直接“投喂”给GPU，一方面减少CPU负荷，另一方面提高GPU利用率，缩减整个训练过程中的流程成本。

　　“模型训练应该回归到数据本身。”雷峰网雷峰网(公众号：雷峰网)

　　雷峰网原创文章，未经授权禁止转载。详情见转载须知。

上一篇：原创《这！就是街舞》小猪和韩庚输时一起输，赢又一起赢，相爱相杀
下一篇：“大咖云集”也拯救不了的6部大烂片，部部雷人，看完该洗眼睛了

华为AI存储「求解」大模型

最近更新汽车资讯