看软件调优多重要:H100性能可达A100的8倍!
近日,英伟达官宣了一个新软件神器“TensorRT-LLM”,其提供LLM的优化能力,旨在推动AI推理性能的新性能极限。
H100性能可达A100的8倍
话不多少,先看成果。英伟达把这一神器的应用成果记录在了其自己的博客文章《NVIDIA TensorRT-LLM Supercharges Large Language Model Inference on NVIDIA H100 GPUs》中。
上图显示,在8月份进行的测试中,从运行普通TensorRT推理引擎的A100到运行相同TensorRT堆栈的H100,性能提升了4倍多一点。现在,基于TensorRT-LLM的优化,H100的性能现几乎相当于A100的8倍性能。顺便说一下,这个特殊的基准测试是GPT-J-6B使用可变长度I/O和CNN/DailyMail数据集完成的文本摘要。A100使用FP16数据分辨率,PyTorch工作在期望模式下,H100使用了FP8数据分辨率和被称为“in-flight”的批处理技术。
上图使用了Meta平台目前的最为高端的大模型: 700亿个参数的Llama-2 LLM,并使用相同的可变长度I/O和相同的CNN/DailyMail数据集处理文本摘要。在Llama 2上,与A100 GPU相比,TensorRT-LLM可以将H100推理性能提高4.6倍。
TensorRT-LLM软件优化能力体现在哪里
如今GAI大型语言模型由于其令人印象深刻的能力而变得更为流行,人工智能的研究范围在不断扩大。越来越多的行业正在探索其在业务上的落地。
作为当今主要的大模型硬件基础设施供应商的英伟达,其对探索人工智能新的性能突破,一直吊足了业界的胃口,例如对于明年是否可以交付的GH200。不过,当通过调整算法来从硬件中中获得更为好的性能,也是应是一种值得重视的做法。
英伟达超大规模和高性能计算副总裁Ian Buck曾表示:“LLM推理正变得越来越困难。,模型变得越来越复杂,随着它们变得越来越智能,它们也变得越来越大,这是很自然的,但随着它们的扩展超出了单个GPU的范围,必须在多个GPU上运行,这就成了一个问题。”
随着模型生态系统的迅速扩展,模型变得越来越大,功能也越来越多。这也意味着它们变得如此之大,以至于单个GPU无法容纳它们,必须将它们分开。开发人员和工程师必须手动将它们分开,或分割他们的工作负载并协调执行,以便实时获得响应。TensorRT-LLM通过“张量并行性”帮助解决了这个问题,它允许跨多个GPU进行大规模的高效推理。
除此之外,英伟达还在文章中介绍,单个模型可以同时用于各种看起来非常不同的任务。从聊天机器人中的简单问答响应到文档摘要或长代码块的生成,工作负载是高度动态的,输出的大小会变化几个数量级。这种多功能性可能会使批处理请求和有效地并行执行它们变得困难(这是服务神经网络的一种常见优化),这可能导致一些请求比其他请求完成得早得多。为了管理这些动态负载,TensorRT-LLM包括一种称为in-flight批处理的优化调度技术。这利用了这样一个事实,即LLM的整个文本生成过程可以分解为模型上的多个执行迭代。
使用实时批处理,TensorRT-LLM运行时将立即从批处理中驱逐完成的序列,而不是等待整个批处理完成后再转到下一组请求。然后,当其他请求仍在运行时,它开始执行新的请求。in-flight的批处理和额外的内核级优化可以提高GPU使用率,并在H100 Tensor Core GPU上的实际LLM请求基准测试中将吞吐量最低提高一倍,有助于降低能源成本并最大限度地降低TCO。
TensorRT-LLM是一个在NVIDIA Tensor Core GPU上运行的开源库,可提高LLM推理性能的特性包括令牌流、在线批处理、页面关注和量化。该软件还适配处理诸多头部大模型,如Meta Llama 2, OpenAI GPT-4, Falcon, Mosaic MPT, BLOOM等。例如,MosaicML在之上无缝地添加了它需要的特定特性,并将它们集成到它们的推理服务中。它还集成了TensorRT深度学习编译器,优化的内核以及预处理和后处理工具。通过一个开源的模块化Python API提高了易用性和可扩展性,用于定义、优化和执行新的架构,并随着LLM的发展而增强,并且可以轻松定制。对于开发人员,一个突出的特点是,开发人员不需要深入了解c++或NVIDIA CUDA就可使用。
英伟达表示,LLM正在重塑数据中心和人工智能培训在公司财务报表中的体现方式。借助TensorRT-LLM,英伟达的目标是让企业能够开发复杂的生成式人工智能,而不会导致总拥有成本激增。
英伟达的TensorRT-LLM目前可供在开发人员计划中注册的人员提前使用。更广泛的发布预计将在未来几周内发布。
上一篇:四川50所学校入围急救教育试点学校名单
下一篇:搞科研殚精竭虑 育桃李芬芳满园
最近更新教育培训
- 丰林县:打好“组合拳” 稳岗促就业
- 进城务工人员随迁子女可在北京参加高职招考!今天17时截止——
- 政策|促进负责任创新与隐私保护:《科技伦理审查办法(试行)》解读
- 湖北教育行业微信9月TOP30榜:“湖北民族大学”等8个账号新晋榜单
- 晒课堂常规 看星湖学校促师生习惯养成
- “乡”味浓浓,侨后代千里返乡学潮菜
- 房车资讯:房车买个什么车好?正犹豫的你,请收下本篇测评!
- 张家界市总工会女职工芙蓉公益讲堂送课到永定区教师进修学校
- 广东2024年普通高考报名百问百答(一)
- “首批二孩”集中入学 看银川如何从容应对
- 【理通三迤】好品德造就干部好风尚
- 长春职业技术学院探索职教援外新路径
- 排名公开:贵阳精神病医院2023排名10月详情榜单
- 亳州教师勇救落水青年 彰显师者大爱
- 贵州省2023年下半年高等教育自学考试考前提示
- 10月17日起,贵州省2023年度全国社会工作者职业资格证书(纸质)可以领取啦!
- 四川北川:“羌山领头羊”计划让中学生成为科学实验的“研究者”
- 山东代表寄语妇女十三大丨刘莉:让巾帼之力在乡村振兴路上更加出彩
- “只要有孩子来读书,我就不会放弃”
- 原创国乒世界排名洗牌!王楚钦3项第1,张本智和暴跌,马龙第3难保
- 68125亿元!同比增长6%!山东前三季度“成绩单”出炉
- 文教融合共创未来
- 生态环境部、市场监管总局联合发布《温室气体自愿减排交易管理办法(试行)》
- 约老师轰22+12+7,掘金险胜灰熊!罗斯梦回巅峰,穆雷只打关键球
- 定档12月31日!2023深圳宝安马拉松报名今日开启