H100 推理性能最高提升 8 倍,英伟达发布 TensorRT
IT之家 9 月 9 日消息,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。
英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3(175 B),Llama Falcom(180 B)和 Bloom 模型。
TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。
该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。
在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。
在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。
IT之家在此附上报告原文,感兴趣的用户可以深入阅读。
举报/反馈
最近更新基础教育
- 聚焦中心任务 强化精准指导 确保第二批主题教育取得高质量好效果
- 郑州:到2025年,职业院校毕业生留郑率将超六成
- 普陀一小区拆除重建工作加速推进
- 官宣!江苏新增5所四星级高中
- 波士顿大学金融硕士排名靠前吗
- 成人自考考试地点是根据什么安排的?
- 彩色“毛衣”扮靓路边梧桐 南外师生发起“我们的梧桐”城市艺术公益活动
- 武向平院士助力首届四川省“科创筑梦”青少年科学节
- 长城热点|河南安阳滑县安罗高速高速公路建设非法取土
- 王易副校长赴广西参加定向选调生及引进高水平大学博士座谈会并看望校友
- 四川成考中遇到不会作答的题该怎么做呢?
- “外国语学院人才培养共同体联盟”在江苏科技大学组建
- 长沙市人社局前往长沙市数字技能人才公共实训基地考察
- 百姓看联播丨提速啦!坐着高铁去滑雪丨燃起来!足球小将
- 闵行专家!落户新疆这里→丨一家亲
- 严查遛狗不拴绳!郑州多个小区发布“文明养犬”提醒
- 对话高途大学生业务负责人刘文勇:AI数字人是集团三大战略之一,未来或是千亿级市场
- 北京市2023年下半年高等教育自学考试提示
- 没有大专毕业证可以自考本科吗?
- 奥运冠军自曝:需终身佩戴呼吸机!协和专家提醒,这病危险,得治!
- 这场培训,给崇明这群人送上一份“安全大餐”
- 5∶0零封法国波尔多大学女足 北师大女足挺进决赛
- 托福总成绩是多少分
- 原“暨南大学全球青年领导力研究院院长”被举报“猥亵”?本人回应称系双方自愿行为
- 前三季度五粮液继续保持稳健发展态势