TensorRT-LLM大约维持多种大型讲话模子,并在新期间软硬件集成的助力下,最高可带来8倍AI引申性能。
NVIDIA展望大型讲话模子(Large Language Model,以下简称LLM)的期骗将延长至五行八作,其期间发展也终点快速,不外跟着模子的量体抓续扩大,AI模子的部署也变的愈加复杂,且需亏本更多缱绻资源进行引申。
为了改善这个情状,NVIDIA推出TensorRT-LLM运算框架,它具有高度优化与开源等特质,并维持GPT-3、Llama、Flacon 180B、BLOOM等LLM,以及SmoothQuant、FlashAttention、fMHA等AI中枢(AI Kernel)。
此外TensorRT-LLM也维持多GPU、多结点运算,并导入大约优化责任更变的In-Flight Batching期间,还能通过Transformer引擎自动将模子转机为FP8数据法度,齐对性能弘扬存所匡助。
NVIDIA展望金融、医疗、零卖、电信、媒体、文娱、制造、动力等产业齐会导入大型讲话模子(Large Language Model,LLM)。
LLM的发展终点快速,然则也濒临部署更复杂、运算更吃资源等问题。
TensorRT-LLM是款高度优化的开源运算框架。
它维持多种LLM,并可维持多GPU、多结点运算,以及责任更变、数据法度优化。
凭据NVIDIA提供的数据,H100 GPU搭配TensorRT-LLM能带来8倍于A100 GPU的GPT-J 6B引申性能弘扬。至于Llama 2部分,H100 GPU搭配TensorRT-LLM则能带来4.6倍于A100 GPU的引申性能。
诚然说上述性能数据所使用的GPU属于不同期代家具,但看到。H100 GPU搭配TensorRT-LLM与单纯使用H100,也能带来大要1倍的性能增益,可见其软件优化依然能带来长足性能跨越。