最近,在北京召开的2019人工智能计算大会(AICC-2019)上,浪潮发表了主流自然语言处理(NLP)模型Transformer的最新性能测试数据。Transformer模型参数规模可达数亿,对计算、通信的要求非常高。性能数据显示,与同类服务器相比,浪潮AI服务器NF5488M5大幅提高了Transformer的训练性能,GLUE基准训练到80.4%的时间比同类产品大幅减少了67%。
浪潮AI服务器NF5488M5
人工智能正在由能看、会听的感知智能向能读、会写的认知智能迈进。由于文字是信息、思想的重要载体,如果计算机能够理解文字并能够用文字表达,那么就具备了读写能力,因而NLP被认为是认知智能的重要突破口。目前主流的NLP模型包括Transformer, Bert, GPT, XLNet等,而Bert和GPT都基于Transformer架构。Transformer被视为NLP的典型模型,2017年谷歌提出,利用自我注意力(self-attention)机制迅速并行,可以增加到非常深的深度,充分发掘DNN模型的特性,提高模型的精度。
但Transformer模型训练是一个大问题,参数规模达数亿,对计算能力的需求很大。OpenAI的Transformer模型有12层、768个隐藏单元,8个P100个GPU用8亿个单词的数据集训练40个Epoch需要1个月。背后的原因在于GPU通信的制约。TransformerAttention机制的全连接层在计算时生大量参数,更新参数梯度需要GPU之间的高速传输。同时,模型规模大,占有大量GPU,batchsize通常小,计算时间快,计算后更新参数梯度频繁,这也要求更高的GPU之间的传输速度。
浪潮AI服务器NF5488M5通过没有堵塞的GPU全连接设计,突破了Allto,Alll300GB/s的Peertoper带宽。在当前深入学习通信模型All、Reduce性能表现方面,NF5488M5的实际通信带宽可达到通常NVLink连接的GPU服务器的3倍以上。这一特性大大提高了Transformer模型在NF5488M5上的通信效率,提高了计算通信比,节省了优艾设计网_Photoshop问答整体运行时间。根据测试结果,NF5488M5大大提高了Transformer的训练性能,GLUE基准训练到80.4%的时间比采用PCIe连接的8GPU服务器短67%,比采用通常NVLink连接的8GPU服务器短31%。
Transformer训练性能测试结果
浪潮集团AIampHPC社长刘军认为,目前基于Transformer的Bert、XLNet等模型代表了NLP的发展方向,其特点是加速器之间的通信制约。测试结果表明,浪潮AI服务器NF5488M5在GPU之间的通信效率方面具有显着的领先优势,可以大幅度提高Transformer等大型AI工作负荷的训练性能,降低训练成本,加快认知智能开发和应用落地。
浪潮是人工智能计算的领导品牌,AI服务器中国市场份额保持在50%以上,与人工智能领导科学技术公司在系统和应用方面深入合作,帮助AI客户在语音、语义、图像、视频、检索、网络等方面提高数量级的应用性能。浪潮与合作伙伴共建元脑生态,共享AI计算、资源和算法三个核心平台能力,帮助行业用户开发和部署自己的行业大脑,加快产业AI化落地。
精彩评论