在去年底的超级可靠系统与网络国际会议(SC 2013)上,NVIDIA推出了特斯拉K40加速卡,该卡使用了开普勒架构的完整版本、2880个CUDA内核和12GB的视频内存。在今年的SC 14大会上,NVIDIA不仅获得了美国能源部的投资研发下一代超级计算机,还推出了双核设计的新一代特斯拉K80加速卡。不过它的核心很奇怪,还是开普勒架构,但却是从未见过的GK210核心,只有2496个CUDA核心,售价5000美元。
英伟达想要发布特斯拉K80的传闻之前就存在了。8月,有人从NVIDIA的司机那里发现了特斯拉K80的线索。当时认为K80基于双核GTX泰坦Z,拥有5760个CUDA内核,内存容量甚至高达24GB。不过,英伟达推出的特斯拉K80有点奇怪。24GB的内存容量是准确的,但核心不是完整的GK110,而是全新的GK210。CUDA核心数量为2496个,与之前的泰坦显卡2668个、GTX 780 Ti 2880个、GTX 780 2304个不同。
在Anandtech网站上列出的特斯拉K80规格表
从规格来看,GK210核心的特斯拉K80核心频率降低到562MHz,加速频率为875MHz,但性能却强于之前的特斯拉K40,单精度浮点性能为8.74TFLOPS,双精度浮点性能为2.91FLOPS,即使砍掉一半,GK210核心的性能似乎也比GK110核心更强。
在其他规格上,特斯拉K80确实有2x12GB的视频内存,位宽为384bit,频率为5GHz,带宽为240GB/s,也有所降低。TDP耗电300瓦,被动散热。发布价5000美元,约合人民币30620元,甚至比特斯拉K40的5499美元还便宜。
Tesk80规格和亮点
黄又在PPT上欺负英特尔处理器了。
GK210核心之谜
算上目前的GK210核心,英伟达在GK110系列中已经生产了三款不同的GK110核心。它们的完整版本是15组SMX单元和2880个CUDA内核,但细节不同,NVIDIA做了不同的调整。
Anandtech网站GK110系列核心规格表
总的来说,NVIDIA并没有改变CUDA核心数或者CUDA架构。他们改进的是SMX单元之间的内存子系统。GK110(B)的SMX单元有256KB的寄存器文件和64KB的共享缓存,GK210的大小翻了一番,有512KB的寄存器文件和128KB的共享缓存。因此,它提高了SMX单元的数据吞吐量,提高了效率,并确保CUDA内核更大。
NVIDIA之前从来没有这么做过,这也是第一次看到GPU朝着这个方向提升。也就是说,这反映了GPU市场的变化,也意味着开普勒在未来一段时间内还会继续陪伴我们。(Maxwell架构高效,但GK110在双精度设计上更强。估计拿到GM210之后我们会谈到更强的特斯拉加速卡。)
Anandtech网站制作的GK210核心示意图,非官方形式
NVIDIA希望针对HPC市场提升自己的GPU,修正勘误表,降低功耗(同时提升性能),这也是他们能以300W TDP制造双核特斯拉K80的原因(作为对比,GTX泰坦Z采用全G优艾设计网_Photoshop问答K110核心,TDP为375W)。
另一个问题是GPU Boost技术。相比消费级GPU,特斯拉K40加速卡上的GPU加速技术效果有限,受到TDP的严重限制。通常只有三种特定的加速频率,而特斯拉K80上的NVIDIA使用的是和消费级GPU相同的GPU加速技术。只要TDP允许,K80会尽可能加速。
特斯拉K80是双核设计,性能指标看似比K40高很多,但实际上并不总是比K40高,因为单个GPU的规格比K40低,基频也更低。但是K80的主要应用环境明显针对多个GPU进行了优化,所以特斯拉K80还是要快很多。
此外,高密度应用会很有趣,300瓦TDP是一个挑战。不过8 GK210显卡还是可以放在1U机架上的,所以它的FP64双精度浮点性能会超过10TFLOPS。
最后,特斯拉K80可以在——发布后上市,NVIDIA的合作伙伴也已经推出了相应的产品。虽然英伟达没有公布建议价格,但特斯拉K80的价格应该在5000美元左右,低于特斯拉K40的5500美元左右,但后者目前的价格在3900美元左右。
精彩评论