10.23 7nm显卡重回矿场?BFloat16激增浮点运算性能,AMD新GPU出厂自带

Navi洁身自好之日不久矣?

自2018年大矿灾之后,即便经历了2019年夏天这一波短暂回升,区块链代币行业依然处于低迷时期。2016~2018年通过Polaris系列显卡大挖特挖的AMD矿卡家族,在2019年已经逐渐销声匿迹,新发布的Navi系列7nm显卡也罕有涉及挖矿的新闻曝出。

挖矿算力未得到革命性升级的RDNA架构,总算是免过挖矿之难

然而,GitHub(著名开源组织社区)在对AMD ROCm开发库进行调查后获悉:

AMD GPU将加入BFloat16(BF16)浮点指令的支持。此指令将比当前的FP16浮点性能获得巨大(革命性)提升。

而这一提升的幅度会是多少?ARM架构方面的测算提升幅度约为1.6~4倍,蓝厂10代CPU架构方面在NPU、AI综合增益约为2.5倍。因此,得益于大量CU(运算单元)的结构又是,GPU架构的BF16综合增益,在高级制程下Sp数量扩张之后,将有可能达到4~10倍以上(无责推)。

打算用BF16革了FP16的命,剑指何方?

AI、深度学习是已确认的CPU(包括ARM类产品)下一阶段重点发展方向,Jim Keller在换庒之后的基本操作也是将特斯拉任职期间主刀的AI、深度学习、神经网络等“手术”实验,植入第10代开始的Intel CPU上。

除此之外,主流ARM芯片企业,在今年春末纷纷确认BFloat16指令集的研发、标准策略等工作进度。看来这场又AI为主导的神经网络大升级已是待发之箭了。

AMD RX5700XT的FP16性能:19.51TFLOPS(图源AMD官网)

而AMD被曝将在“未来”的GPU上(笔者预计最快将在明年发布的RDAN2架构上)支持BF16指令集,则传达出更多隐含深意的讯息。

挖矿运算,更像穷举法的重复运算过程,运算单元越多越划算

众所周知,典型的区块链加密运算难度并不高,且运算模式重复率高。因此在多年来的经验中表明,CPU强大的复杂运算能力应对“挖矿”运算并不占优,反而是具备少则2048、多则4096(sp)的多单元GPU运算架构,对于区块链挖矿运算更胜一筹。简而言之就是,让8个数学教授去做一万道小学计算题的速度,绝对比不过2048个高中生的速度快。

而这种“低难度”的运算操作,其实就涉及到‘单精度浮点性能’,恰好,传统显卡的单精度浮点性能和FP16(峰值半精度性能)息息相关。讲到这里,读者们应该已经大概明白,数码君想表达什么了。

总结 & 预测(无责推)

AMD的显卡份额基本上就是 的,在区块链代币行业遭遇瓶颈期、传统显卡挖矿模式趋于衰退的环境下,如何保持2016~2018年长达30个月的GPU快速增长势头?光靠游戏卡或者零售、OEM大单是根本不可能的。

各GPU区块链运算相关参数一览(图例时间2018年7月)

因此,假设BFloat16获得数倍于传统FP16的性能增益,结合7nm+、大核心RDNA2架构、高达8192sp的旗舰卡皇,外加500W左右的TDP(Navi10结构推算),这张AMD显卡的算力会怎么样?

我不敢猜,我更怕的是:

获得BF16指令集增强的大批100瓦左右、2048sp的RDNA2显卡,再次重回矿场。

往事不堪回首,本文仅供解闷,咱也不懂,咱也是瞎猜~

淘数码关注数码配件优惠特价资讯,关注+转发+私信:【20196688】自动获取更多优惠信息