深度学习仍然“完全受制于硬件”?换个角度看 未必FLOPS=性能

在机器学习中,数据科学家们面临的依然是选择缩减模型或输入的尺寸/大小,以适应设备的内存限制。当今庞大的GPU或TPU计算平台可以达到数十甚至数百Teraflops(每秒万亿次浮点运算)的性能,但无法真正解决这个内存问题。那受制于硬件的深度学习是否还有其它突破路径吗?

深度学习初创公司Neural Magic的首席商务官Bryan House提出新逻辑:未必高吞吐量=高性能,注重算法效率很重要。

深度学习仍然“完全受制于硬件”?换个角度看 未必FLOPS=性能

高吞吐量的突破难题

“深度学习硬件与大脑一样注重吞吐量计算,其中更多的计算能力等同于更好的性能”这是不满足于现有内存容量的机器学习行业刻板认识。并且,用每个周期的FLOPS来衡量性能已成为了行业标准,而生成这些FLOPS的加速器可运行数千个并行计算核心,这就需要昂贵且大小有限的HBM内存。如果说深度学习的硬件是模仿人类大脑,但人类大脑实际上不是吞吐量设备,且计算稀疏。另外,如今的模型本身效率有限,往往可以通过大大简化模型,并降低操作的精度,却仍能获得同样的准确性。所以,为低效的算法提高FLOPS亦是浪费。

深度学习仍然“完全受制于硬件”?换个角度看 未必FLOPS=性能

忘记吞吐量,着眼性能+专注算法

要改变当前基于吞吐量=性能这个前提的行业逻辑不会很容易,但是其他行业面临类似的挑战:更多的原始算力(或更多同样的算力度量指标)未必是最佳方法。灯泡(瓦数)就是一个很贴切的例子——瓦数更高的灯泡vs效率更高的灯泡。几十年来,瓦特是度量灯泡输出的一个已被接受的指标。人们普遍认为,白炽灯泡瓦数越高,亮度就越高、功率就越强——完全忽略了效率低下的问题(还发热!)。然而,随着更高效的LED灯出现,瓦数较低的灯泡可用来获得与瓦数较高的白炽灯泡相似的性能基准。如果解决办法仍然是制造瓦数越来越高的灯泡,我们可能会让世界着火(真是如此)。为了加快机器学习领域发展,我们必须愿意检验我们的假设,即由FLOPS衡量的更高吞吐量是数据科学家们使用更大模型或更大文件获得性能的唯一途径。敢于质疑衡量标准,将是深度学习突破的关键。


分享到:


相關文章: