aihot  2017-06-18 22:40:52  深度学习 |   查看评论   
2. 硬件平台
 
  最近在多层卷积神经网络结构上取得的突破让识别任务(如大量图片分类和自动语音识别)准确率大幅提升。这些多层神经网络变得越来越大、越来越复杂,需要大量计算资源来训练和评估。然而这些需求发生在目前这样一个尴尬的时刻,商业处理器性能增长日趋缓慢,亟需新硬件平台加速。
 
  NVIDIA乘这一波深度学习爆发之势大力推进了基于 GPU 的加速方案,包括新处理器架构(Kepler、Maxwell、Pascal)、高效的加速库(cuBLAS、cuDNN)、灵活直观的训练系统(DIGITS)。当前深度学习系统已经大量使用 GPU 集群作为处理平台。
卷积神经网络的硬件加速
  从上图看出,GPU 的计算能力发展速度远远超过了同时期的CPU,一些并行计算任务在 GPU 上可以获得显著加速。
 
  使用 FPGA 也逐渐成为一种替代方案。由于 FPGA 架构灵活,研究者能够发挥模型级别优化,这是在固定架构如 GPU 上不具备的优势。FPGA 提供每瓦高性能,对于应用科学家大规模基于服务器的部署或资源受限的嵌入式应用非常有吸引力。以下为 FPGA 加速器件随时间变化情况。
 
1.低密度 FPGA(DSP 单元数目 < 500 )
 
  2009年【2】,单颗 FPGA 计算能力: < 100 GOPS。
  使用了两种不同平台:
卷积神经网络的硬件加速
2.SoC 平台(DSP 单元数目 < 1000)
  2013年【9】。
卷积神经网络的硬件加速
3.中密度 FPGA(DSP 数目 1500~3000)
    2015年【3】【4】,单颗 FPGA 计算能力:< 1 TFLOPS。
卷积神经网络的硬件加速
4.高密度 FPGA(DSP 数目 5000~10000)
  2017年(TBD),单颗 FPGA 计算能力:接近 10 TFLOPS,下图是Stratix 10 中的变精度DSP。
卷积神经网络的硬件加速
  Stratix 10 中每个变精度DSP 硬核可以独立配置为定点模式或兼容 IEEE-754 的浮点模式。上图为浮点模式,每个 DSP 硬核都包括一个单精度浮点乘法器和一个单精度浮点加法器,可以实现浮点加法、浮点乘法、浮点乘加、浮点乘累加等基本计算,非常适合 CNN 加速。
 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自【阿里集团卜居深度解析】卷积神经网络的硬件加速

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]