aihot  2017-05-27 22:49:56  智能硬件 |   查看评论   

 全新NVIDIA Pascal GPU加速深度学习推论

      NVIDIA(辉达)21 日宣布推出Pascal 架构深度学习平台的最新生力军NVIDIA Tesla P4 及P40 GPU 加速器与全新软体,在效能及速度提供大幅度的提升以加速赢咖4服务的推论生产作业负载。

 

      语音助理、待过滤垃圾邮件及电影与产品推荐引擎等现代赢咖4(AI)服务越来越复杂,与一年前的神经网路相比需要高出10 倍的运算。目前以CPU 为主的技术无法提供现代赢咖4服务所需要的即时回应能力,导致不佳的使用者经验。

 

      Tesla P4及P40特别针对推论设计,使用经训练的深度神经网路辨识语音、影像及文字以回应使用者和装置要求。Pascal架构GPU具备以8位元(INT8)运算为主的专门推论指令,提供比CPU快45倍的反应速度,与不到一年前推出的GPU解决方案相比则提升了4倍。

 

      Tesla P4为资料中心带来最高的能源效率,其小尺寸及最小50瓦特的低功率设计可安装于任何伺服器内,让生产作业负载推论的能源效率达CPU的40倍。在进行视讯推论作业负载时,单一伺服器里安装单颗Tesla P4即可取代13台仅采用CPU的伺服器;而包含伺服器及用电量的总持有成本则能节省达8倍。

 

      Tesla P40为深度学习作业负载带来最大的处理量。一台搭载8颗Tesla P40加速器的伺服器拥有每秒47兆次运算(TOPS)的推论效能及INT8指令,可取代140台以上的CPU伺服器的效能。若以每台CPU伺服器约5,000美元计算,可节省65万美元以上的伺服器采购成本。

 

      NVIDIA 加速运算总经理Ian Buck 表示:「有了Tesla P100 以及新推出的Tesla P4 及P40,NVIDIA 为资料中心提供唯一的端对端深度学习平台,为各大产业释放庞大的赢咖4潜力。将训练时间从数天大幅缩短至数小时,能立即解析资料,并透过赢咖4服务即时对消费者做出回应。」

 

实现更快速推论的软体工具

 

      另外与Tesla P4 及P40 推出的包含两项加速赢咖4推论的创新软体:NVIDIA TensorRT 及NVIDIA DeepStream SDK。

 

      TensorRT  为针对优化生产部署所设计的深度学习模型函式库,具有立即回应极度复杂网路的能力。透过训练过的32位元或16位元定义神经网路以及设定以降低精度的INT8运算为目的进行优化,将深度学习应用的处理量及效率极大化。

 

      NVIDIA DeepStream SDK  衔接强大的Pascal伺服器,与双CPU只能处理7个串流的运算能力相比,能即时同步解码并分析高达93个HD视讯串流。这解决赢咖4的其中一项重大挑战:处理大规模的影音内容分析以应用到如自驾车、互动式赢咖4、过滤及广告投放等领域。深度学习整合至视讯应用中让企业能提供前所未有、智能且创新的视讯服务。

 

协助客户向前迈进

 

      NVIDIA 的客户提供越来越多需要最高运算效能的创新赢咖4服务。其中台湾厂商广达持续在伺服器业务与NVIDIA 合作,从世上首座赢咖4超级电脑系统DGX-1、Facebook Big Sur 推论伺服器到搭载NVIDIA 糖果盒大小Tesla P4 轻巧1U 伺服器,皆透过该公司而得以打造出优异的产品阵容。

 

      NVIDIA 共同创办人暨执行长黄仁勋表示:「广达从早期便与我们一同致力于GPU 伺服器发展,不论想建造何种类型资料中心,透过我们与广达及云达的合作都能达成。」

 

      云达科技总经理杨晴华表示:「我们的客户相当倚重云达在超大规模、高密度融合机架式等级解决方案中的领导地位,这些解决方案通常都需要高效能的作业负载。以深度学习的应用而言,平行运算回应之间的延迟性表现十分重要,而Tesla P40 和P4 正是能表现出准确与灵敏效能的新一代GPU 解决方案。」 

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自全新NVIDIA Pascal GPU加速深度学习推论

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]