当前产品名称

SC-FDNN

  • 产品简述
  • 系统规格
  • 产品运用



SC-FDNN是加速云推出基于FPGA可配置深度学习网络加速引擎,为基于FPGA深度学习研究搭建了一个整体灵活高效的软硬件开发环境,极大的简化了FPGA深度学习研究的开发过程并缩短了深度学习网络FPGA实现的研发周期,降低了广大科研人员使用FPGA进行深度学习神经网络开发的技术门槛,在高性能和高灵活性之间达到了较好平衡,可灵活可配的进行FPGA深度学习网络模型搭建,同时也能获得较高的处理性能。

可以广泛应用于深度学习、机器视觉、数字信号处理、高性能计算、边缘计算、云计算等领域。

为了方便客户二次开发,我们还可以提供支持面向TensorFLow的SC-FDNN SDK开发环境,解决了传统基于CPU/GPU 的TensorFlow深度学习开发迁移到FPGA硬件加速环境的困难,提高了开发效率和产品稳定性。





系统框图


SC-FDNN


规格列表


SC-FDNN

SC-FDNN

SC-FDNN

性能指标

测试环境:采用Intel Arria 10 GX1150 2*40G, 3DDR4 12GB内存,集成1150K LE和1.3T FLOPS单精度浮点处理能力

1.VGG-16,图像规格3x224x224,32-bits单精度浮点运算,处理帧率 6.28 fps

2.VGG-16,图像规格3x448x448,32-bits单精度浮点运算,处理帧率 1.85 fps

3.Darknet-19,图像规格3x224x224,32-bits单精度浮点运算,处理帧率 26.96 fps

4.Darknet-19,图像规格3x448x448,32-bits单精度浮点运算,帧率 9.22 fps



SC-FDNN

为了满足不同客户的需求,加速云提供三个层次的深度学习加速IP:L1/L2/L3.

L1实现深度学习的基本算子:卷积、池化、全连接、非线性函数,系统的调度由软件实现,这样可以实现最灵活的深度学习库方案,但相应性能较弱。

L2实现参数可配置的CNN处理器,包括基本算子和调度器都有FPGA实现,

L3根据具体的网络实现全定制的网络加速,性能非常高,但不可以配置。常见各种模型包括:VGG16  , Lenet , YoloV2 ,Darknet19 , Resnet、LSTM、DNN等。

所有的深度学习加速IP通过软件SDK调用,SDK API接口兼容CAFFE/TensorFlow相关接口。

图片OCR应用

某电商平台每天要面对大量的客户开店和业务申请需求,需要大量的营业执照等证件审核,传统采用人工审核方法,但随着业务的增长,人工审核是不可能完成,采用深度学习的图片OCR就是一个很好的解决方案。基于深度学习的图片OCR方案包括文字定位和文字识别两部分,文字定位采用4层CNN网络,文字识别采用4层双向LSTM,由于CNN部分计算量不大,主要的计算量在LSTM,因此对LSTM部分加速。原有方案采用GPU完成,但存在两个问题:1.处理延时很大,不能满足要求 2.有些图片中的文字超长,在超长文字和一般长度文字一起送入GPU处理时一般长度文字处理时间和超长文字时间一样,这使得业务无法到达上线条件。

具体LSTM规格如下:  

SC-FDNN

加速云采用FPGA方案实现完成的双向LSTM的加速,从而满足客户要求,具体方案特性如下:

1.采用SC-OPM加速卡(半高半长:56*167mm)

2.Altera Arria 10  GX660器件,集成 660k LE和1.5T FLOPS 单精度浮点处理能力

3.四层LSTM+1层全连接,各层网络参数可以软件配置下载

4.可以实现40000T/S的流量,延时超低,数据长度可以混合长度

5.单卡只有33W

图片目标识别

目标识别在很多场景中都广泛应用如人脸识别、车牌识别、物品识别等。传统的目标识别采用机器学习的方法,随着深度学习的快速发展都采用端到端的卷积神经网络实现,从而大大提高了识别率。基于深度学习的目标识别方法也有很多种:R-CNN/Fast R-CNN,YOLOV2是一种新的目标检测的方法,该方法的特点是实现快速检测的同时还可以达到较高的识别率。相对于其他目标识别方法将目标识别任务分为目标区域和类别预测等多个流程,YOLOV2将目标区域预测和类别预测整合于单个神经网络模型中,实现在准确率较高的情况下快速目标检测与识别,更合适很多应用场景。

SC-FDNN

加速云采用FPGA方案实现深度神经网络YOLOV2(NMS是软件实现),具体方案特性如下:

1.采用SC-OPM加速卡(半高半长:56*167mm)

2.Altera Arria 10  GX660器件,集成 660k LE和1.5T FLOPS 单精度浮点处理能力

3.22层卷积,各层网络参数可以软件配置下载,1层NMS是软件实现

4.可以实现单精度浮点43帧/S,INT8 86帧/S,图像分辨率为224*224

5.单卡只有34W


Copyright ©2018 - 2020 杭州加速云信息技术有限公司 犀牛云提供企业云服务