中国首款嵌入式NPU诞生！深度学习人工智能离我们有多远？-e科网

十年前，“星光一号”横空出世，打破国外芯片产品的垄断地位，改写了中国无“芯” 的历史。在那个以“中国制造”而闻名的时期，“星光一号”的诞生，无疑是我国自主创新取得突破性进展的成功范例。此后的十年，“星光中国芯工程”陆续推出了一系列的数字多媒体芯片，取得了多项具有里程碑意义的成就。

2016年6月20日，中星微“数字多媒体芯片技术”国家重点实验室在京宣布，中国首款嵌入式NPU（神经网络处理器）芯片诞生。这款被命名为“星光智能一号”的芯片是中星微“星光中国芯”工程的最新成果，已成功在视频监控领域实现产业化，并可广泛应用于智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。

据国家重点实验室执行主任张韵东介绍，NPU颠覆了传统的冯诺依曼计算机架构，采用“数据驱动并行计算”架构，该NPU在深度学习人工智能领域达到国际先进水平。使我国视频监控行业发展由模拟时代、数字时代跨入智能时代，实现产业化并促进整体水平提升，确立了全球领先地位。这种数据流（Dataflow）类型的处理器，极大地提升了计算能力与功耗的比例，特别擅长处理视频、图像类的海量多媒体数据，使得人工智能在嵌入式机器视觉应用中可以大显身手。

中星微展示了型号为VC0758的国内首款NPU芯片产品，VC0758内部集成四个NPU内核。据称，这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片。VC0758也是率先支持国家自主标准（SVAC标准）的芯片产品。芯片集成了1080P@30fps的SVAC国家标准音视频编解码器，同时也可以支持H.264等其他视音频编码标准。

AlphGo下盘棋花电费3000美元

近年来，人工智能逐渐从科幻电影走向现实生活，在其发展历程中，两次著名的“人机大战”成为重要里程碑。1997年，IBM的超级计算机“深蓝”击败国际象棋世界冠军；今年3月，谷歌的“AlphGo”以4胜1负的成绩战胜了围棋世界冠军。

“围棋比国际象棋复杂200多个数量级。”数字多媒体芯片技术国家重点实验室执行主任张韵东表示，“深蓝”是凭借超级计算机运算能力的“蛮力”战胜了人类， “AlphGo”则是依靠模仿人脑的深度学习神经网络击败人类。

这一结果让人震撼，甚至有人担忧，电影里“终结者”是否很快会进入我们的生活？

张韵东认为，“人机大战”只是科学实验，如此高级的人工智能离普通人的生活还有一定距离。他介绍，“深蓝”的质量达到1.27吨，拥有32个CPU；“AlphGo”运行在庞大服务器集群里，下一盘棋光电费就要花掉3000美元。即使是手机里的苹果、微软等语音识别软件，所有的运算、识别也必须在后台进行。

将深度学习系统做到小型化，用在嵌入式系统中，这是中星微国家重点实验室多年来努力解决的问题。其此次发布的，正是我国首款具有深度学习功能的嵌入式NPU，其已于今年3月6日成功量产。

极大提升计算能力与功耗之比

此次推出的NPU，是中星微国家重点实验室为深度学习算法专门设计的处理器。

张韵东介绍，深度学习源于对生物人脑机理的仿生学研究，其实质是建立多层次感知层模型，从底层到高层进行识别和智能分析。与传统算法最大的不同，是它能像人脑一样学习知识。

卷积神经网络（CNN）是深度学习的重要分支，是目前机器视觉人工智能领域的研究热点。张韵东说，CNN算法需要处理海量数据和运算，传统的冯诺依曼架构CPU，在面对这种类型数据运算时已经力不从心。而其他传统处理器中，信号处理器DSP同样无法高效处理大量并行运算；图形处理器GPU是为三维图形设计，用于CNN算法功耗高、成本高，且不适合嵌入环境；可编程门阵列FPGA能灵活实现各种算法架构，但一般用于算法原型机的验证，同样存在功耗高、价格高问题。

NPU是针对CNN的算法模型特性而专门设计的一款神经网络处理器。每个NPU处理器具有4个内核（NPU Core），每个内核有两个数据流处理器（Dataflow Processor）, 每个数据流处理器具有8个长位宽或16个短位宽的SIMD（单指令多数据）运算单元。在一个时钟周期内可同时完成64个长位宽MAC运算或者128个短位宽MAC运算。每个NPU核具有38G Ops的长位宽处理能力或者76G Ops的短位宽处理能力。NPU的处理性能可以组成多核阵列来提升，也可以通过多芯片级联的方式进一步扩展，以满足更复杂的CNN网络运算的性能需求。

“每个NPU核还具有256KB Level-2 Cache，以及整块数据搬移（Block Data Access），片内数据共享（Data-sharing Between Processor Units），提升数据流的吞吐效率。” 张韵东表示，在软件方面，利用了稀疏数据优化（Optimization for Sparse Data）等特性提高计算效率。“NPU支持Caffe、TensorFlow等多种神经网络框架, 支持AlexNet、GoogleNet等各类神经网络。”

IBM、高通、谷歌等国外公司都推出了的自己的神经网络处理器，中科院在这方面也开展了研究。为此，中星微针对CNN算法和特点进行了专门设计，彻底颠覆了冯诺依曼架构，而采用全新的数据驱动并行运算架构，研发的数据流类型NPU极大提升了计算能力与功耗之比，擅长处理海量视频、图像类多媒体数据，能使人工智能在嵌入式机器视觉应用中大显身手。

给“眼睛”加上“大脑”

目前，中星微NPU其已成功集成到“星光智能一号”中，在视频监控领域实现产业化。

“如果说原来的视频处理芯片相当于眼睛，加上NPU以后就拥有了大脑。”张韵东说，“星光智能一号”包含视频信号处理、视频压缩编码模块以及神经网络处理器，是全球首颗具有如此集成度的深度学习系统级芯片。

视频监控领域对智能识别有着强烈需求。张韵东介绍，此前的技术主要存在两方面局限，一是识别准确度不高；二是传统技术需要先把海量视频数据传到后台，再在后台进行识别，无法实时得到结果。而使用了深度学习的机器视觉，对人脸识别的准确率可达98%；在嵌入人工智能后，可以当场识别，只把有用的信息传回来。

在几年前轰动全国的周克华案件中，案犯在南京被拍到，公安干警将视频信息拷贝分发给数千人的团队，对着每个摄像头进行比对，但周克华仍逃到重庆，直到再次作案后才被抓获。“如果当时有‘星光智能一号’技术，罪犯走到哪里都会被智能识别，很快就会有线索传回来。”张韵东说。除了实时搜索，该技术还能将已经拍摄的信息存在码流中，需要时可以随时根据特征检索，或是用“以图搜图”的方式，用一张图把类似的图全找出来。

除了视频监控领域，“星光智能一号”还能用于汽车无人驾驶或智能辅助，无人机自动拍摄、跟踪、避障，智能机器人理解合成语言、娱乐和陪护等方面。张韵东表示，下一步将不断探索更加接近生物人脑的工作机理方式，开发更低功耗、更高运算性能的新一代NPU。

相关阅读：

我科学家发布国际上首个深度学习指令集和首个深度学习处理器架构

（本文文字参考自：科技日报；特别声明：本文转载仅仅处于传播信息的需要，如果作者不希望被转载，请联系我们！）

如若转载，请注明e科网。

如果你有好文章想发表or科研成果想展示推广，可以联系我们或免费注册拥有自己的主页

深度学习
人工智能