登录

/

注册

首页 > 科技媒体 > 媒体详情
让AI个性化而且功耗更低 IBM新型神经网络芯片算力是GPU的100倍
罗纳尔多 2018-06-16
导语

IBM近日提出的全新芯片设计可以通过在数据存储的位置执行计算来加速全连接神经网络的训练。研究人员称,这种「芯片」可以达到 GPU 280 倍的能源效率,并在同样面积上实现 100 倍的算力。

编者按:本文来自网易智能,编译:网易智能,e科网经授权转载;关注网易智能菌公众号(smartman163),获取人工智能行业分析与深度报告

【网易智能讯6月16日消息】在GPU上运行的神经网络已经在人工智能领域取得了一些惊人的进步,但这两者的合作还并不完美。IBM的研究人员希望能设计出一种专门用于运行神经网络的新的芯片,从而提供更快、更有效的替代方案。

直到本世纪初,研究人员才意识到,为视频游戏设计的GPU(图形处理单元)可以被用作硬件加速器,以运行比以前更大的神经网络。

这要归功于这些芯片能够并行进行大量计算,而不是像传统CPU那样按顺序处理它们。这对于同时计算构成深度学习神经网络的数百个神经元的权重特别有用。

GPU的引入使这一领域得到了发展,但这些芯片仍然需要将处理和存储分开,这意味着大量的时间和精力都花在了两者之间的数据传输上。这促使人们开始研究新的存储技术,这些技术能够存储和处理同一位置的权重数据,从而提高速度和能源效率。

这种新的存储设备通过调整它们的电阻水平,以模拟的形式存储数据——也就是说,数据被存储在一个连续的范围内,而不是数字存储器的二进制1和0。因为信息存储在存储单元的电导中,所以可以简单地在存储单元间传递电压并让系统通过物理方法来进行计算。

图:交叉开关非易失性存储器阵列可以通过在数据位置执行计算来加速全连接神经网络的训练。图片来源:IBM Research

但是这些设备固有的物理缺陷意味着它们的行为并不一致,这导致了目前使用它们来训练神经网络的分类精度明显低于使用GPU。

“我们可以在一个比GPU更快的系统上进行训练,但如果训练操作不那么准确,那是没有用的,”领导该项目的IBM Research博士后研究员Stefano Ambrogio在接受Singularity Hub采访时说,“到目前为止,还没有证据表明使用这些新设备能像使用GPU一样精确。”

但研究又有了新的进展。在上周发表在《自然》杂志上的一篇论文中,Ambrogio和他的同事们描述了他们是如何利用新兴的模拟记忆和更传统的电子元件组合来创造出一种芯片,这种芯片可以与GPU的精度相匹配,同时运行速度更快,能耗更少

这些新的存储技术难以训练深层神经网络的原因是,这个过程需要将每个神经元的权重进行上下数千次的刺激,直到网络完全对齐。改变这些设备的电阻需要重新配置它们的原子结构,而且每次的操作过程都不一样,Ambrogio说。这些刺激并不总是完全相同,这导致了对神经元权重的不精确的调整。

研究人员通过创造“突触单元”来解决这个问题,这些“突触单元”每一个都对应于网络中的单个神经元,同时具有长期和短期记忆。每个单元格由一对相变存储器(PCM)单元和三个晶体管以及一个电容的组合构成,PCM在电阻中存储权重数据,电容将权重数据存储为电荷。

PCM是一种“非易失性存储器”,这意味着即使没有外部电源,它也能保留存储的信息,而电容器是“易失性的”,所以只能在几毫秒内保持它的电荷。但是电容器没有PCM设备的可变性,因此可以快速而准确地编程。

当神经网络对图像进行训练以完成分类任务时,只有电容器的权重会被更新。在浏览到几千张图片后,权重数据会被转移到PCM单元进行长期存储。PCM的可变性意味着,权重数据的转移仍然有可能包含错误,但是由于该单元只是偶尔更新,所以可以在不增加系统复杂性的情况下再次检查电导。Ambrogio说,如果直接在PCM单元上进行训练,这就不可行了。

为了测试他们的设备,研究人员对他们的网络进行了一系列流行图像识别的基准测试,结果达到了与谷歌领先的神经网络软件TensorFlow相当的精确度。但重要的是,他们预测,最终构建出的芯片将比GPU的能效高280倍,而且在每平方毫米面积上实现的算力将达到CPU的100倍。值得注意的是,研究人员还没有完全构建出这一芯片。

虽然在测试中使用了真正的PCM单元,但其它组件是在计算机上模拟的。Ambrogio表示,他们希望在投入时间和精力打造完整的芯片之前,先检查一下这种方法是否可行。他说,他们决定使用真正的PCM设备,因为对这些设备的模拟还不太可靠,但其它组件的模拟技术已经很成熟了,他们有信心基于这个设计建立一个完整的芯片。

它目前也只能在全连接神经网络上与GPU竞争,在这个神经网络中,每个神经元都与上一层的神经元相连接,Ambrogio说。但实际上许多神经网络并没有完全连接,或者只有某些层完全连接在一起。

但Ambrogio说,最终的芯片将被设计成可以与GPU合作的形式,从而在处理其它连接时也能够处理全连接层的计算。他还认为,这种处理全连接层的更有效的方法可以被更广泛地应用。

这样的专用芯片能够使哪些事情成为可能?

Ambrogio说,有两个主要的应用:一是将人工智能应用到个人设备上,二是使数据中心更加高效。后者是大型科技公司的一大担忧,因为它们的服务器消耗了大量的电费。

如果直接在个人设备上应用人工智能,用户就可以不必在云端分享他们的数据,从而增加隐私性,但Ambrogio说,更令人兴奋的前景是人工智能的个性化。

他说:“在你的汽车或智能手机上应用这个神经网络,它们就能够不断地从你的经验中学习。”

“你的手机会专门针对你的声音进行个性化,你的汽车也会根据你的习惯形成独特的驾驶方式。”

文章链接:

Stefano Ambrogio, et al, "Equivalent-accuracy accelerated neural-network training using analogue memory," Nature, volume 558, pages60–67 (2018)

如若转载,请注明e科网。

如果你有好文章想发表or科研成果想展示推广,可以联系我们或免费注册拥有自己的主页

  • 神经网络
  • 人工智能
分享到
文章评论(1)
罗纳尔多[北京理工大学]

IBM 近日提出的全新芯片设计可以通过在数据存储的位置执行计算来加速全连接神经网络的训练。研究人员称,这种「芯片」可以达到 GPU 280 倍的能源效率,并在同样面积上实现 100 倍的算力。

99天前 | 回复
登陆后参加评论
作者 罗纳尔多

学生

北京理工大学

活跃作者
  • 爱因斯坦 科研工作者 北京航空航天大学 博士
  • 梅西 本科生 北京工业大学 本科
  • 金陵 本科生 北京大学 本科


发布成功!

确 定 关 闭