中国首款已流片，全球深度神经网络处理器器商业化到了哪一步

点击联系发帖人 时间：2017-02-08 07:39

嵌入式神经网络处理器

基于FPGA的人工神经网络实现方法的研究
基于FPGA的人工神经网络实现方法的研究
　　人工神经网络 (ArtifICial Neural Network，ANN)是一种类似生物神经网络的信息处理结构，它的提出是为了解决一些非线性，非平稳，复杂的实际问题。目前实现ANN还主要依靠软件程序．但是依靠程序很难达到实时性的要求。
　　神经网络在 FPGA 上实现是独立于冯·诺依曼架构，利用FPGA的并行性，在一些实时性要求很强的领域应用。通用计算机虽然编程容易，但是很多时间浪
　　人工神经网络 (ArtifICial Neural Network，ANN)是一种类似生物神经网络的信息处理结构，它的提出是为了解决一些非线性，非平稳，复杂的实际问题。目前实现ANN还主要依靠软件程序．但是依靠程序很难达到实时性的要求。
　　神经网络在 FPGA 上实现是独立于冯·诺依曼架构，利用FPGA的并行性，在一些实时性要求很强的领域应用。通用计算机虽然编程容易，但是很多时间浪费在分析指令，读出写入数据等。于是人们想利用ASIC(专用计算芯片)完成神经网络的计算任务，但是由于资源有限，这种芯片只限于实现特定的算法结构和小规模网络，而且专用芯片的制作成本很高，只适合大批量生产。
　　可编程逻辑器件FPGA的出现给IC设计行业一个很强的工具，它可以小成本的开发一些专用芯片，如果开发是成功的可以考虑流片生产。用FPGA实现神经网络比ASIC神经计算单元更容易实现，利用可编程逻辑，FPGA可以实现像软件一样的设计灵活性，特别是对于复杂网络，设计周期大大缩短，其内部的重构逻辑模块(Configurable Logic BLOCks，CLBs)包含若干逻辑单元，利用固有的可重构路径结构可以实现高效率的连接。此外，现在正在开发中的一种神经计算芯片为神经网络的实现提出了一种新的有效方法。
　　1 FPGA实现神经网络关键问题分析
　　(1)选择合适的神经网络及其拓扑结构
　　不同的神经网络有不同的应用，而且不同的网络完成知识表达的机理是不同的，某一个神经网络不是万能的．对于实际问题，首先要做的就是选择针对性的神经网络，如线性分类问题可以用简单的感知器，对于复杂的分类问题，函数逼近问题可以使用BP网络，对于一些聚类问题可以使用径向基(RBF)网络等。以BP网络结构为例，这种被广泛采用的架构由具有错误反向传播算法的多层感知器构成(Multilayer Perceptrons u-sing Back-Propagation，MLP-BP)，训练一个BP网络主要的问题就在于：训练开始之前，对于网络拓扑结构缺乏一种明确的确定方法。而进行各种拓扑结构的实验并不那么容易，因为对于每一个训练周期都要消耗很长的时间，特别是复杂的网络，更是如此；其次，对于硬件而言，最合适的网络运算法则不仅在于它达到收敛有多么快，还要考虑是否容易在硬件上实现且这种实现代价和性能如何；另外，对于同一种NN(Neural Net-work)。其拓扑结构对网络的收敛特性以及知识表达特性都有影响，一般增加网络的神经元或者神经元的层数，是可以增加网络的逼近能力，但是可能会影响网络的学习收敛情况，而且还可能会因为过适应(Overfit)而失去泛化能力。
　　(2)正确选择数值表达形式
　　精度的选择对处理密度(与耗费的硬件资源成反比)有直接影响。其中浮点数可以在计算机中表达实数，它有相对高的精度和大的动态范围，使用浮点数使得计算更为精确，但是在FPGA上实现浮点数运算是一个很大的挑战，而且会耗费很多硬件资源。尽管如此，加拿大研究人员Medhat Moussa and Shawki Arei-bi仍然实现了浮点数的运算，并进行了详细的对比分析。
　　对于MLP-BP而言，Holt and Baker凭借仿真和理论分析指出16为定点(1位标志位，3位整数位和12位小数位)是最小可允许的精度表示(指可以达到收敛)。以逻辑XOR问题为例，文献[1]中表格2．5(见表1)表明与基于FPGA的MLP-BP浮点法实现相比，定点法实现在速度上高出12倍，面积上是浮点实现的1／13，而且有更高的处理密度。
　　同时数据也说明基于FPGA的16位定点MLP-BP实现在处理密度上高于基于软件方法的MLP-BP实现，这最好地证明可重构计算方法的处理密度优势。应该说，在这种应用中浮点数远不如定点数合适。但是定点数表示的缺点在于有限精度，尽管如此，对于不同的应用选择合适的字长精度，仍然可以得到收敛。因此，目前基于FPGA的ANN大多数是使用定点数进行计算的。
　　(3)门限非线性激活函数(Non-linear activationFunction)的实现
　　ANN的知识表达特性与非线性逼近能力，有很大部分源自门限函数。在MLP网络中，门限函数大部分是非线性函数(少数是线性函数，如输出层的门限函数)，但是非线性传递函数的直接硬件实现太昂贵，目前实现门限函数的方法主要有：查表法(look-up ta-ble)、分段线性逼近、多项式近似法、有理近似法以及协调旋转数字计算机(Coordinated Rotation Digital Com-puter，CORDIC)法则，CORDIC法则实现函数的优点在于同一硬件资源能被若干个函数使用，但是性能相当差，因此较少使用。而高次多项式近似法尽管可以实现低误差近似，但是实现需要耗费较高硬件资源。相对而言，查找表法和分段线性逼近法(注意：查找表不易太大，否则速度会慢且代价也大)更适合FPGA技术实现。其中分段线性近似法以y=c1+c2x的形式描述一种线性连接组合(如图1所示)，如果线性函数的系数值为2的幂次，则激活函数可以由一系列移位和加法操作实现，许多神经元的传递函数就是这样实现的，而查找表法则是将事先计算的数值依次存储在需要查询的存储器中来实现。
　　(4)面积节省及相关问题
　　为了最小化神经元实现的面积，组成每个神经元的各个HDL算法模块的面积也应该最小。乘法器以及基本的传递函数(例如，sigmoid激活函数tanh)是最占用面积的，这类问题非常依赖于所要求的精度，尽管神经网络常并不要求很精确的计算，但是不同的应用所要求的精度不同。一般来讲，浮点运算要比定点运算需要更大的面积，比如浮点运算中的并行加法器本质上是定点运算超前加法器加上必要的逻辑块，减法器、乘法器也类似如此，这在激活函数实现方面更加突出，文献[1]中面积优化对比显示，32位浮点运算要比16位定点运算大250倍。另外，对于小型网络，分布式存储器很适合权值存放，但是对于大型网络，权值存储器不应该被放置在FPGA中，因此当ANN得到有效实现的时候，就要认真考虑存储器的存取问题。其次，神经网络应用有一个显著的缺陷：在神经计算方面，不同运算的计算时间和实现面积并不平衡。在许多标准神经模式中，计算时间的大部分用在需要乘法器和加法器的矩阵向量运算中，而很多耗费面积的运算如激活函数，又必须被实现(它们占用很少的运算时间)，而FPGA的面积是严格一定的，因此可将面积的相当一部分用来实现这些运算，以至于FPGA仅剩的一小部分却实现几乎所有的运算时间。　　(5)资源和计算速度的平衡(Trade-off)
　　对于 FPGA ，科学的设计目标应该是在满足设计时序要求(包括对设计最高频率的要求)的前提下，占用最少的芯片资源，或者在所规定的占用资源下，使设计的时序余量更大，频率更高。这两种目标充分体现了资源和速度的平衡思想。作为矛盾的两个组成部分，资源和速度的地位是不一样的。相比之下，满足时序、工作频率的要求更重要一些，当两者冲突时，采用速度优先的准则。
　　例如，ANN的FPGA实现需要各种字长的乘法器，如果可以提出一种新的运算法则，从而用FPGA实现变字长的乘法器，则可以根据需要调整字长，从而提高运算速度的可能性，其中，基于Booth Encoded opti-mized wallence tree架构(见图2)就可以得到快速高效的乘法器，这种方式实现的乘法器比现在所用的基于FPGA的乘法器的处理速度快20％)。
　　(6)亟待解决的问题
　　FPGA凭借其如同软件实现一样的灵活性，集合了硬件实现高效和并行性的优点，好像非常适合神经实现的正常需要，但是，FPGA的二维拓扑结构不能处理标准神经网络规则但复杂的连线问题，而且FPGA仍然实现很有限的逻辑门数目，相反，神经计算则需要相当耗费资源的模块(激活函数，乘法器)。这样对于FP-GA，可用的CLBs中部分将被用来增加路径容量(连线)，导致计算资源的丢失。一般的方法只能实现很小的低精度神经网络，连线问题不能依靠几个具有比特序列算法的可重构FPGA以及小面积模块(随机比特流或者频率)解决。
　　2 基于FPGA的ANN实现方法
　　经典实现方法有：
　　(1)可重构的RNN结构(Reconfigurable NeuraINetwork)
　　可重构计算是一种增加处理密度(每单元硅片面积的性能)的有效方法，且处理密度远大于用于通用计算方法，FPGA作为可重构计算的平台，可以提供如同软件一样的设计灵活性。该方法基于可扩展的脉动阵列结构、可重用的IP(Intellectual Properties)核及FPGA器件，即将要实现的神经网络算法分为几种基本运算，这些基本运算由可重构单元(Reconfigurable Cell，RC)完成，RC间以规则的方式相互连接，当神经网络变化时，只要增减Rc的数量或替换不同功能的RC就可重构成新的神经网络硬件；文献[8]中同时指出，考虑到硬件实现要以最少的硬件资源满足特定应用的性能需求，一般用神经元并行作为可重构部件的基本模式，即神经网络的各层计算可复用相同的阵列结构。
　　(2)RENCO结构
　　可重构网络计算机(Reconfigurable Network Computer，RENCO)是一种用于逻辑设计原型或可重构系统的平台，所设计的可重构系统对于工作在比特级的算法实现特别有效，比如模式匹配。RENCO的基本架构包括处理器、可重构部分(多为FPGA)以及存储器和总线部分，ALTEra公司提供的最新的RENCO在可重构部分包括近100万逻辑门，足够实现高复杂度的处理器。具体参见文献[9]。尽管如此，得到的可重构系统并非对所有的硬件实现都是优化的方法，比如不适合于浮点运算。
　　(3)随机比特流方法
　　随机比特流(StochastIC Bit Strearns)的方法是使用串行随机的方法实现一些运算操作，目的是为了节约资源和充分利用神经网络的实时性。随机算法的提出源于它的简易性，基本原理即首先将所有的输入转换成二进制随机比特流，就是任意化；然后，由数字电路组成的随机算法实现取代正常的算法；最后，随机比特流转回到正常的数值(文献[10]中有详细总结)。随机算法提供一种方法，用简单的硬件实现复杂的计算，同时又不失灵活性，而且随机实现又与现代VLSI设计和生产技术兼容。
　　FPNA实现方法：
　　凭借着简化的拓扑结构和独特的数据交换流图，FPNA(FiELD Programmable Neural Arrays)成功地解决了以简单的硬件拓扑结构有效地实现复杂的神经架构问题，是一种特别适合FPGA直接实现的神经计算范例。FPNA基于一种类似FPGA的结构：它包含一系列可以自由配置的资源，这些神经资源被定义用来实现标准神经元的计算功能，但是它们是一种自主的方式，这样通过有限的连接可以创造出许多虚拟的连线。利用这种新的神经计算理念，一个标准的但结构复杂的神经网络可以由一个简化的神经网络替代(文献[11]给出了详细的数学表示和说明)。
　　为了有个直观的理解，图3(a)表示一个简单的MLP结构；图3(b)说明通过节点间的直接连接建立虚拟连接。
　　文献[11]中的例证表明FPNA计算范例确实允许一系列给定的神经资源代替具有不同架构的标准神经网络。然而，从图4中可能并非如此，MLP架构并没有得到简化，原因在于如此简单的MLP完全没有必要，也不可能再简化。文献[12]描述了大型神经网络得到明显简化的实例。需要注意的是，FPNA是一个适应神经计算的硬件框架，而不是一种处理简化神经计算的实现方法(Field Programmable Neural Network，FPNN)。要设计一个FPNA，首先要选择一个针对应用的合适的标准神经架构，然后决定一个既适合于实现又在功能上等价于所选择神经网络的可配置FPNA，FPNA独特的计算方案在于在复杂神经网络和可用的硬件资源之间创造了一座桥梁，它适用于许多实现选择；最后，得到的FP-NA直接映射到硬件设备上，这将得益于完整的模块式实现，即对于每个神经资源，预先给定可配置模块，然后依照。FPNA硬件友好的架构进行组合。
　　3 基于FPGA的神经网络的性能评估及局限性
　　对于FPGA实现的ANN，最普遍的性能评估方法是每秒神经元乘累加的次数(Connections-Per-Sec-ond，CPS)和即每秒权值更新的次数(Connections-Updates-Per-Second，CPUS)。但是CPS和CPUS并不是适于所有的网络，如RBF径向基网络，另外，更大的CPS和CPUS值并不一定意味着更好的性能。因此，最好的性能测量方法是实际执行时间，但是仍有些问题要讨论。FPGA实现神经网络存在的一些缺点(相对于计算机软件而言)：
　　(1)FPGA上实现的神经网络大多数是计算结构，而不是认知结构(虽然现在有些人试图在FPGA上实现BP算法。但是整个的结构和时序控制变得很复杂，并且无法达到计算机软件那样的计算精度)；
　　(2)在FPGA上实现的神经网络通用性差。目前FPGA的使用者大多数都是在RTL级(寄存器传输级)编写VHDL／Verilog HDL实现数字系统，而正在兴起的Handel-C&SystEMC，可以使硬件编程者站在算法级角度，可能对以后的基于FPGA的神经网络的性能有所改善。
　　4 基于FPGA实现神经网络的发展方向
　　(1)一种基于REMAP-β实现神经网络汁算机的方法。REMAP-β可重构架构基于FPGA技术，RE-MAP-β并行计算机应用在嵌入式实时系统中，以有效提高ANN算法实现的效率，目前它的进一步发展RE-MAP-r正在探讨中。
　　(2)另一种基于FPGA实现神经网络的发展方向——系统C语言，直接在可编程硬件平台支持C／C++，使得编程更加容易。但是这个转换并不容易，因为：FPGA不是程序，而是电路。
　　5 结语
　　详细总结了FPGA实现神经网络的方法及相关问题，这里要注意，基于FPGA实现神经网络，并不是要与基于计算机软件实现一比高低，相反，在很多情况下，采用计算机软件测试神经网络的收敛情况，计算出收敛时的权值，然后通过数据口线与FPGA模块通信，把权值交给FPGA中的神经网络，使用FPGA完成现实的工作。直到现在，软件方法仍然是实现神经网络的首选。另外，对于硬件设计者(指利用FPGA或者全定制、半定制ASIC实现设计)而言，mask ASICs提供首选的方法以得到大规模、快速和完全的神经网络。现在它已经开发出了所有的新型可编程器件的嵌入式资源，以得到可以实时训练的更有用的神经网络。
型号/产品名
深圳市动能世纪科技有限公司
worldchinatrade
北京力通科信电子有限公司
深圳奥卓领航有限公司中国首款嵌入式神经网络处理器诞生已量产--相关文章
“” 的更多相关文章
中国首款嵌入式神经网络处理器星光智能一号诞生中国首款嵌入式神经网络处理器星光智能一号诞生
17:24　来源：光明网　我有话说
17:24:06来源：光明网作者：责任编辑：吴劲珉。值得一提的是，这款神经网络处理器已经成功应用于嵌入式视频监控芯片——星光智能一号（VC0758），并实现量产，该芯片可以广泛地应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。
|人工智能|NPU|深度学习。中国首款嵌入式NPU诞生:深度学习人工智能离我们还有多远？|人工智能|NPU|深度学习中国首款嵌入式NPU诞生：深度学习人工智能离我们还有多远？6月20日，中星微“数字多媒体芯片技术”国家重点实验室在京宣布，中国首款嵌入式NPU(神经网络处理器)芯片诞生，目前已应用于全球首款嵌入式视频处理芯片“星光智能一号”。此次推出的NPU，是中星微国家重点实验室为深度学习算法专门设计的处理器。
6月20日，张韵东所在的中星微 “数字多媒体芯片技术”国家重点实验室举行新闻发布会称，其发明的中国首款嵌入式神经网络处理器（NPU）芯片诞生，并已于今年3月6日实现量产。“星光智能一号”之所以能“看懂”这些信息，该实验学术委员会主任杨晓东介绍说，是因为它集成了NPU处理器内核以及国家标准音视频编解码器（SVAC Codec），是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片。
中国首款嵌入式神经网络处理器“星光一号”发布。6月20日，中星微“数字多媒体芯片技术”国家重点实验室在北京宣布，中国首款嵌入式神经网络处理器（NPU）芯片诞生，并且已于今年3月6日实现量产。6月20日，中星微“数字多媒体芯片技术”国家重点实验室在北京宣布，中国首款嵌入式神经网络处理器（NPU）芯片诞生。据国家重点实验室执行主任张韵东介绍，NPU采用了“数据驱动并行计算”架构，颠覆了传统的冯诺依曼计算机架构。
中国首款嵌入式神经网络处理器(NPU)“星光智能一号”诞生中国首款嵌入式神经网络处理器(NPU)“星光智能一号”诞生日。“星光智能一号”中国首款嵌入式神经网络处理器芯片诞生。张韵东介绍说，NPU是针对CNN的算法模型特性而专门设计的一款神经网络处理器。从技术来说，传统的摄像头芯片只有编解码器，没有NPU神经网络处理器，而“星光智能一号”则创造性地集成了NPU到编解码器中。
中国首款神经网络处理器发布：已经量产！据搜狐科技报道，今天，中星微“数字多媒体芯片技术”国家重点实验室在京宣布，中国首款嵌入式神经网络（NPU）处理器正式诞生。本次中星微展示的是型号为VC0758的国内首款芯片，其内部集成了4个NPU内核，同时其还集成了1080P@30FPS的SVAC国家标准音视频编码器，并且也能支持H.264等其他音视频标准。
6月20日，中星微“数字多媒体芯片技术”国家重点实验室在京宣布，中国首款嵌入式神经网络处理器芯片（NPU）诞生，目前已应用于全球首款嵌入式视频处理芯片“星光智能一号”。近日，中星微“数字多媒体芯片技术”国家重点实验室宣布，已研发成功了中国首款嵌入式神经网络处理器（NPU）芯片，成为全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片，并取名“星光智能一号”。
中国首款嵌入式神经网络处理器(NPU)芯片诞生，中星微踏上“智能摩尔”之路。6月，中星微“数字多媒体芯片技术”国家重点实验室也宣布，经过五年多的攻坚克难和不懈努力，中国首款嵌入式神经网络处理器(NPU)芯片诞生，并已于今年3月6日在台积电(TSMC)实现投片量产。每个NPU处理器具有4个内核，每个内核有两个数据流处理器, 每个数据流处理器具有8个长位宽或16个短位宽的单指令多数据(SIMD)运算单元。
中国首款嵌入式神经网络处理器诞生！据媒体报道，中星微“数字多媒体芯片技术”国家重点实验室周一（6月20日）在北京宣布，经过5年多的攻坚克难，中国首款嵌入式神经网络处理器（NPU）芯片诞生，并已实现量产。这种数据流类型的处理器，极大地提升了计算能力与功耗的比例，特别擅长处理视频、图像类的海量多媒体数据，使得人工智能在嵌入式机器视觉应用中可以大显身手。
半导体、电子设备：AI芯片行业迎来黄金发展期。AI芯片三种技术路线，ASIC是终端应用趋势目前适合深度学习的人工智能芯片主要有GPU、FPGA、ASIC三种技术路线。科技巨头加紧布局AI芯片，寒武纪跻身国际前列全球科技巨头都在加紧布局AI芯片，希望走在科技变革时代的前线。该领域主要龙头企业AI芯片是人工智能领域的上游，基于AI芯片的下游场景应用极为丰富，包括安防、消费电子、自动驾驶、可穿戴设备等。
带你窥探一下人工智能下的——TPU/NPU/CPU/GPU。导读：芯片也为响应人工智能和深度学习的需要，在速度和低能耗方面被提出了更高的要求，目前使用的 GPU、FPGA 均非人工智能定制芯片，天然存在局限性，除具有最明显的优势GPU外，也有不少典型人工智能专用芯片出现。GPU在人工智能中的应用十分广泛，因为这种芯片上搭载的处理核心数量多于Intel生产的传统处理器，使得它们十分适用于AI软件所需要的海量计算。
全球神经网络处理器商业化到了哪一步？被寒武纪和阿发狗带起来的“神经网络处理器NPU”，这几天因为中星微的“星光智能一号”的发布，又再度拉出来被消费一次。该NPU每个 NPU 具有 4 个内核，可以支持 Caffe、TensorFlow 等多种神经网络框架，支持 AlexNet、GoogleNet 等各类神经网络。。再回到中星微的NPU，这款基于深度学习的芯片运用在人脸识别上，最高能达到98%的准确率，超过人眼的识别率。
全球首个手机AI芯片华为麒麟970是怎么来的？计算所和华为的这一联合项目，直接催生了柏林 IFA 展上华为消费业务 CEO 余承东捏在手里供人膜拜的全球首款手机 AI 芯片——麒麟 970。而和华为早前在手机芯片上用小步快跑策略追赶老牌芯片巨头一样，它凭借敏锐的嗅觉和长远的战略眼光在手机 AI 芯片上占得一丝先机。手机用上 AI 芯片的好处不必多言，专用 AI 芯片或许可以解决华为前期试水手机人工智能时遭遇的用户隐私问题。
所有这些机构和公司的产品中，既有CPU、GPU、DSP这样的传统芯片，也有专门为深度学习而生的NPU（嵌入式神经网络处理器）。其实，英特尔和英伟达是在使用现有的比较成熟的技术去满足深度学习的需求，虽然能借助现有的非常成熟的技术，以及英特尔、英伟达这样巨大体量、市场推广以及销售能力拔得头筹，但由于众核芯片和定制版GPU在本质上来说依旧是CPU和GPU，而并非专门针对深度学习的专业芯片，这就必然带来一些天生的不足。
芯片之争：CPU、GPU、DSP、NPU，到底哪个更适用于深度学习？3、128 块 Xeon Phi 的服务器组成的系统要比单块 Xeon Phi 服务器快 50 倍，暗示着 Xeon Phi 服务器的扩展性相当好；就现阶段而言，传统芯片厂商（如CPU、GPU和DSP）对于深度学习市场非常重视，因此利用他们巨大体量和市场推广、销售能力，大力推广用这些传统芯片来进行深度学习处理，其本质上也是对现有的技术进行微调，用传统SIMD架构来适配神经网络。
笔者曾采访过杜子东博士（杜子东博士长期从事人工神经网络和脉冲神经网络处理器的研究工作，在处理器架构最好的三个国际顶级会议ISCA/MICRO/ASPLOS上发表过多篇论文，是中国计算机体系结构领域青年研究者中的翘楚），杜子东博士表示，“包括他们（IBM）在内，大家都认为他们（IBM）走错了路......”，并认为，“真北相对于寒武纪没有什么优势。硬要说有的话，那就是IBM的品牌优势和广告优势”。
“我们称IBM关注的这类模型为‘脉冲神经网络’。”北京中科寒武纪科技有限公司创始人兼CEO陈天石在接受记者采访时指出，“IBM在人造神经元方面的工作，是以新器件的方式直接模仿脉冲神经元的行为，与其前期推出的TrueNorth是一脉相承的。我们不认为它是生物神经网络，而只是理论神经科学家的一种数学模型。但生物的神经网络究竟是什么样，神经科学家都还是一知半解，IBM现在就开始模仿，可能为时过早。”
华为麒麟970详解：不止有人工智能的噱头，基带性能也追上了高通。具体参数方面，正如之前外界所传闻的那样，麒麟970采用ARM Cortex-A73四核+Cortex-A53四核的架构，大核主频为2.4GHz，小核主频为1.8GHz，虽然CPU内核沿用了之前麒麟960的架构，不过得益于10nm工艺的加持，麒麟970的能效相比麒麟960提升了20%。根华为介绍，麒麟970集成的NPU专用硬件处理单元，设计了HiAI移动计算架构，其AI性能密度大幅优于CPU和GPU。
华为麒麟970是不是真正的AI芯片？（华为官方推特介绍，“世界上第一款搭载NPU的AI芯片”）虽然华为展示出了三个常见应用方向（AR、计算机视觉、自然语言处理），还动用了开发者网页、开发者工具包、应用商店来招揽开发者，华为消费者业务CEO余承东也在发布会现场承诺，华为将打造一个开放的AI环境，开发者可以直接接入华为NPU功能，也可以通过第三方AI框架接入（目前支持TensorFlow和Caffe）。结语：我们离真正的AI芯片还有多远？
AI芯片分类。仿生类脑神经元芯片DeepSouth(深南)，第三代脉冲神经网络芯片SNN，基于STDP(spike-time-dependentplasticity)的算法构建完整的突触神经网络，由电路模拟真实生物神经元产生脉冲的仿生学芯片，通过动态分配的方法能模拟出高达5000万级别的“神经元”，功耗为传统芯片在同一任务下的几十分之一到几百分之一。寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司，拥有终端AI处理器IP和云端高性能AI芯片两条产品线。
浅谈CPU,GPU,TPU,DPU,NPU,BPU.为了解决CPU在大规模并行运算中遇到的困难， GPU应运而生，采用数量众多的计算单元和超长的流水线，如名字一样，图形处理器，GPU善于处理图像领域的运算加速。CPU、GPU微架构对比图。NPU，神经网络处理器，在电路层模拟人类神经元和突触，并且用深度学习指令集直接处理大规模的神经元和突触，一条指令完成一组神经元的处理。BPU, 大脑处理器，是由地平线科技提出的嵌入式人工智能处理器架构。
麒麟970处理器是不是比骁龙835好？麒麟970：2.4GHz 4x A73 + 1.8GHz 4x A53。而在GPU方面，麒麟970采用了Mail-G72、高通835采用了自家Adreno 540。另外，麒麟970集成了55亿颗晶体管，是世界上首款集成了NPU的芯片，在AI方面表现应该会很出色。综合来说，华为麒麟970拥有Cat.18，NPU芯片，这些高通骁龙835没有，所以，还是麒麟970好一点。
机顶盒与芯片解决方案。不难看出，解码芯片在整个成本中占有最大的比例，而且随着前端的调谐器芯片(Tuner)和解调芯片(Demodulator)的集成，以及解码芯片对更高级的音视频格式和更丰富应用的支持，解码芯片在成本中将占有更大的比例。专用SoC芯片内部除了嵌入式CPU以外，还集成了专门的硬件模块，用于音视频解码和后处理等，它一般还集成了一些外设接口，如音视频输入输出、网络连接、外部存储接口等。
针对上述三个关键问题，近十多年来，国外对新一代多媒体处理器体系结构进行了广泛的研究，有专用多媒体处理器、可编程多媒体处理器、向量处理器以及流处理器等体系结构。不仅图像处理采用向量处理器技术，当前世界上处理速度最快的超级计算机——日本 NEC的《地球仿真测试系统》，也是以0.15mm工艺实现的向量处理器为基础，由5120个向量处理器（共有640个节点，每个节点有8个向量处理器）组成的。
下一代芯片必备两大天赋：神经网络与深度学习‘深度学习’(deep learning)已经改变了计算机在现实世界中观看、倾听与认知事物的方式。Nvidia三款GPU产品进军深度学习领域。Cognivue产品管理副总裁Tom Wilson表示：“我们正开发一个非常适合深度学习应用的大规模平行图像处理架构与数据路径管理。”相对的，竞争对手的方案经常采用手动设计其嵌入式视觉SoC，以便随时保持与改变中的不同视觉算法同步。
美国太平洋时间1月5日，地平线将样机带到CES现场展示，地平线创始人、CEO余凯介绍了地平线“嵌入式人工智能”在自动驾驶领域的一系列规划，并公布了第一代嵌入式人工智能处理器架构IP——高斯架构。简单来说，本次地平线和英特尔联合展示的ADAS产品，是地平线在英特尔的FPGA平台上实现了自主研发的低功耗深度神经网络处理器架构IP，并且在上层运行了地平线自己的深度学习算法，整个嵌入式人工智能的方案设计，也都出自地平线之手。
IBM的模拟大脑芯片落户利弗莫尔国家实验室。每一个芯片都是一个由许多更小、且能与芯片上其他内核交换信息的内核组成的大集群。每一个芯片上的“神经元“都具有与另一个芯片上的神经元交换信息的能力。芯片的开发者们曾说，“我们已经开始打造模拟触突神经（neurosynaptic）的超级电脑”，“通过堆积True North的芯片，我们正在制造的这一系统将由数十万个内核，数亿个神经元以及数千亿个触突组成。”
视频监控系统研究现状与发展趋势视频监控系统研究现状与发展趋势 14:02:00 中国安防行业网关键字：视频监控,安防行业浏览量： 14近年来，随着数字图像处理技术和数字电路技术的飞速发展，图像信号的数字化和处理变得比较普遍，利用数字图像处理技术进行动态监测和现场监控都已成为现实，而且具有相当高的灵敏度和可靠性。全数字的视频监控系统，可以基于PC机或嵌入式设备构成监控系统，并进行多媒体处理。}

我就爱股票网