马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
近日,高通发布了最新的AI 芯片——骁龙855 ,凭借搭载第四代AI 人工智能引擎,骁龙855 性能提升至骁龙845 的3 倍,每秒可处理7 万亿万次运算(7TOPs ),AI 开放性更高,可以编程、有专用硬件加速器、兼容性高,高通宣称骁龙855 远超另外两家7 纳米SoC 芯片友商……2018 年AI 及AI 芯片领域的竞争不可谓不激烈,从芯片制造商、平台和基础设施提供商、模型和算法设计者,以及企业解决方案提供商、垂直工业解决方案提供商,你争我夺,在技术与市场的竞赛中难分高下。
任何技术的兴起都是市场需求、技术迭代与产业发展合力推动的结果,AI与AI芯片的变革亦是如此。AI算法对芯片运算能力的要求上升到传统芯片的百倍以上,传统处理器已无力支持智能家居、自动驾驶和智能终端等应用场景的巨大算力需求,基于传统CPU搭建出新的架构就显得迫在眉睫。随着AI技术的发展,从基础算法,底层硬件,工具框架到实际应用场景,目前人工智能已经全面开花。
回顾2018, AI芯片也取得了诸多成绩。
国际
CEVA:1月,发布了用于前端设备深度学习推理,而且功能强大的专用人工智能(AI)处理器系列NeuPro™。
英伟达:6月,发布全新AI芯片Jetson Xavier,包含了六颗处理器,每秒可执行 30 万亿次操作。
Google:7月,发布新版AI芯片微型AI加速器Edge TPU,用于边缘计算,可实现物联网设备上的机器学习模型运算。
苹果:9月,发布A12仿生芯片,采用开创性的7 纳米芯片,其CPU部分的核心数也升级到了六个,分为两大核和四小核。
AMD:11月,发布新一代Radeon Instinct MI60、Radeon Instinct MI50,均基于7nm工艺的升级版Vega架构核心,全球首个7nm GPU。
亚马逊:11月,发布首款云端AI芯片——Inferentia,其计算力将会高达几百TOPS,多芯片组合后算力可达数千TOPS。此外,Inferentia支持FP16、INT8精度,并支持TensorFlow、Caffe2、ONNX等流行机器学习框架。
高通:12月,高通正式推出支持5G的AI芯片骁龙855,是全球首款5G商用芯片。骁龙855是高通首款7nm工艺芯片,将支持5G网络上的“千兆位”数据速度,比上一代骁龙845高出三倍的AI性能,并将增加一个新的专用计算机视觉处理器ISP,用于增强计算摄影和视频捕捉。
……
国内
中科寒武纪:5月,发布新一代云端AI芯片,Cambricon MLU100云端智能芯片和板卡产品、寒武纪1M终端智能处理器IP产品。
中星微:5月,推出了第二代人工智能芯片——星光智能二号。
百度:7月,发布国内第一款云端全功能AI芯片"昆仑",其中包含训练芯片昆仑818-300,推理芯片昆仑818-100。
地平线机器人(HorizonRobotics ):10月,首次展示基于旭日2.0处理器架构的XForce边缘AI计算平台。 旭日1.0处理器去年已量产,而旭日2.0芯片预计在2018年底量产流片。
华为:9月,发布麒麟980,全球首款量产的7nm手机芯片、双NPU,实现基于ARM Cortex-A76 CPU架构进行商业开发,首款搭载最新的Mali-G76 GPU架构的移动端芯片,通信方面率先支持LTE Cat.21,峰值下载速率1.4Gbps达业内最高,摄影方面,内存方面支持全球最快的LPDDR4X颗粒,主频最高可达2133MHz。
10月,发布AI芯片昇腾910和昇腾310,昇腾910是目前单芯片计算密度最大的芯片,计算力远超谷歌及英伟达,而昇腾310芯片的最大功耗仅8W,是极致高效计算低功耗AI芯片。
……
2018年,AI芯片领国外芯片巨头占据了绝大部分市场份额,不论是在人才聚集还是公司合并等方面,都具有领先优势。同时随着人工智能芯片的持续发展,AI技术的应用领域也随时间推移而不断向多维方向发展。智能手机、ADAS(高级驾驶辅助系统)、CV(计算机视觉)设备、VR设备、机器人、语音交互设备、机器人六大方向成为目前业内的主流应用。
△AI芯片应用领域
有数据表明,到2022年为止,AI芯片市场将以每年59%的成长速度增长,届时市场规模有望达到330亿美元。在此发展过程中,AI及AI芯片还将面临哪些问题以及趋势的显露呢?
目前主流 AI芯片的核心主要是利用 MAC(Multiplier and Accumulation,乘加计算)加速阵列来实现对 CNN(卷积神经网络)中最主要的卷积运算的加速。这一代 AI 芯片主要有如下 3个方面的问题:
(1)深度学习计算所需数据量巨大,造成内存带宽成为整个系统的瓶颈,即所谓“memorywall”问题。
(2)与第一个问题相关,内存大量访问和MAC阵列的大量运算,造成AI芯片整体功耗的增加。
(3)深度学习对算力要求很高,要提升算力,最好的方法是做硬件加速,但是同时深度学习算法的发展也是日新月异,新的算法可能在已经固化的硬件加速器上无法得到很好的支持,即性能和灵活度之间的平衡问题。
可以预见,下一代 AI芯片将有如下的5个发展趋势:
趋势一:更高效的大卷积解构/ 复用 在标准 SIMD的基础上,CNN 由于其特殊的复用机制,可以进一步减少总线上的数据通信。而复用这一概念,在超大型神经网络中就显得格外重要。如何合理地分解、映射这些超大卷积到有效的硬件上成为了一个值得研究的方向。
趋势二:更低的 Inference 计算/ 存储位宽 AI 芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从 32 位浮点到16位浮点/定点、8位定点,甚至是4位定点。在理论计算领域,2位甚至1位参数位宽,都已经逐渐进入实践领域。
趋势三:更多样的存储器定制设计
当计算部件不再成为神经网络加速器的设计瓶颈时,如何减少存储器的访问延时将会成为下一个研究方向。通常,离计算越近的存储器速度越快,每字节的成本也越高,同时容量也越受限,因此新型的存储结构也将应运而生。
趋势四:更稀疏的大规模向量 神经网络虽然大,但是,实际上有很多以零为输入的情况,此时稀疏计算可以高效的减少无用能效。来自哈佛大学的团队就该问题提出了优化的五级流水线结构,在最后一级输出了触发信号。在Activation层后对下一次计算的必要性进行预先判断,如果发现这是一个稀疏节点,则触发 SKIP信号,避免乘法运算的功耗,以达到减少无用功耗的目的。
趋势五: 计算和存储一体化 计算和存储一体化(process-in-memory)技术,其要点是通过使用新型非易失性存储(如ReRAM)器件,在存储阵列里面加上神经网络计算功能,从而省去数据搬移操作,即实现了计算存储一体化的神经网络处理,在功耗性能方面可以获得显著提升。
#本文部分内容据行业报告(《2018人工智能芯片研究报告》)整理,如有侵权请联系删除;# |