NPU大算力技术分析

发布时间 2023-04-07 03:49:54作者: 吴建明wujianming

NPU大算力技术分析

GPT-4发布,NPU大时代来临?

 

 

 近日,继爆火的ChatGPT之后,人工智能实验室OpenAI又震撼发布了大型多模态模型GPT-4,该自然语言模型相较于ChatGPT发布时采用的GPT-3.5模型实现了人工智能技术的又一升级,可以接受图像和文本输入,提供文本输出。

 

 

 据悉,如果拍一张照片上传给GPT-4,

它就可以立马生成网站的HTML代码!

ChatGPT本质上是一种深度神经网络模型,属于深度学习框架。基于Transformer技术,有着大量复杂计算需求,算力消耗非常巨大,需要强大的AI芯片提供算力基础。

在计算机领域中CPU作为核心领导部件可谓元老级别,它可以进行多任务管理,擅长逻辑控制,但事儿多总有力不从心的时候,它的计算能力并不强。GPU虽然在并行计算上尽显优势,但是随着性能提高,它的体积、功耗和价格也随之增长,对于一些小型设备来说无法使用。

在人工智能兴起的当下,专门为AI应用所定制的计算平台— NPU应运而生,它不仅体积小、功耗低、而且计算性能和效率都比GPU高。目前广泛用于加速AI任务的性能,如图像识别分类、语音识别、智能驾驶等。

与NPU技术相关的前情提要

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 左右滑动查看更多

人工智能场景下

对NPU的需求不断提升

市场需求

NPU易于开发、低成本、高性能和低功耗优势随着人工智能应用场景的落地将逐渐凸显。IDC预测,到2025年中国加速服务器市场规模将达到108.6亿美元,其中包括NPU在内的非GPU服务器市场规模将达到25.6亿美元。

人工智能应用场景的各种特殊功能也更加清晰,我们可以看到不同场景对于算力、功耗、成本和可靠性的不同需求。

 

 图源:中国科技信息

行业需求

智能驾驶:目前自动驾驶系统按照高低分为L1-L5级别,逐步从解放双脚、解放双手、解放双眼、解放大脑到最终的无人驾驶状态。级别越高,数据采集量和传输量也就越大,对芯片计算能力以及实际应用性能要求提高。

智能机器人:智能机器人的需求繁杂,需要结合应用场景做出准确的判断。因此,机器视觉需要在极短时间内处理大量信息来进行复杂的物体识别和分类,不断对算力提出更高需求,同时还要实现高性能、低功耗、低延时的目标。

智能安防:公共场所中摄像头已无处不在,无论是新装的智能化摄像头还是用来改造升级的AI计算盒子,针对摄像头采集的人、车、物及行为识别等大量图像/视频信息都需要NPU来支持相关算法的处理分析。

酷芯NPU如何解决?

 

 

 最高支持128Tops算力 

满足多场景应用

酷芯NPU支持1-128Tops算力范围,覆盖智能安防、智能机器人、智能驾驶等多场景。

在汽车领域中,随着各种摄像头、毫米波雷达、激光雷达等传感器上车,由此采集的大量信息需要被快速建模处理,从而实时感知周围的环境做出决策。酷芯NPU Gen 4将提供高达128Tops的算力,为自动驾驶提供更高阶的安全支持。

多核更灵活  响应更多需求

算法、算力和数据是人工智能的三要素,算法的创新、算力的增强和数据的累积三者形成正循环,从而决定人工智能的智力不断突破。

算力作为算法的支撑,酷芯NPU Gen4支持多核NPU,可以支持比单核更复杂的算法,适合在大算力下高并行负载。多核神经网络处理器主要由多个单核NPU构成,它们之间通过专用内部互联系统连接。

 

 

 多精度覆盖  量化能力更强

酷芯NPU从Gen1支持8bit/16bit/浮点三种精度,到Gen 2可支持8bit/16bit混合精度,目前Gen 4拓展至更低精度2bit/4bit。精度的降低意味着可以将原本较高精度占用的存储空间在进行量化后大量减少对内存的使用,同时也降低对带宽的占用率。

另外很多层级中的计算其实并不需要高精度。减少计算所需要的数据精度,可以实现只需要较低精度就可以完成高质量的量化,以此降低能耗,提高能效比。并且还可以动态切换计算精度,对应的神经网络的计算能力可以满足大多数应用的需求。

 

 

 酷芯NPU计算效率对比

支持稀疏计算  提高MAC利用率

有效利用NPU的一个重要挑战是实现高资源利用率,减少非必要的运算,酷芯NPU支持结构化/非结构化稀疏计算,可以裁剪计算中的0值或模型中最不重要部分的冗余,就可以保证降低不必要的存储和计算,提升机器学习模型部署时的性能。

 除此之外,酷芯NPU支持多种深度学习框架以及上百种算子,具备更强的平台兼容性和网络适配性。

 

 

 在人工智能领域,GPU在大模型运算方面极具优势,而NPU以其低功耗、高算力将深度学习系统做到小型化,使人工智能在嵌入式机器视觉应用中大放异彩。随着未来对高性能计算领域的更高要求,NPU具有巨大的发展潜力。

AI大算力场景加速发展,NPU如何破局?

 

 

 ChatGPT和GPT-4等大规模语言模型的走红,迅速点燃了舆论对人工智能的热情,也让人工智能芯片受到产业界的强烈关注。相比CPU、GPU等通用芯片,NPU(神经网络处理器)能够以更简单的控制流、更高的效率、更低的功耗处理AI工作负载。随着人工智能技术栈和行业应用的发展,NPU一方面支持越来越多的模型,包括GPT-4采用的Transformer模型;另一方面,也从AIoT走向消费电子、自动驾驶等更多领域。

3 月 28 日,安谋科技发布了最新一代NPU产品“周易”X2,将配合此前宣布的“周易”NPU软件开源计划,为人工智能的应用创新——尤其是面向自动驾驶等大算力、高精度、强实时场景提供软硬件支持。

 

 “周易”X2 NPU主要功能升级

多核心、大算力、多精度,助力AI多场景落地

随着摩尔定律放缓,通用处理器架构难以满足人工智能的密集型计算需求。数据显示,2000-2004年,每一美元能获取的芯片性能以每年48%的速度提升,而2008年以后已不足10%。在这种趋势下,专用芯片成为面向特定需求提升算力和能效比的新思路。

其中,NPU是面向机器学习和人工智能领域的专用加速芯片。相比CPU、GPU等通用芯片,NPU在电路层模拟了人类神经元和突触,针对AI计算涉及的大量神经网络模型进行特殊优化,能够以更高的效率、更低的能耗处理人工神经网络、随机森林等机器学习算法和深度学习模型。

如今,苹果、三星、oppo等多家手机厂商搭载了NPU,用于面部识别、拍摄物体及环境识别、影像处理等,为消费者带来3D动画表情、人脸解锁、AI场景识别、无损实时RAW计算等一系列新体验。随着人工智能向平板电脑、台式机等更多终端,家居、汽车等更多领域渗透,“万物智联”时代拉开序幕,这不仅考验着NPU的算力和精度,也对NPU架构的灵活性和兼容性提出了更高的要求。

此次安谋科技推出的“周易”X2 NPU聚焦综合性能的提升,兼顾了多终端、跨领域应用对大算力、高精度、灵活性、兼容性的需求。

在算力层面,“周易”X2 NPU不仅提升了单核性能,还引入了多核、多集群架构,能够支持高达320TOPS的大算力方案。相比采用单核架构的“周易”X1和“周易”Z系列,“周易”X2引入了由多个NPU核组成的Cluster(集群),较单核实现了算力的成倍提升。多个Cluster又构成了子系统,较单个Cluster进一步实现算力的成本提升,可支持320TOPS大算力产品的交付。

在精度层面,“周易”X2 NPU支持混合精度计算,支持整型的4bit、8bit、12bit、16bit、32bit以及浮点的16bit、32bit计算,可以更好地平衡功耗、算力密度和计算精度。

在灵活性层面,“周易”X2 NPU 的任务调度速度达到100纳秒。据安谋科技产品总监杨磊介绍,安谋科技为“周易”X2设计了硬件级别的任务调度加速单元,以支持多核或者多个计算单元的实时任务调度。

“当我的车有10个摄像头,有10路数据进来。任务调度器发现哪个NPU核是空闲的,就可以把任务立刻调度给那个核做计算,构建动态、实时的调度解决方案。”杨磊说。

在兼容性方面,“周易”X2 NPU支持自定义算子,满足各种模型部署需求,并针对ADAS、智能座舱、平板电脑、台式机和手机等应用场景提供了配置方案和专门优化。

面向消费级终端,“周易”X2 NPU则针对AI去噪、超分辨率、插帧等面向拍照、录像和视频会议的场景进行了优化。

面向自动驾驶等场景,“周易”X2 NPU可提供大算力配置方案。首先,专门的硬件加速任务调度器,能够更好地支持汽车判断前方目标并实时响应的需求。其次,对混合精度的支持,顺应了汽车场景对更高计算精度的追求。此外,安谋科技面向车载算法专门优化了Transformer模型的性能,在算力相等的情况下,Transformer的性能较上一代的“周易” Z2提升了10倍。

在边缘终端和自动驾驶等领域的基础上,“周易”系列还将向更高性能的场景拓展。

“过去几年里,‘周易’系列产品应用已经从AIoT领域,到现在的汽车、边缘智能终端等领域,未来会向更高性能的云侧和服务侧发展。我们希望‘周易’涵盖不同的应用场景,通过不同的配置,与更多领域、更加多样的系统结合。”安谋科技执行副总裁、产品研发负责人刘澍表示。

软件开源解决开发痛点,助力本土NPU生态构建

在面向更多行业、更多场景的落地过程中,NPU的应用开发也出现了一些痛点。由于缺乏统一的工具链,NPU在推理侧出现了硬件碎片化,增加了应用开发创新的代价和周期。另一方面,NPU处理AI模型的训练、推理时,涉及或产生大量数据,开发者对白盒软件、工具链的诉求越发迫切。

针对以上痛点,安谋科技发起了“周易”NPU软件开源计划,通过开放源码,满足客户更自主、灵活的算法移植需求。按照计划,安谋科技率先对外开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,并提供免费的软件工具链,包括软件模拟器、调试器、C编译器。

 

 

 安谋科技“周易”NPU软件开源计划

“我们收集到很多用户反馈,最典型的是汽车应用场景。一方面,Tier1在实际应用过程中产生的算法和数据都是很宝贵的资源,如果在移植开发中遇到问题,Tier1希望在自己那侧解决,独立进行白盒的开发和调试。另一方面,客户有很多自定义算子的需求,这也对白盒化的软件和工具链有很强的诉求。基于这样的市场反馈,我们选择这个时间点推出开源计划。”杨磊在接受《中国电子报》采访时表示。

目前,安谋科技已开源“周易”NPU软件工具Compass的前端,并在开源计划的第一阶段开放了Compass解析器、NPU Linux驱动、Compass集成和模型仓库。

同时,安谋科技最新的一代V3架构为免费授权。根据安谋科技研发团队测算,如果开发者在软件参与“周易”的NPU开源项目,在硬件上兼容“周易”架构,无论在硬件开发还是在软件开发上,大概能节省超过50%的工作量。

后续,安谋科技还将逐步开放更多资源,例如模型量化、算子实现等源代码。

软件的开源不仅能提升开发效率,而且能够持续吸纳开发者在使用过程中的反馈,有利于行业生态的良性循环。一方面,NPU的软件开源可以提升用户开发效率,减少上市时间,并提升系统的能效表现。另一方面,开源有利于NPU在更多场合发挥更大作用,也令NPU IP厂商能够触达上下游企业,共同反哺本地化的NPU生态。

“NPU有很强的软件属性,并不是一个纯粹的硬件加速器,因为用户要在上面跑各种各样的应用或算法。每一个算法在硬件上的部署或移植,都会为生态贡献了一份力量。”杨磊说。

目前,安谋科技已分别在代码托管平台Gitee、GitHub上建立NPU软件的开源库,并吸引了来自AIoT、智能汽车、智能操作系统等领域的第一批合作伙伴“入驻”。据安谋科技透露,以上合作伙伴均表示将基于NPU开源计划与安谋科技深化合作,加速构建本地化的智能计算生态“朋友圈”。

Arm底蕴与本土化创新结合,强化芯片设计“弹药库”

自1990年Arm公司成立以来,基于Arm架构出货的芯片已经达到2500亿颗。IP授权这一商业模式,也随着Arm的发展深入人心,成为芯片设计垂直分工的重要环节。

安谋科技作为独立运营、中资控股的合资公司,在吸纳和发挥Arm技术和生态优势的同时,立足并结合本地化需求,形成了“自研IP技术的创新发展与Arm IP相配合”的经营策略。据安谋科技介绍,其成立时与Arm签订了交叉许可协议,一方面可以向总部设在中国的合作伙伴开展集成电路IP的授权与技术服务;另一方面,也拥有独立的自主研发权力,可以结合中国市场需求自研基于Arm技术的IP与标准,本土团队研发的自研IP产权归安谋科技所有。

 

 

 安谋科技自研IP产品矩阵及相关服务

以“周易”NPU为例,安谋科技在自研其硬件IP和软件工具的同时,也吸引和培养了本地化的NPU工程师团队,为公司研发和用户开发提供本地化的支持。

“经过5年的努力,我们已经在北京、上海、深圳吸引和培养了很多工程师,整个团队拥有超过130位工程师从事NPU的软硬件全栈研发。我们已经开发了三代NPU产品和架构,也专注于IP和SDK开发,以及对国内客户的服务和支持。”安谋科技NPU研发高级总监孙锦鸿表示。

时至今日,安谋科技在国内的授权客户超过370家,累计芯片出货量突破300亿片。除了“周易”NPU,安谋科技还自研并推出了“星辰”CPU、“山海”SPU、“玲珑”ISP与“玲珑”VPU等本地化IP,而包含CPU、NPU、信息安全、多媒体的IP矩阵,为芯片企业打造异构集成方案提供了“弹药库”,并有利于提升芯片设计的灵活性。例如博通2022年推出的两款Wi-Fi蓝牙双模SoC芯片,就集成了“星辰”处理器和“山海”的信息安全核心模块。

本次“周易”NPU软件开源及相应的生态合作措施,也是对安谋科技“生态伙伴计划”的承袭和补充。该计划发起于2022年7月,依托Arm技术生态与自研IP产品矩阵,与生态伙伴共建上下游产业生态,共同推动各领域的软硬件、解决方案、工具链、行业标准以及社区联盟等生态环节的发展。截至目前,已有多家芯片设计公司、解决方案提供商、系统平台公司等加入生态伙伴计划。

 

 

 安谋科技生态伙伴计划

IP作为硬件设计的核心资产,不仅在芯片设计和产品定义中发挥了重要作用,也对芯片产业的底层创新具有深远意义。而IP的迭代与创新,需要与芯片、软件、生态乃至标准等产业链关键节点的发展趋势与共性问题耦合,才能推动芯片产业的螺旋上升。

“对产业来说一个,IP公司的意义和作用就在于,它首先看到了生态和技术的发展趋势,帮助客户和合作伙伴解决一些重复投入的问题。通常来说,我们解决了底层的技术问题和创新问题以后,可以帮助客户合作伙伴节省1到2年的开发周期。客户利用这些IP,能够更高效地推出可量产的芯片,达到应用级创新的目的,这是IP作为基石帮助客户走向成功的定位和角色。”刘澍说。

 

 

参考文献链接

https://mp.weixin.qq.com/s/NHrTBbLNrPEiJwjbuYZNNg

https://mp.weixin.qq.com/s/vrlQHkamPZbfDNzqYDxOCA

参考资料:
1. 深度学习模型量化(低精度推理)大总结 
https://blog.csdn.net/zlgahu/article/details/104662203

2. 诞生七年的NPU 
http://www.360doc.com/content/20/1105/19/71489558_944287387.shtml

3. ADS NPU的稀疏计算 
https://blog.csdn.net/GGAI_AI/article/details/126359057

4. NPU架构分析与应用
https://zhuanlan.zhihu.com/p/552358604

5. NPU架构与算力分析 
https://zhuanlan.zhihu.com/p/551893185

6. NPU的发展概况 
https://blog.csdn.net/CHAO_bismarck/article/details/106651814

7. 低比特模型量化
https://blog.csdn.net/qq_29788741

8. 单精度、双精度、多精度和混合精度计算的区别是什么?-面包板社区
https://www.eet-china.com/mp/a32433.html

9. 关于自动驾驶芯片算力那点事
https://baijiahao.baidu.com/s?id=1704329592285301569

10. 大数据“引爆”算力需求 “算力芯片”能否乘风起航?https://www.thepaper.cn/newsDetail_forward_21660257

11. ChatGPT爆火,开启AI竞争新赛道 
https://www.thepaper.cn/newsDetail_forward_21989989

12. NPU的性能参数分解 
https://blog.csdn.net/qq_45763093/article/details/118519790