算力概念TOPS操作亿次每秒Tera Operation per s=10^12 TOPS=10^12 Tera
GOPS=10^9 Giga
MOPS=10^6 million
TFLOPS=float OPS 浮点操作算力
PFLOPS=10^15 千亿
1 alexnet:1.4GOPS 也是0.0014TOPS
2 Resnet152:22.6GOPS 也是0.0226TOPS
自动驾驶L3,4激光算法0.27TOPS,加视觉2.5TOPS。 3090GPU:35.7TFLOPS 300W
Xavier最高算力为30Tops,功耗为30W,
NVIDIA最新发布的GPUA100相比Volta架构的640个Tensor Core,A100核心的TensorCore减少到了432个,但是性能大幅增强,支持全新的TF32运算,浮点性能156TFLOPS,同时INT8浮点性能624TOPS,FP16性能312TFLOPS,同时功耗也达到了400W。
cpu算力MIPS(million instruction per second)80386:5MIPS 51:1MIPS 现如今CPU的频率越来越高,又是流水线又是超标量计算又是双核多核的,单纯以时钟频率来衡量计算机的速度已经不再科学,用MIPS来衡量相对比较合理。以ARM7为内核的S3C44B0X的推荐最高工作频率为66MHz,按照ARM公司提供的技术资料,ARM7类CPU的运算速度可按如下公式计算:MIPS=0.9×MHz,由此可得出,S3C44B0X的最大运算速度大约为0.9×66MHz=59.4MIPS。6M的51单片机通常是12 或24个时钟周期才能完成1条指令,乘法和除法指令更需要48个时钟周期。这样,我初步估算6M的51单片机的运算速度应该在0.2~0.5MIPS之间。可见8位机与32位机的运算速度还是有巨大的差异的。
文章图片
AI芯片对比
四中芯片的对比 CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强,计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。
GPU 作为图像处理器,设计初衷是为了应对图像处理中需要大规模并行计算。因此,其在应用于深度学习算法时,有三个方面的局限性:
第一,应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节,GPU 在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理,并行度的优势不能完全发挥。
第二,硬件结构固定不具备可编程性。深度学习算法还未完全稳定,若深度学习算法发生大的变化,GPU 无法像FPGA 一样可以灵活的配置硬件结构。
第三,运行深度学习算法能效远低于FPGA。学术界和产业界研究已经证明,运行深度学习算法中实现同样的性能,GPU 所需功耗远大于FPGA,例如国内初创企业深鉴科技基于FPGA 平台的人工智能芯片在同样开发周期内相对GPU 能效有一个数量级的提升。
- FPGA是ASIC专用集成电路Application Specific IntegratedCircuit的一种半定制电路,既解决 定制电路的不足,又 克服原有可编程器件门电路有限 生产厂商:Altera(Intel收购)、Xilinx
- 优点:可以无限次编程,延迟低,拥有流水线并行和数据并行,实时性强灵活性高
- 缺点:开发难度大,只适合定点运算,价格贵
- FPGA,其设计初衷是为了实现半定制芯片的功能,即硬件结构可根据需要实时配置灵活改变。研究报告显示,目前的FPGA市场由Xilinx 和Altera 主导,两者共同占有85%的市场份额,其中Altera 在2015 年被intel以167 亿美元收购, Xilinx则选择与IBM进行深度合作,背后都体现了 FPGA 在人工智能时代的重要地位。尽管 FPGA 倍受看好,甚至百度大脑、地平线AI芯片也是基于FPGA 平台研发,但其毕竟不是专门为了适用深度学习算法而研发,实际仍然存在不少局限:第一,基本单元的计算能力有限。为了实现可重构特性,FPGA 内部有大量极细粒度的基本单元,但是每个单元的计算能力(主要依靠LUT 查找表)都远远低于CPU 和GPU中的ALU模块。第二,速度和功耗相对专用定制芯片(ASIC)仍然存在不小差距。第三,FPGA 价格较为昂贵,在规模放量的情况下单块FPGA 的成本要远高于专用定制芯片。人工智能定制芯片是大趋势,从发展趋势上看,人工智能定制芯片将是计算芯片发展的大方向。
- ASIC
- 优点:它作为集成电路技术与特定用户的整机或系统技术紧密结合的产物,与通用集成电路相比具有体积更小、重量更轻、 功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。
- 缺点:灵活性不够,成本比FPGA贵
- 主要性能指标:功耗、速度、成本
- 生产厂商:谷歌、地平线、寒武纪等
基于ASIC开发人工智能芯片开发周期较长。基于ASIC开发人工智能芯片更像是电路设计,需要反复优化,需要经历较长的流片周期,故开发周期较长。
量产后ASIC人工智能芯片成本及价格较低。虽然相较于FPGA, ASIC人工智能芯片需要经历较长的开发周期,并且需要价格昂贵的流片投入,但是这些前期开发投入在量产后会被摊薄,所以量产后,ASIC人工智能芯片的成本和价格会低于FPGA人工智能芯片。
ASIC芯片性能功耗比较高。从性能功耗比来看,ASIC作为定制芯片,其性能要比基于通用芯片FPGA开发出的各种半定制人工智能芯片更具有优势。而且ASIC也并不是完全不具备可配置能力,只是没有FPGA那么灵活,只要在设计的时候把电路做成某些参数可调即可。
ASIC人工智能芯片主要面向消费电子市场。ASIC更高的性能,更低的量产成本以及有限可配置特性,使其主要面向消费电子市场,如寒武纪等公司。
- 类脑芯片
类人脑芯片架构是一款基于神经形态的工程,旨在打破“冯·诺依曼”架构的束缚,模拟人脑处理过程,感知世界、处理问题。这种芯片的功能类似于大脑的神经突触,处理器类似于神经元,而其通讯系统类似于神经纤维,可以允许开发者为类人脑芯片设计应用程序。通过这种神经元网络系统,计算机可以感知、记忆和处理大量不同的信息。类脑芯片的两大突破:1、有望形成自主认知的新形式;2、突破传统计算机体系结构的限制,实现数据并行传送、分布式处理,能以极低功耗实时处理大量数据。
文章图片
文章图片
中国造车新势力小鹏汽车曾短暂地用Mobileye的芯片做过测试后决定在P7上改用英伟达的Xavier,主要因为小鹏希望“把芯片和算法剥离开,采用可编程的芯片,在芯片上进行算法研发和定制化,跟场景结合”,因此选择了更开放的英伟达。
2 英伟达Xavier, 2020Orin-10到2000Tops可选,台积电12nm,也有5~7nm https://zhuanlan.zhihu.com/p/143564936
3 瑞萨日本半导体厂商 4tops前融合算法就是在原始层把数据融合在一起,融合好的数据就好比是一个超级传感器,而且这个传感器不仅有能力可以看到红外线,还有能力看到摄像头或者RGB,也有能力看到LiDAR的三维数据,就好比是一双超级眼睛,在这双超级眼睛上面,开发自己的感知算法,最后输出一个结果层的物体。
文章图片
4 德州仪器Jacinto DRA829V处理器 TDA4VM芯片
文章图片
文章图片
4 地平线征程系列 Journey https://zhuanlan.zhihu.com/p/383705163
文章图片
奥迪、博世、长安、比亚迪、上汽 、广汽
量产了中国首款边缘人工智能处理器–专注于智能驾驶的 “征程(Journey)”系列
2019年8月,地平线宣布量产中国首款车规级AI芯片——征程二代。Journey 2芯片搭载地平线自主创新研发的高性能计算架构BPU2.0(Brain Processing Unit),采用台积电 28nm 制程工艺,每TOPS算力可达同等算力GPU的10倍以上,视觉感知可以实现识别精度>99%,延迟<100 毫秒。征程二代主要面向ADAS市场感知方案,可提供超过4 TOPS的等效算力,典型功耗仅2W。主要用于自动驾驶中对车辆、行人和道路环境等目标的感知,类似MobileyeQ系列芯片。
特斯拉FSD芯片 特斯拉属于汽车行业内Bug一样的存在,汽车、火箭、芯片等等,什么都都可以搞,而且做的还不差,特斯拉早期也是和芯片供应商合作,专心做整车,但是陆续发现芯片供应商不给力之后,便“抛弃”了Mobileye和NVIDIA,开始自研AI芯片,特斯拉在2019年4月发布了首款自动驾驶芯片FSD(Full Self Driving全自动驾驶),并且是直接以量产的形式发布,FSD被马斯克称为“世界上最好的芯片”, 这款芯片除了常规的CPU和GPU之外,还配备了两个神经网络处理器(NNP),算力为144TOPS,功耗72W,能效比2TOPS/W,就目前来说,确实是量产车最好的自动驾驶芯片。
细节见下面地址
https://www.auto-testing.net/news/show-107509.html
12.NVIDIA Xavier & Orin & A100 NVIDIA GTC 2020因为疫情原因在黄教主的厨房进行,此次发布了NVIDIA第八代架构Ampere(安培)、以及基于安培架构的第一款GPU A100。A100绝对是目前全球最大的7nm芯片,540亿个晶体管,3D 堆叠技术,加上高达 826 平方毫米的芯片面积,同时支持 TF32 和 BF16 格式,拥有438 个第三代 Te那个nsor Core,支持虚拟成为 77 个 GPU 来执行不同的任务。算力达到2000TOPS,相比Volta架构提升了高达20倍的性能,可以同时满足AI训练和推理的需求。
2019年12月,NVIDIA推出了面向ADAS和自动驾驶领域的新一代SOC Orin,Orin SOC拥有170亿个晶体管,搭载NVDIA下一代GPU(即基于Ampere架构的GPU)和Arm Hercules CPU核心,可以提供200TOPS是运算能力,是上一代Xavier SOC的7倍,功耗45W,2022年交付,面向L2+级自动驾驶场景。
NVIDIA在2018年CES上推出了Xavier平台,号称是是“世界上最强大的SoC(片上系统)”,目前Xavier也确实是自动驾驶AI芯片领域绝对的首选,Xavier可处理来自车辆雷达、摄像头、激光雷达和超声波系统的L5级自主驾驶数据,是目前自动驾驶领域应用最多的AI芯片,也是最早投入量产的AI芯片。
Xavier SoC基于台积电12nm工艺,集成90亿颗晶体管,芯片面积350平方毫米,CPU采用NVIDIA自研8核ARM64架构(代号Carmel),GPU采用512颗CUDA的Volta,支持FP32/FP16/INT8,20W功耗下单精度浮点性能1.3TFLOPS,Tensor核心性能20TOPs,解锁到30W后可达30TOPs。
Xavier 内有六种不同的处理器:Valta TensorCoreGPU,八核ARM64 CPU,双NVDLA 深度学习加速器,图像处理器,视觉处理器和视频处理器。这些处理器使其能够同时、且实时地处理数十种算法,以用于传感器处理、测距、定位和绘图、视觉和感知以及路径规划。
TüVSüD已确认NVIDIA Xavier 系统芯片符合ASIL C 等级的ISO 26262随机硬件完整性,并达到了ASIL D等级的系统处理能力要求(最严格的功能安全标准)。
谷歌TPU TPU,Tensor Processing Unit,全名为张量处理单元。是 Google 专为机器学习而定制的一款ASIC芯片。专门针对加速和扩大使用 TensorFlow 编程的机器学习工作负载进行了优化。Google 在 2016 年 5 月的开发者 I/O 大会上正式发布TPU1,并在2017年推出了 TPU2,又称Cloud TPU。TPU2 既可以用于 training,又可以用于 inference。每个 Cloud TPU 由四个定制的 ASIC 构成,单个 Cloud TPU 的浮点计算能力可以达到 180 teraflops(万亿次每秒),内存宽带 64GB。
2018年TPU 3.0面世,性能相比TPU 2.0有8倍提升。并且2018年7月谷歌又发布了Edge TPU芯片抢攻边缘计算市场。
在2019年5月的谷歌I/O开发者大会上,Google以1000个TPUv3组成的TPUv3 Pod取代了本应出现在发布会上的第四代TPU,目前关于TPU的新的规划尚不得而知。
Arm 自动驾驶芯片Cortex-A76AE 自1996年,Arm生产的通用型、实时型处理器就开始被各大车辆制造商使用。现在Arm的半导体知识产权(IP)已广泛应用于ADAS系统(如防撞、巡航控制等)、连接、信息娱乐、动力总成控制和汽车其他组件。
2018年9月,Arm推出了“安全就绪”(Safety Ready)计划,旨在为自动驾驶汽车提供解决方案。并推出了代号为Cortex-A76AE的产品,作为第一款专为自动驾驶汽车打造的处理器。
Cortex-A76AE处理器允许芯片制造商设计具有安全功能的芯片,使自动驾驶汽车能够满足最严格的安全要求,能将自动躲避等特性应用到汽车上。AE,即“Automotive Enhanced(自动驾驶增强)”。该处理器采用台积电7nm工艺技术制造的16核Cortex-A76AE SoC具有超过250 KDMIPS的计算性能,功耗30W,足以满足当今应用需求。如果用户想要更高的性能,可以构建更多内核,甚至多个SoC。该内核具备Arm v8.2微体系结构的所有功能特性,包括可靠性、可用性和可维护性,并采用了分核-锁步(Split-Lock)模式来确保可靠性。
并且,基于Cortex-A76AE的SoC可扩展至最多64核。除了含有通用计算核外,Arm的自主计算复合体还集成了Mali-G76 GPU、ARM的ML处理器和其他必要的IP。此外,所有复合体支持Arm的内存虚拟化和保护技术,可以完美实现ML和NN加速器的运行。
Qualcomm高通Snapdragon Ride 高通公司此前在 2017 年披露了其研发自动驾驶汽车芯片的计划,2018 年,因为监管原因,高通公司收购荷兰恩智浦公司遭到失败。2020年1月5日,在美国拉斯维加斯举行的消费电子展(CES)上高通发布了全新的自动驾驶平台Snapdragon Ride,旨在处理从车道控制、自动泊车等自动驾驶所需的各项任务,高通预计其可在2023年上路。
Snapdragon Ride平台包含多个SOC(系统级芯片)选项,包括深度学习加速器和自动驾驶软件Stack,能够支持高级驾驶辅助系统ADAS功能,比如车道保持以及在自动驾驶出租车(Robotaxi)上的全自动驾驶的应用等功能。
根据高通介绍,Snapdragon Ride平台基于一系列不同的骁龙SoC和加速器建立,采用了可扩展且模块化的高性能异构多核CPU、高能效的AI与计算机视觉引擎,以及业界领先的GPU。基于不同的SoC和加速器的组合,平台能够根据自动驾驶的每个细分市场的需求进行匹配,并提供业界领先的散热效率,包括从面向L1/L2级别应用的30 TOPS等级的设备,到面向L4/L5级别驾驶、超过700 TOPS的功耗130瓦的设备。因此该平台可支持被动或风冷的散热设计,从而实现成本降低、可靠性提升,省去昂贵的液冷系统,并简化汽车设计以及延长电动汽车的行驶里程。Snapdragon Ride的一系列SoC和加速器专为功能安全ASIL-D级(汽车安全完整性等级D级)系统而设计。
中国芯片华为、地平线、寒武纪、西井科技、百度等,另有其他国产公司在人工智能、语音识别、视觉处理方面发力,如芯驰科技、黑芝麻、中星微电子、比特大陆、杭州中天微等等 总体来看,中国公司在AI芯片领域已经占据不少席位,中国自动驾驶芯片在性能和功耗上和外国芯片相比并不差,但是如果想要达到世界领先水平,甚至赶超NVIDIA、Tesla、TI、Xilinx等还有很长的路要走。而从研发设计到真正上车量产,更需要深度的测试验证和积累。
首先,国产芯片企业想要有所建树,必须要有长期研发投入的思想准备,也就是烧钱和时间,在没有积累的基础上做AI芯片研发,所要攻克的难关数不胜数。这种长期投入一方面是大笔资金投入和高产出的正向循环;另一方面则体现在芯片架构设计、底层软件和操作系统的设计能力上,需要不断的积累和高忍耐度。
其次,中国有句老说贪多嚼不烂,国内芯片企业如果想在AI芯片领域分食蛋糕甚至赶超国际对手,必须在一个垂直领域做精做深,真正的深耕进去,并且要真正做到全栈的方案和产品给到用户,提供的是一个可供量产化的产品而不是一个DEMO,必须要让它能真正应用。
【技术积累|自动驾驶芯片调研】第三,生态的建立,国外芯片企业基本上都有自己的一套体系和生态系统,华为基于自身多年ICT的积累可以快速推出麒麟、昇腾、鲲鹏等系列芯片,但是在生态方面依然欠缺,体现在软件、操作系统、体系架构、辅助件、工具链等等。因此国内芯片厂商必须进行AI芯片相关软硬件生态的建立,以及用户体系的培养。比如NXP、Intel在国内高校多年发展课程体系、认证体系等,华为在近几年也有意识的开展和高校和科研院所的战略性合作,这一举措绝对是影响深远的。
推荐阅读
- 自动驾驶|Failed to load plugin libvelodyne_plugin.so: libvelodyne_plugin.so
- c#|计算机毕业设计net智慧社区管理平台
- ROS|ROS kinetic自定义路径规划算法
- 搭建移动机器人|修改ROS中使用的全局规路径划算法——将dikstra修改为A*
- 阿里云|阿里云“大算力”支持嬴彻自动驾驶仿真提速 20 倍
- PyTorch|【PyTorch】torch-geometric 安装
- python|机器人基本知识和ROS介绍
- 自动驾驶|自动驾驶控制算法(一) - 三个坐标系和车辆运动学模型
- ROS|【ROS wiki】3、如何利用ros wiki寻求问题答案()