【中國(guó)傳動(dòng)網(wǎng) 市場(chǎng)分析】 AI芯片設(shè)計(jì)是人工智能產(chǎn)業(yè)鏈的重要一環(huán)。自2017年5月以來,各AI芯片廠商的新品競(jìng)相發(fā)布,經(jīng)過一年多的發(fā)展,各環(huán)節(jié)分工逐漸明顯。
AI芯片的應(yīng)用場(chǎng)景不再局限于云端,部署于智能手機(jī)、安防攝像頭、及自動(dòng)駕駛汽車等終端的各項(xiàng)產(chǎn)品日趨豐富。除了追求性能提升外,AI芯片也逐漸專注于特殊場(chǎng)景的優(yōu)化。
自2017年5月以來發(fā)布的AI芯片一覽
目前,人工智能產(chǎn)業(yè)鏈中,包括提供AI加速核的IP授權(quán)商,各種AI芯片設(shè)計(jì)公司,以及晶圓代工企業(yè)。
?按部署的位置來分,AI芯片可以部署在數(shù)據(jù)中心(云端),和手機(jī),安防攝像頭,汽車等終端上。
?按承擔(dān)的任務(wù)來分,可以被分為用于構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練芯片,與利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推斷的推斷芯片。訓(xùn)練芯片注重絕對(duì)的計(jì)算能力,而推斷芯片更注重綜合指標(biāo),單位能耗算力、時(shí)延、成本等都要考慮。
?訓(xùn)練芯片受算力約束,一般只在云端部署。推斷芯片按照不同應(yīng)用場(chǎng)景,分為手機(jī)邊緣推斷芯片、安防邊緣推斷芯片、自動(dòng)駕駛邊緣推斷芯片。為方便起見,我們也稱它們?yōu)槭謾C(jī)AI芯片、安防AI芯片和汽車AI芯片。
?由于AI芯片對(duì)單位能耗算力要求較高,一般采用14nm/12nm/10nm等先進(jìn)工藝生產(chǎn)。臺(tái)積電目前和Nvidia、Xilinx等多家芯片廠商展開合作,攻堅(jiān)7nmAI芯片。
AI芯片投資地圖
AI芯片市場(chǎng)規(guī)模:未來五年有接近10倍的增長(zhǎng),2022年將達(dá)到352億美元。根據(jù)我們對(duì)相關(guān)上市AI芯片公司的收入統(tǒng)計(jì),及對(duì)AI在各場(chǎng)景中滲透率的估算,2017年AI芯片市場(chǎng)規(guī)模已達(dá)到39.1億美元,具體情況如下:
?2017年全球數(shù)據(jù)中心AI芯片規(guī)模合計(jì)23.6億美元,其中云端訓(xùn)練芯片市場(chǎng)規(guī)模20.2億美元,云端推斷芯片3.4億美元。
?2017年全球手機(jī)AI芯片市場(chǎng)規(guī)模3.7億美元。
?2017年全球安防攝像頭AI芯片市場(chǎng)規(guī)模3.3億美元。
?2017年全球自動(dòng)駕駛AI芯片的市場(chǎng)規(guī)模在8.5億美元。
AI芯片市場(chǎng)規(guī)模及競(jìng)爭(zhēng)格局
Nvidia在2017年時(shí)指出,到2020年,全球云端訓(xùn)練芯片的市場(chǎng)規(guī)模將達(dá)到110億美元,而推斷芯片(云端+邊緣)的市場(chǎng)規(guī)模將達(dá)到150億美元。Intel在剛剛結(jié)束的2018DCI峰會(huì)上,也重申了數(shù)據(jù)業(yè)務(wù)驅(qū)動(dòng)硬件市場(chǎng)增長(zhǎng)的觀點(diǎn)。Intel將2022年與用于數(shù)據(jù)中心執(zhí)行AI加速的FPGA的TAM預(yù)測(cè),由70億美元調(diào)高至80億美元。
而同時(shí)我們也注意到:
1)手機(jī)SoC價(jià)格不斷上升、AI向中端機(jī)型滲透都將為行業(yè)創(chuàng)造更廣闊的市場(chǎng)空間。
歷代Apple手機(jī)芯片成本趨勢(shì)
2)安防芯片受益于現(xiàn)有設(shè)備的智能化升級(jí),芯片需求擴(kuò)大。
自動(dòng)駕駛算力需求加速芯片升級(jí)
3)自動(dòng)駕駛方面,針對(duì)豐田公司提出的算力需求,我們看到當(dāng)下芯片算力與L5級(jí)自動(dòng)駕駛還有較大差距。英飛凌公司給出了各自動(dòng)駕駛等級(jí)中的半導(dǎo)體價(jià)值預(yù)測(cè),可以為我們的TAM估算提供參考。
英飛凌對(duì)各自動(dòng)駕駛等級(jí)中半導(dǎo)體價(jià)值的預(yù)測(cè)
結(jié)合以上觀點(diǎn),及我們對(duì)AI在各應(yīng)用場(chǎng)景下滲透率的分析,我們預(yù)測(cè):
?云端訓(xùn)練芯片市場(chǎng)規(guī)模在2022年將達(dá)到172億美元,CAGR~54%。
?云端推斷芯片市場(chǎng)規(guī)模在2022年將達(dá)到72億美元,CAGR~84%。
?用于智能手機(jī)的邊緣推斷芯片市場(chǎng)規(guī)模2022年將達(dá)到38億美元,CAGR~59%。
?用于安防攝像頭的邊緣推斷芯片市場(chǎng)規(guī)模2022年將達(dá)到18億美元,CAGR~41%。
?用于自動(dòng)駕駛汽車的邊緣推斷芯片市場(chǎng)規(guī)模2022年將達(dá)到52億美元,CAGR~44%。
云端訓(xùn)練芯片:TPU很難撼動(dòng)NvidiaGPU的壟斷地位
訓(xùn)練是指通過大量的數(shù)據(jù)樣本,代入神經(jīng)網(wǎng)絡(luò)模型運(yùn)算并反復(fù)迭代,來獲得各神經(jīng)元“正確”權(quán)重參數(shù)的過程。CPU由于計(jì)算單元少,并行計(jì)算能力較弱,不適合直接執(zhí)行訓(xùn)練任務(wù),因此訓(xùn)練一般采用“CPU+加速芯片”的異構(gòu)計(jì)算模式。目前Nvidia的GPU+CUDA計(jì)算平臺(tái)是最成熟的AI訓(xùn)練方案,除此還有:
AI芯片工作流程
?第三方異構(gòu)計(jì)算平臺(tái)OpenCL+AMDGPU或OpenCL+Intel/Xilinx的FPGA。
?云計(jì)算服務(wù)商自研加速芯片(如Google的TPU)這兩種方案。各芯片廠商基于不同方案,都推出了針對(duì)于云端訓(xùn)練的AI芯片。
云端訓(xùn)練芯片對(duì)比
在GPU之外,云端訓(xùn)練的新入競(jìng)爭(zhēng)者是TPU。Google在去年正式發(fā)布了其TPU芯片,并在二代產(chǎn)品中開始提供對(duì)訓(xùn)練的支持,但比較下來,GPU仍然擁有最強(qiáng)大的帶寬(900GB/s,保證數(shù)據(jù)吞吐量)和極高的深度學(xué)習(xí)計(jì)算能力(120TFLOPSvs.TPUv245TFLOPS),在功耗上也并沒有太大劣勢(shì)(TPU進(jìn)行訓(xùn)練時(shí),引入浮點(diǎn)數(shù)計(jì)算,需要逾200W的功耗,遠(yuǎn)不及推斷操作節(jié)能)。目前TPU只提供按時(shí)長(zhǎng)付費(fèi)使用的方式,并不對(duì)外直接銷售,市占率暫時(shí)也難以和NvidiaGPU匹敵。
?Intel
雖然深度學(xué)習(xí)任務(wù)主要由GPU承擔(dān),但CPU目前仍是云計(jì)算芯片的主體。Intel于2015年底年收購(gòu)全球第二大FPGA廠商Altera以后,也積極布局CPU+FPGA異構(gòu)計(jì)算助力AI,并持續(xù)優(yōu)化XeonCPU結(jié)構(gòu)。2017年Intel發(fā)布了用于Xeon服務(wù)器的,新一代標(biāo)準(zhǔn)化的加速卡,使用戶可以AI領(lǐng)域進(jìn)行定制計(jì)算加速。得益于龐大的云計(jì)算市場(chǎng)支撐,Intel數(shù)據(jù)中心組業(yè)務(wù)收入規(guī)模一直位于全球首位,2016-17年單季保持同比中高個(gè)位數(shù)增長(zhǎng)。2017年4季度起,收入同比增速開始爬坡至20%左右,但相比Nvidia的強(qiáng)勁增長(zhǎng)態(tài)勢(shì)仍有差距。
?AMD
AMD雖未單獨(dú)拆分?jǐn)?shù)據(jù)中心收入,但從其計(jì)算和圖像業(yè)務(wù)的收入增長(zhǎng)情況來看,GPU銷量向好。目前AMDGPU也開始切入深度學(xué)習(xí)訓(xùn)練任務(wù),但市場(chǎng)規(guī)模落后于Nvidia。
云端推斷芯片:百家爭(zhēng)鳴,各有千秋
推斷是指借助現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算,利用新的輸入數(shù)據(jù)來一次性獲得正確結(jié)論的過程。推斷過程對(duì)響應(yīng)速度一般有較高要求,因此會(huì)采用AI芯片(搭載訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型)進(jìn)行加速。
相比訓(xùn)練芯片,推斷芯片考慮的因素更加綜合:?jiǎn)挝还乃懔?,時(shí)延,成本等等。初期推斷也采用GPU進(jìn)行加速,但由于應(yīng)用場(chǎng)景的特殊性,依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會(huì)帶來更高的效率,F(xiàn)PGA/ASIC的表現(xiàn)可能更突出。除了Nvidia、Google、Xilinx、Altera(Intel)等傳統(tǒng)芯片大廠涉足云端推斷芯片以外,Wavecomputing、Groq等初創(chuàng)公司也加入競(jìng)爭(zhēng)。中國(guó)公司里,寒武紀(jì)、比特大陸同樣積極布局云端芯片業(yè)務(wù)。
主要云端推斷芯片對(duì)比
我們認(rèn)為,云端推斷芯片在未來會(huì)呈現(xiàn)百花齊放的態(tài)勢(shì)。具體情況如下:
?Nvidia
在云端推斷芯片領(lǐng)域,Nvidia主打產(chǎn)品為P40和P4,二者均采用TSMC16nm制程。TeslaP4擁有2560個(gè)流處理器,每秒可進(jìn)行22萬(wàn)億次(TOPS)計(jì)算(對(duì)應(yīng)INT8)。而性能更強(qiáng)的TeslaP40擁有3840個(gè)流處理器,每秒可進(jìn)行47萬(wàn)億次(TOPS)計(jì)算(對(duì)應(yīng)INT8)。從單位功耗推斷能力來看,P4/P40雖然有進(jìn)步,但仍遜于TPU。GPU在推斷上的優(yōu)勢(shì)是帶寬。
GoogleTPU1.0為云端推斷而生,其運(yùn)算單元對(duì)神經(jīng)網(wǎng)絡(luò)中的乘加運(yùn)算進(jìn)行了優(yōu)化,并采用整數(shù)運(yùn)算。TPU1.0單位功耗算力在量產(chǎn)云端推端芯片中最強(qiáng),達(dá)1.2TOPS/Watt,優(yōu)于主流NvidiaGPU。TPU2.0在推斷表現(xiàn)上相比于1代并沒有本質(zhì)提升,主要進(jìn)步是引入對(duì)浮點(diǎn)數(shù)運(yùn)算的支持,及更高的片上內(nèi)存。正如前文所述,支持訓(xùn)練的TPU功耗也會(huì)變得更高。
?WaveComputing
Wavecomputing于2010年12月成立于加州,目前累計(jì)融資1.2億美元,是專注于云端深度學(xué)習(xí)訓(xùn)練和推理的初創(chuàng)公司。Wavecomputing的一代DPU深度學(xué)習(xí)算力達(dá)180TOPS,且無(wú)需CPU來管理工作流。目前公司正與Broadcomm合作在開發(fā)二代芯片,將采用7nm制程。
?Groq
Groq是由GoogleTPU初始團(tuán)隊(duì)離職創(chuàng)建的AI芯片公司,計(jì)劃在2018年發(fā)布第一代AI芯片產(chǎn)品,對(duì)標(biāo)英偉達(dá)的GPU。其算力可達(dá)400TOPs(INT8),單位能耗效率表現(xiàn)搶眼。
?寒武紀(jì)科技
寒武紀(jì)在2017年11月發(fā)布云端芯片MLU100,同時(shí)支持訓(xùn)練和推斷,但更側(cè)重于推斷。MLU100在80W的功耗下就可以達(dá)到128TOPS(對(duì)應(yīng)INT8)的運(yùn)算能力。
?比特大陸
比特大陸的計(jì)算芯片BM1680,集成了深度學(xué)習(xí)算法硬件加速模塊(NPUs),應(yīng)用于云端計(jì)算與推理。BM1680還提供了4個(gè)獨(dú)立的DDR4通道,用于高速數(shù)據(jù)緩存讀取,以提高系統(tǒng)的執(zhí)行速度。其典型功耗只有25W,在單位能耗推斷效率上有一定優(yōu)勢(shì)。
應(yīng)用場(chǎng)景#1:云端推斷芯片助力智能語(yǔ)音識(shí)別
云端推斷芯片提升語(yǔ)音識(shí)別速度。語(yǔ)音識(shí)別是推斷芯片的工作場(chǎng)景之一,如Amazon的語(yǔ)音助手Alexa,其“智能”來自于AWS云中的推斷芯片。Alexa是預(yù)裝在亞馬遜Echo內(nèi)的個(gè)人虛擬助手,可以接收及相應(yīng)語(yǔ)音命令。通過將語(yǔ)音數(shù)據(jù)上傳到云端,輸入推斷芯片進(jìn)行計(jì)算,再返回結(jié)果至本地來達(dá)到與人實(shí)現(xiàn)交互的目的。原先云端采用CPU進(jìn)行推斷工作,由于算力低,識(shí)別中會(huì)有300-400ms的延遲,影響用戶體驗(yàn)。
智能音箱通過云端推斷芯片工作
而現(xiàn)今AWS云中采用了Nvidia的P40推斷芯片,結(jié)合TensorRT高性能神經(jīng)網(wǎng)絡(luò)推理引擎(一個(gè)C++庫(kù)),可以將延遲縮減到7ms。此外,AI芯片支持深度學(xué)習(xí),降低了語(yǔ)音識(shí)別錯(cuò)誤率。目前,借助云端芯片的良好推斷能力,百度語(yǔ)音助手的語(yǔ)音識(shí)別準(zhǔn)確度已達(dá)到97%之高。
Nvidia云端推斷芯片提升語(yǔ)音識(shí)別速度
應(yīng)用場(chǎng)景#2:推斷芯片應(yīng)用于智能搜索
RankBrain是Google眾多搜索算法的一部分,它是一套計(jì)算機(jī)程序,能把知識(shí)庫(kù)中上十億個(gè)頁(yè)面進(jìn)行排序,然后找到與特定查詢最相關(guān)的結(jié)果。目前,Google每天要處理30億條搜索,而其中15%的詞語(yǔ)是Google沒有見過的。RankBrain可以觀察到看似無(wú)關(guān)復(fù)雜搜索之間的模式,并理解它們實(shí)際上是如何彼此關(guān)聯(lián)的,實(shí)現(xiàn)了對(duì)輸入的語(yǔ)義理解。這種能力離不開Google云端推斷芯片TPU的輔助。
推斷芯片助力深度學(xué)習(xí)實(shí)現(xiàn)語(yǔ)義識(shí)別
先前,在沒有深度學(xué)習(xí)情況下,單純依靠PageRanking及InvertedIndex,Google也能實(shí)現(xiàn)一定程度的對(duì)搜索詞條排序的優(yōu)化,但準(zhǔn)確率不夠。TPU利用RankBrain中的深度學(xué)習(xí)模型,在80%的情況下計(jì)算出的置頂詞條,均是人們最想要的結(jié)果。
TPU+RankBrain在推斷正確率上獲得提高
用于智能手機(jī)的邊緣推斷芯片:競(jìng)爭(zhēng)格局穩(wěn)定,傳統(tǒng)廠商持續(xù)受益
手機(jī)芯片市場(chǎng)目前包括:(1)蘋果,三星,華為這類采用芯片+整機(jī)垂直商業(yè)模式的廠商,以及(2)高通,聯(lián)發(fā)科,展銳等獨(dú)立芯片供應(yīng)商和(3)ARM,Synopsys、Cadence等向芯片企業(yè)提供獨(dú)立IP授權(quán)的供應(yīng)商。采用垂直商業(yè)模式廠商的芯片不對(duì)外發(fā)售,只服務(wù)于自身品牌的整機(jī),性能針對(duì)自身軟件做出了特殊優(yōu)化,靠效率取勝。獨(dú)立芯片供應(yīng)商以相對(duì)更強(qiáng)的性能指標(biāo),來獲得剩余廠商的市場(chǎng)份額。
從2017年開始,蘋果,華為海思,高通,聯(lián)發(fā)科等主要芯片廠商相繼發(fā)布支持AI加速功能的新一代芯片(如下圖),AI芯片逐漸向中端產(chǎn)品滲透。由于手機(jī)空間有限,獨(dú)立的AI芯片很難被手機(jī)廠采用。在AI加速芯片設(shè)計(jì)能力上有先發(fā)優(yōu)勢(shì)的企業(yè)(如寒武紀(jì))一般通過IP授權(quán)的方式切入。
手機(jī)AI芯片對(duì)比
對(duì)這些廠商來說,我們認(rèn)為AI化的主要作用是提升芯片附加價(jià)值與產(chǎn)品單價(jià)。根據(jù)IHS的數(shù)據(jù),隨著硬件性能的增強(qiáng)及針對(duì)于AI的運(yùn)算結(jié)構(gòu)不斷滲透,蘋果A11芯片的成本已達(dá)到27.5美元。
智能手機(jī)SoC市占率分析(2017)
芯片成本持續(xù)上漲有望帶動(dòng)垂直模式廠商整機(jī)售價(jià)走高,在出貨量相同的情況下為現(xiàn)有芯片廠商貢獻(xiàn)更多的營(yíng)業(yè)收入。高通、聯(lián)發(fā)科、展銳等獨(dú)立芯片供應(yīng)商則會(huì)受益于芯片本身ASP的提升。
歷代Apple手機(jī)芯片成本趨勢(shì)
應(yīng)用場(chǎng)景#1:推斷芯片為AI拍照技術(shù)提供硬件支持
智能手機(jī)通過AI算法+終端推斷芯片,可實(shí)現(xiàn)對(duì)于現(xiàn)實(shí)世界圖像的智能識(shí)別,并在此基礎(chǔ)上進(jìn)行實(shí)時(shí)優(yōu)化:
1)從整個(gè)場(chǎng)景識(shí)別,到特殊優(yōu)化過程中,推斷芯片為算法運(yùn)行提供硬件支持。
2)手機(jī)推斷芯片中GPU、NPU等單元的協(xié)同工作,實(shí)現(xiàn)了對(duì)邊緣虛化更準(zhǔn)確的處理,使小尺寸感光元件的手機(jī)獲得“單反”級(jí)的景深效果,增加相片的層次感。
3)人臉結(jié)構(gòu)的識(shí)別也離不開邊緣推斷芯片,芯片性能的提升直接導(dǎo)致了AI美顏、3D光效等特殊效果變得更加自然。如果缺少終端芯片的支持,一旦運(yùn)行高負(fù)載的AI任務(wù)手機(jī)就需要呼喚云端。而云端的相應(yīng)速度不夠,導(dǎo)致AI攝影的識(shí)別率和準(zhǔn)確率下降,用戶體驗(yàn)將大打折扣。
手機(jī)AI芯片輔助圖片渲染優(yōu)化
應(yīng)用場(chǎng)景#2:推斷芯片助力語(yǔ)音助手處理復(fù)雜命令
從“聽清”到“聽懂”,自然語(yǔ)言理解能力提升與推斷芯片硬件的支持分不開:多麥克風(fēng)方案的普及解決了“聽清”的問題,而到“聽懂”的跨越中自然語(yǔ)言理解能力是關(guān)鍵。這不僅對(duì)云端訓(xùn)練好的模型質(zhì)量有很高要求,也必須用到推斷芯片大量的計(jì)算。隨著對(duì)話式AI算法的發(fā)展,手機(jī)AI芯片性能的提升,語(yǔ)音助手在識(shí)別語(yǔ)音模式、分辨模糊語(yǔ)音、剔除環(huán)境噪聲干擾等方面能力得到了優(yōu)化,可以接受理解更加復(fù)雜的語(yǔ)音命令。
手機(jī)AI芯片輔助VivoJovi處理復(fù)雜命令
用于安防邊緣推斷芯片:海思、安霸與Nvidia、Mobileye形成有力競(jìng)爭(zhēng)
視頻監(jiān)控行業(yè)在過去十幾年主要經(jīng)歷了“高清化”、“網(wǎng)絡(luò)化”的兩次換代,而隨著2016年以來AI在視頻分析領(lǐng)域的突破,目前視頻監(jiān)控行業(yè)正處于第三次重要升級(jí)周期——“智能化”的開始階段。前端攝像頭裝備終端推斷芯片,可以實(shí)時(shí)對(duì)視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,“云+邊緣”的邊緣計(jì)算解決方案逐漸滲透。我們預(yù)計(jì),應(yīng)用安防攝像頭的推斷芯片市場(chǎng)規(guī)模,將從2017年的3.3億美元,增長(zhǎng)至2022年的18億美元,CAGR~41%。
應(yīng)用場(chǎng)景:安防邊緣推斷芯片實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)提取,減輕云端壓力
即便采用H.265編碼,目前每日從攝像機(jī)傳輸?shù)皆贫说臄?shù)據(jù)也在20G左右,不僅給存儲(chǔ)造成了很大的壓力,也增加了數(shù)據(jù)的傳輸時(shí)間。邊緣推斷芯片在安防端的主要應(yīng)用,基于將視頻流在本地轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。這樣既節(jié)省云端存儲(chǔ)空間,也提升系統(tǒng)工作效率。“視頻結(jié)構(gòu)化”,簡(jiǎn)言之即從視頻中結(jié)構(gòu)化提取關(guān)鍵目標(biāo),包括車輛、人及其特征等。雖然這種對(duì)數(shù)據(jù)的有效壓縮要通過算法實(shí)現(xiàn),但硬件的支持不可或缺。
視頻結(jié)構(gòu)化數(shù)據(jù)提取實(shí)例
根據(jù)??低曁峁﹤鹘y(tǒng)視頻解碼芯片廠商積極布局AI升級(jí)。華為海思、安霸(Ambarella)都在近一年內(nèi)推出了支持AI的安防邊緣推斷芯片。海思的HI3559A配備了雙核神經(jīng)網(wǎng)絡(luò)加速引擎,并成為第一款支持8k視頻的芯片;安霸也通過集成Cvflows張量處理器到最新的CV2S芯片中,以實(shí)現(xiàn)對(duì)CNN/DNN算法的支持。
AI芯片助力結(jié)構(gòu)化分析實(shí)現(xiàn)工作效率提升
打入視頻監(jiān)控解決方案龍頭??低暎瑢?shí)現(xiàn)前裝的Nvidia,Movidius同樣不甘示弱,Movidius發(fā)布的最新產(chǎn)品MyriadX搭載神經(jīng)計(jì)算引擎,在2W的功耗下可實(shí)現(xiàn)1TOPS的算力。NvidiaTX2是TX1的升級(jí)產(chǎn)品,算力更強(qiáng),達(dá)到1.5TFLOPS,存儲(chǔ)能力也有提升。
安防AI芯片對(duì)比
我們認(rèn)為,目前整個(gè)安防AI芯片市場(chǎng)競(jìng)爭(zhēng)格局穩(wěn)定,現(xiàn)有廠商憑借與下游客戶長(zhǎng)期的合作,有望繼續(xù)受益于安防智能化的升級(jí),屬于新進(jìn)入者的市場(chǎng)空間有限。安防AI芯片下游客戶穩(wěn)定,為??低?、大華股份等視頻監(jiān)控解決方案提供商??蛻襞c傳統(tǒng)視頻解碼芯片廠商的長(zhǎng)期合作具有粘性,同樣推出新產(chǎn)品,初創(chuàng)公司的競(jìng)爭(zhēng)優(yōu)勢(shì)弱一些,尤其是在安防AI芯片性能差異化很難做到很大的情況下。
用于自動(dòng)駕駛的邊緣推斷芯片:一片藍(lán)海,新競(jìng)爭(zhēng)者有望突圍
除了智能手機(jī),安防外,自動(dòng)駕駛汽車也是人工智能的落地場(chǎng)景之一。車用半導(dǎo)體強(qiáng)大需求已經(jīng)使供給端產(chǎn)能開始吃緊,而用于自動(dòng)駕駛的推斷芯片需求,同樣有望在未來5年內(nèi)實(shí)現(xiàn)高速增長(zhǎng)。我們預(yù)計(jì),其市場(chǎng)規(guī)模將從2017年的8.5億美元,增長(zhǎng)至2022年的52億美元,CAGR~44%。若想使車輛實(shí)現(xiàn)真正的自動(dòng)駕駛,要經(jīng)歷在感知-建模-決策三個(gè)階段,每個(gè)階段都離不開終端推斷芯片的計(jì)算。
應(yīng)用場(chǎng)景#1:自動(dòng)駕駛芯片助力環(huán)境感知
在車輛感知周圍環(huán)境的過程中,融合各路傳感器的數(shù)據(jù)并進(jìn)行分析是一項(xiàng)艱巨的工作,推斷芯片在其中起到了關(guān)鍵性作用。我們首先要對(duì)各路獲得的“圖像”數(shù)據(jù)進(jìn)行分類,在此基礎(chǔ)之上,以包圍盒的(boundingbox)形式辨別出圖像中的目標(biāo)具體在什么位置。
但這并不能滿足需求:車輛必須要辨別目標(biāo)到底是其他車輛,是標(biāo)志物,是信號(hào)燈,還是人等等,因?yàn)椴煌繕?biāo)的行為方式各異,其位置、狀態(tài)變化,會(huì)影響到車輛最終的決策,因而我們要對(duì)圖像進(jìn)行語(yǔ)義分割(segmantation,自動(dòng)駕駛的核心算法技術(shù))。語(yǔ)義分割的快慢和推斷芯片計(jì)算能力直接相關(guān),時(shí)延大的芯片很顯然存在安全隱患,不符合自動(dòng)駕駛的要求。
自動(dòng)駕駛推斷芯片+算法實(shí)現(xiàn)視頻的像素級(jí)語(yǔ)義分割
應(yīng)用場(chǎng)景#2:自動(dòng)駕駛芯片助力避障規(guī)劃
避障規(guī)劃是車輛主要探測(cè)障礙物,并對(duì)障礙物的移動(dòng)軌跡跟蹤(Movingobjectdetectionandtracking,即MODAT)做出下一步可能位臵的推算,最終繪制出一幅含有現(xiàn)存、及潛在風(fēng)險(xiǎn)障礙物地圖的行為。出于安全的要求,這個(gè)風(fēng)險(xiǎn)提示的時(shí)延應(yīng)該被控制在50ms級(jí)。
隨著車速越來越快,無(wú)人車可行駛的路況越來越復(fù)雜,該數(shù)值在未來需要進(jìn)一步縮短,對(duì)算法效率及推斷芯片的算力都是極大的挑戰(zhàn)。例如,在復(fù)雜的城區(qū)路況下,所需算力可能超過30TOPS。未來V2X地圖的加入,將基本上確保了無(wú)人車的主動(dòng)安全性,但同樣對(duì)推斷芯片的性能提出了更高的要求。
自動(dòng)駕駛推斷芯片+算法實(shí)現(xiàn)自動(dòng)駕駛避障規(guī)劃
從以上應(yīng)用場(chǎng)景不難看出,自動(dòng)駕駛對(duì)芯片算力提出了很高的要求,而受限于時(shí)延及可靠性,有關(guān)自動(dòng)駕駛的計(jì)算不能在云端進(jìn)行,因此邊緣推斷芯片升級(jí)勢(shì)在必行。根據(jù)豐田公司的統(tǒng)計(jì)數(shù)據(jù),實(shí)現(xiàn)L5級(jí)完全自動(dòng)駕駛,至少需要12TOPS的推斷算力,按現(xiàn)行先進(jìn)的NvidiaPX2自動(dòng)駕駛平臺(tái)測(cè)算,差不多需要15塊PX2車載計(jì)算機(jī),才能滿足完全自動(dòng)駕駛的需求。
自動(dòng)駕駛算力需求加速芯片升級(jí)
傳統(tǒng)車載半導(dǎo)體廠商積極布局自動(dòng)駕駛。近些年來,各傳統(tǒng)車載半導(dǎo)體供應(yīng)商紛紛涉獵自動(dòng)駕駛業(yè)務(wù),推出了各自的自動(dòng)駕駛,或輔助駕駛平臺(tái),如TI推出了面向于L1/2級(jí)的平價(jià)產(chǎn)品,而Renesas和NXP步入中高端市場(chǎng)。V3M與Bluebox分別是兩家的代表性產(chǎn)品,均滿足客戶L3級(jí)自動(dòng)駕駛需求。目前NXP的Bluebox2.0也在測(cè)試中。
老牌廠商中Mobileye(被Intel收購(gòu))在自動(dòng)駕駛邊緣推斷芯片上表現(xiàn)最為搶眼,其EyeQ3芯片已經(jīng)被集成于新一代量產(chǎn)AudiA8中的zFAS平臺(tái)上,而A8也因此成為第一款支持L3級(jí)自動(dòng)駕駛的車型。
下一代產(chǎn)品中,Mobileye和新秀Nvidia有望實(shí)現(xiàn)領(lǐng)先。Mobileye更注重算法端,強(qiáng)調(diào)軟硬件結(jié)合帶來的效率提升,其開發(fā)的最新EyeQ5芯片在10W的功耗下就能達(dá)到24TOPS的算力。英偉達(dá)作為傳統(tǒng)硬件廠商,借助于GPU圖形處理的優(yōu)勢(shì),也在自動(dòng)駕駛市場(chǎng)取得了相應(yīng)的領(lǐng)先地位,其芯片更注重絕對(duì)算力表現(xiàn)。將于今年三季度流片,2019年三季度量產(chǎn)的“算力怪獸”Pegasus平臺(tái),搭載了兩塊Nvidia下一代的GPU,將實(shí)現(xiàn)320TOPS的超強(qiáng)計(jì)算能力,完全覆蓋L5級(jí)別應(yīng)用的需求。
自動(dòng)駕駛平臺(tái)對(duì)比
對(duì)比其他終端應(yīng)用場(chǎng)景,自動(dòng)駕駛不僅計(jì)算復(fù)雜程度最高,車規(guī)級(jí)要求也為芯片設(shè)立了更高的準(zhǔn)入門檻,其硬件升級(jí)落地相對(duì)緩慢。目前各廠商下一代的自動(dòng)駕駛平臺(tái)最早計(jì)劃于2019年量產(chǎn),現(xiàn)今上市平臺(tái)中,芯片大多只支持L2/3級(jí)。之前Uber的無(wú)人車事故,也對(duì)整個(gè)行業(yè)的發(fā)展造成了拖累。
下一代自動(dòng)駕駛AI芯片流片及投產(chǎn)時(shí)間預(yù)估
自動(dòng)駕駛芯片市場(chǎng)仍處于初期起步階段。雖然NXP等傳統(tǒng)半導(dǎo)體廠商深耕于汽車電子多年,獲得了一定的客戶粘性,但在自動(dòng)駕駛業(yè)務(wù)上,整個(gè)市場(chǎng)還未形成非常明顯的競(jìng)爭(zhēng)格局??蛻粢苍诓粩鄿y(cè)試芯片廠商的產(chǎn)品,來實(shí)現(xiàn)最優(yōu)選擇。根據(jù)各公司披露的數(shù)據(jù),目前各大芯片廠商與整車廠(OEM)及Tier1廠商都開展了緊密的合作,但客戶數(shù)量不相上下。
從客戶的偏好來看,傳統(tǒng)大廠愿意自行搭建平臺(tái),再采購(gòu)所需芯片,而新車廠偏向于直接購(gòu)買自動(dòng)駕駛平臺(tái)。介于實(shí)現(xiàn)完全自動(dòng)駕駛非常復(fù)雜,目前還在起步階段,我們認(rèn)為初創(chuàng)公司在整個(gè)行業(yè)的發(fā)展中是有機(jī)會(huì)的,并看好技術(shù)領(lǐng)先,能與車廠達(dá)成密切合作的初創(chuàng)公司。
各芯片廠商合作方比較
主要中國(guó)AI芯片公司介紹
中國(guó)大陸目前有超20家企業(yè)投入AI芯片的研發(fā)中來。除了像華為海思、紫光展銳這種深耕于芯片設(shè)計(jì)多年的企業(yè)之外,也有不少初創(chuàng)公司表現(xiàn)搶眼,如寒武紀(jì)、比特大陸等。此外,臺(tái)灣地區(qū)的GUC(創(chuàng)意電子)是一家IC后端設(shè)計(jì)公司,憑借20年的行業(yè)經(jīng)驗(yàn),和投資方晶圓制造巨頭臺(tái)積電的鼎力支持,在AI芯片高速發(fā)展的大環(huán)境下也有望受益。
中國(guó)大陸主要AI芯片設(shè)計(jì)公司至少有20家
以下企業(yè)值得關(guān)注:
海思半導(dǎo)體(Hisilicon)
海思半導(dǎo)體成立于2004年10月,是華為集團(tuán)的全資子公司。海思的芯片產(chǎn)品覆蓋無(wú)線網(wǎng)絡(luò)、固網(wǎng)及數(shù)字媒體等多個(gè)領(lǐng)域,其AI芯片為Kirin970手機(jī)SoC及安防芯片Hi3559AV100。Kirin970集成NPU神經(jīng)處理單元,是全球第一款手機(jī)AI芯片,它在處理靜態(tài)神經(jīng)網(wǎng)絡(luò)模型方面有得天獨(dú)厚的優(yōu)勢(shì)。而Hi3559AV100是一款性能領(lǐng)先的支持8k視頻的AI芯片。
清華紫光展銳(TsinghuaUNISOC)
清華紫光集團(tuán)于2013年、2014年先后完成對(duì)展訊及銳迪科微電子的收購(gòu),2016年再將二者合并,成立紫光展銳。紫光展銳是全球第三大手機(jī)基帶芯片設(shè)計(jì)公司,是中國(guó)領(lǐng)先的5G通信芯片企業(yè)。Gartner的數(shù)據(jù)顯示,紫光展銳手機(jī)基帶芯片2017年出貨量的全球占比為11%。除此之外,展銳還擁有手機(jī)AI芯片業(yè)務(wù),推出了采用8核ARMA55處理器的人工智能SoC芯片SC9863,支持基于深度神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別技術(shù),AI處理能力比上一代提升6倍。
GUC(臺(tái)灣創(chuàng)意電子,3443TT)
公司介紹:GUC是彈性客制化IC領(lǐng)導(dǎo)廠商(TheFlexibleASICLeaderTM),主要從事IC后端設(shè)計(jì)。后端設(shè)計(jì)工作以布局布線為起點(diǎn),以生成可以送交晶圓廠進(jìn)行流片的GDS2文件為終點(diǎn),需要很多的經(jīng)驗(yàn),是芯片實(shí)現(xiàn)流片的重要一環(huán)。初創(chuàng)公司同時(shí)完成前后端設(shè)計(jì)難度較大。在AI芯片設(shè)計(jì)發(fā)展的大環(huán)境下,加上大股東臺(tái)積電的支持,GUC有望獲得大的后端訂單。公司已在臺(tái)灣證券交易所掛牌上市,股票代號(hào)為3443。
以下為初創(chuàng)公司:
寒武紀(jì)科技(CambriconTechnologies)
寒武紀(jì)創(chuàng)立于2016年3月,是中科院孵化的高科技企業(yè),主要投資人為國(guó)投創(chuàng)業(yè)和阿里巴巴等。公司產(chǎn)品分為終端AI芯片及云端AI芯片。終端AI芯片采用IP授權(quán)模式,其產(chǎn)品Cambricon-1A是全球首個(gè)實(shí)現(xiàn)商用的深度學(xué)習(xí)處理器IP。去年年底公司新發(fā)布了第三代機(jī)器學(xué)習(xí)專用IPCambricon-1M,采用7nm工藝,性能差不多高出1A達(dá)10倍。云端產(chǎn)品上,寒武紀(jì)開發(fā)了MLU100AI芯片,支持訓(xùn)練和推斷,單位功耗算力表現(xiàn)突出。
比特大陸(Bitmain)
比特大陸成立于2013年10月,是全球第一大比特幣礦機(jī)公司,目前占領(lǐng)了全球比特幣礦機(jī)60%以上的市場(chǎng)。由于AI行業(yè)發(fā)展迅速及公司發(fā)展需要,公司將業(yè)務(wù)拓展至AI領(lǐng)域,并于與2017年推出云端AI芯片BM1680,支持訓(xùn)練和推斷。目前公司已推出第二代產(chǎn)品BM1682,相較上一代性能提升5倍以上。
地平線機(jī)器人(HorizonRobotics)
成立于2015年7月,地平線是一家注重軟硬件結(jié)合的AI初創(chuàng)公司,由Intel、嘉實(shí)資本、高瓴資本領(lǐng)投。公司主攻安防和自動(dòng)駕駛兩個(gè)應(yīng)用場(chǎng)景,產(chǎn)品為征程1.0芯片(支持L2自動(dòng)駕駛)和旭日1.0(用于安防智能攝像頭),具有高性能(實(shí)時(shí)處理1080P@30幀,并對(duì)每幀中的200個(gè)目標(biāo)進(jìn)行檢測(cè)、跟蹤、識(shí)別)、低功耗(典型功耗在1.5W)、和低延遲的優(yōu)勢(shì)(延遲小于30毫秒)。公司二代自動(dòng)駕駛芯片將于1Q19流片,實(shí)現(xiàn)語(yǔ)義建模。
云天勵(lì)飛(Intellifusion)
公司創(chuàng)立于2014年8月,由山水從容傳媒、松禾資本領(lǐng)投,主攻安防AI芯片。其自研IPU芯片是低功耗的深度學(xué)習(xí)專用處理器,內(nèi)含專用圖像處理加速引擎,通過級(jí)聯(lián)擴(kuò)展最多可處理64路視頻。能耗比突出,超過2Tops/Watt。
異構(gòu)智能(NovuMind)
異構(gòu)智能創(chuàng)立于2015年8月,由洪泰基金、寬帶資本、真格基金和英諾天使投資。2018年公司展示了其首款云端AI芯片NovuTensor,基于FPGA實(shí)現(xiàn),性能已達(dá)到目前最先進(jìn)的桌面服務(wù)器GPU的一半以上,而耗電量?jī)H有1/20。公司即將推出的第二款A(yù)SIC芯片,能耗不超5W,計(jì)算性能達(dá)15TOPs,將被用于安防和自動(dòng)駕駛應(yīng)用中。
龍加智(Dinoplus)
創(chuàng)立于2017年7月龍加智是專注于云端芯片的AI初創(chuàng)公司,由摯信資本和翊翎資本領(lǐng)投。其產(chǎn)品Dino-TPU在75W功耗下,計(jì)算能力超過除最新款NvidiaVolta之外的所有GPU,時(shí)延僅為VoltaV100的1/10。同時(shí),Dino-TPU提供市場(chǎng)上獨(dú)一無(wú)二的冗余備份和數(shù)據(jù)安全保障。公司計(jì)劃于2018年底完成第一款芯片的流片。