【中國傳動網(wǎng) 市場分析】
一、基本知識及現(xiàn)狀
從廣義上講只要能夠運行人工智能算法的芯片都叫作AI芯片。但是通常意義上的AI芯片指的是針對人工智能算法做了特殊加速設計的芯片,現(xiàn)階段,這些人工智能算法一般以深度學習算法為主,也可以包括其它機器學習算法。
深度學習算法,通常是基于接收到的連續(xù)數(shù)值,通過學習處理,并輸出連續(xù)數(shù)值的過程,實質(zhì)上并不能完全模仿生物大腦的運作機制。基于這一現(xiàn)實,研究界還提出了SNN(SpikingNeuralNetwork,脈沖神經(jīng)網(wǎng)絡)模型。作為第三代神經(jīng)網(wǎng)絡模型,SNN更貼近生物神經(jīng)網(wǎng)絡——除了神經(jīng)元和突觸模型更貼近生物神經(jīng)元與突觸之外,SNN還將時域信息引入了計算模型。目前基于SNN的AI芯片主要以IBM的TrueNorth、Intel的Loihi以及國內(nèi)的清華大學天機芯為代表。
1、AI芯片發(fā)展歷程
從圖靈的論文《計算機器與智能》和圖靈測試,到最初級的神經(jīng)元模擬單元——感知機,再到現(xiàn)在多達上百層的深度神經(jīng)網(wǎng)絡,人類對人工智能的探索從來就沒有停止過。上世紀八十年代,多層神經(jīng)網(wǎng)絡和反向傳播算法的出現(xiàn)給人工智能行業(yè)點燃了新的火花。反向傳播的主要創(chuàng)新在于能將信息輸出和目標輸出之間的誤差通過多層網(wǎng)絡往前一級迭代反饋,將最終的輸出收斂到某一個目標范圍之內(nèi)。1989年貝爾實驗室成功利用反向傳播算法,在多層神經(jīng)網(wǎng)絡開發(fā)了一個手寫郵編識別器。1998年YannLeCun和YoshuaBengio發(fā)表了手寫識別神經(jīng)網(wǎng)絡和反向傳播優(yōu)化相關的論文《Gradient-basedlearningappliedtodocumentrecognition》,開創(chuàng)了卷積神經(jīng)網(wǎng)絡的時代。
此后,人工智能陷入了長時間的發(fā)展沉寂階段,直到1997年IBM的深藍戰(zhàn)勝國際象棋大師和2011年IBM的沃森智能系統(tǒng)在Jeopardy節(jié)目中勝出,人工智能才又一次為人們所關注。2016年AlphaGo擊敗韓國圍棋九段職業(yè)選手,則標志著人工智能的又一波高潮。從基礎算法、底層硬件、工具框架到實際應用場景,現(xiàn)階段的人工智能領域已經(jīng)全面開花。
作為人工智能核心的底層硬件AI芯片,也同樣經(jīng)歷了多次的起伏和波折,總體看來,AI芯片的發(fā)展前后經(jīng)歷了四次大的變化,其發(fā)展歷程如圖所示。
(1)2007年以前,AI芯片產(chǎn)業(yè)一直沒有發(fā)展成為成熟的產(chǎn)業(yè);同時由于當時算法、數(shù)據(jù)量等因素,這個階段AI芯片并沒有特別強烈的市場需求,通用的CPU芯片即可滿足應用需要。
(2)隨著高清視頻、VR、AR游戲等行業(yè)的發(fā)展,GPU產(chǎn)品取得快速的突破;同時人們發(fā)現(xiàn)GPU的并行計算特性恰好適應人工智能算法及大數(shù)據(jù)并行計算的需求,如GPU比之前傳統(tǒng)的CPU在深度學習算法的運算上可以提高幾十倍的效率,因此開始嘗試使用GPU進行人工智能計算。
(3)進入2010年后,云計算廣泛推廣,人工智能的研究人員可以通過云計算借助大量CPU和GPU進行混合運算,進一步推進了AI芯片的深入應用,從而催生了各類AI芯片的研發(fā)與應用。
(4)人工智能對于計算能力的要求不斷快速地提升,進入2015年后,GPU性能功耗比不高的特點使其在工作適用場合受到多種限制,業(yè)界開始研發(fā)針對人工智能的專用芯片,以期通過更好的硬件和芯片架構,在計算效率、能耗比等性能上得到進一步提升。
2、我國AI芯片發(fā)展情況
目前,我國的人工智能芯片行業(yè)發(fā)展尚處于起步階段。長期以來,中國在CPU、GPU、DSP處理器設計上一直處于追趕地位,絕大部分芯片設計企業(yè)依靠國外的IP核設計芯片,在自主創(chuàng)新上受到了極大的限制。然而,人工智能的興起,無疑為中國在處理器領域?qū)崿F(xiàn)彎道超車提供了絕佳的機遇。
人工智能領域的應用目前還處于面向行業(yè)應用階段,生態(tài)上尚未形成壟斷,國產(chǎn)處理器廠商與國外競爭對手在人工智能這一全新賽場上處在同一起跑線上,因此,基于新興技術和應用市場,中國在建立人工智能生態(tài)圈方面將大有可為。
由于我國特殊的環(huán)境和市場,國內(nèi)AI芯片的發(fā)展目前呈現(xiàn)出百花齊放、百家爭鳴的態(tài)勢,AI芯片的應用領域也遍布股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領域,催生了大量的人工智能芯片創(chuàng)業(yè)公司,如地平線、深鑒科技、中科寒武紀等。
盡管如此,國內(nèi)公司卻并未如國外大公司一樣形成市場規(guī)模,反而出現(xiàn)各自為政的散裂發(fā)展現(xiàn)狀。除了新興創(chuàng)業(yè)公司,國內(nèi)研究機構如北京大學、清華大學、中國科學院等在AI芯片領域都有深入研究;而其他公司如百度和比特大陸等,2017年也有一些成果發(fā)布。可以預見,未來誰先在人工智能領域掌握了生態(tài)系統(tǒng),誰就掌握住了這個產(chǎn)業(yè)的主動權。
3、AI學者概況
基于來自清華大學AMiner人才庫數(shù)據(jù),全球人工智能芯片領域?qū)W者分布如圖所示,從圖中可以看到,人工智能芯片領域的學者主要分布在北美洲,其次是歐洲。中國對人工智能芯片的研究緊跟其后,南美洲、非洲和大洋洲人才相對比較匱乏。
按國家進行統(tǒng)計來看美國是人工智能芯片領域科技發(fā)展的核心。英國的人數(shù)緊排在美國之后。其他的專家主要分布在中國、德國、加拿大、意大利和日本。
對全球人工智能芯片領域最具影響力的1000人的遷徙路徑進行了統(tǒng)計分析,得出下圖所示的各國人才逆順差對比。
可以看出,各國人才的流失和引進是相對比較均衡的,其中美國為人才流動大國,人才輸入和輸出幅度都大幅度領先。英國、中國、德國和瑞士等國次于美國,但各國之間人才流動相差并不明顯。
二、AI芯片的分類及技術
人工智能芯片目前有兩種發(fā)展路徑:一種是延續(xù)傳統(tǒng)計算架構,加速硬件計算能力,主要以3種類型的芯片為代表,即GPU、FPGA、ASIC,但CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮·諾依曼計算架構,采用類腦神經(jīng)結(jié)構來提升計算能力,以IBMTrueNorth芯片為代表。
1、傳統(tǒng)的CPU
計算機工業(yè)從1960年代早期開始使用CPU這個術語。迄今為止,CPU從形態(tài)、設計到實現(xiàn)都已發(fā)生了巨大的變化,但是其基本工作原理卻一直沒有大的改變。通常CPU由控制器和運算器這兩個主要部件組成。傳統(tǒng)的CPU內(nèi)部結(jié)構圖如圖3所示,從圖中我們可以看到:實質(zhì)上僅單獨的ALU模塊(邏輯運算單元)是用來完成數(shù)據(jù)計算的,其他各個模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。這種通用性結(jié)構對于傳統(tǒng)的編程計算模式非常適合,同時可以通過提升CPU主頻(提升單位時間內(nèi)執(zhí)行指令的條數(shù))來提升計算速度。
但對于深度學習中的并不需要太多的程序指令、卻需要海量數(shù)據(jù)運算的計算需求,這種結(jié)構就顯得有些力不從心。尤其是在功耗限制下,無法通過無限制的提升CPU和內(nèi)存的工作頻率來加快指令執(zhí)行速度,這種情況導致CPU系統(tǒng)的發(fā)展遇到不可逾越的瓶頸。
2、并行加速計算的GPU
GPU作為最早從事并行加速計算的處理器,相比CPU速度快,同時比其他加速器芯片編程靈活簡單。
傳統(tǒng)的CPU之所以不適合人工智能算法的執(zhí)行,主要原因在于其計算指令遵循串行執(zhí)行的方式,沒能發(fā)揮出芯片的全部潛力。與之不同的是,GPU具有高并行結(jié)構,在處理圖形數(shù)據(jù)和復雜算法方面擁有比CPU更高的效率。對比GPU和CPU在結(jié)構上的差異,CPU大部分面積為控制器和寄存器,而GPU擁有更ALU(ARITHMETICLOGICUNIT,邏輯運算單元)用于數(shù)據(jù)處理,這樣的結(jié)構適合對密集型數(shù)據(jù)進行并行處理,CPU與GPU的結(jié)構對比如圖所示。程序在GPU系統(tǒng)上的運行速度相較于單核CPU往往提升幾十倍乃至上千倍。隨著英偉達、AMD等公司不斷推進其對GPU大規(guī)模并行架構的支持,面向通用計算的GPU(即GPGPU,GENERALPURPOSEGPU,通用計算圖形處理器)已成為加速可并行應用程序的重要手段。
GPU的發(fā)展歷程可分為3個階段,發(fā)展歷程如圖所示:
第一代GPU(1999年以前),部分功能從CPU分離,實現(xiàn)硬件加速,以GE(GEOMETRYENGINE)為代表,只能起到3D圖像處理的加速作用,不具有軟件編程特性。
第二代GPU(1999-2005年),實現(xiàn)進一步的硬件加速和有限的編程性。1999年,英偉達發(fā)布了“專為執(zhí)行復雜的數(shù)學和幾何計算的”GeForce256圖像處理芯片,將更多的晶體管用作執(zhí)行單元,而不是像CPU那樣用作復雜的控制單元和緩存,將T&L(TRANSFORMANDLIGHTING)等功能從CPU分離出來,實現(xiàn)了快速變換,這成為GPU真正出現(xiàn)的標志。之后幾年,GPU技術快速發(fā)展,運算速度迅速超過CPU。2001年英偉達和ATI分別推出的GEFORCE3和RADEON8500,圖形硬件的流水線被定義為流處理器,出現(xiàn)了頂點級可編程性,同時像素級也具有有限的編程性,但GPU的整體編程性仍然比較有限。
第三代GPU(2006年以后),GPU實現(xiàn)方便的編程環(huán)境創(chuàng)建,可以直接編寫程序。2006年英偉達與ATI分別推出了CUDA(ComputeUnitedDeviceArchitecture,計算統(tǒng)一設備架構)編程環(huán)境和CTM(CLOSETOTHEMETAL)編程環(huán)境,使得GPU打破圖形語言的局限成為真正的并行數(shù)據(jù)處理超級加速器。
2008年,蘋果公司提出一個通用的并行計算編程平臺OPENCL(OPENCOMPUTINGLANGUAGE,開放運算語言),與CUDA綁定在英偉達的顯卡上不同,OPENCL和具體的計算設備無關。
目前,GPU已經(jīng)發(fā)展到較為成熟的階段。谷歌、FACEBOOK、微軟、TWITTER和百度等公司都在使用GPU分析圖片、視頻和音頻文件,以改進搜索和圖像標簽等應用功能。此外,很多汽車生產(chǎn)商也在使用GPU芯片發(fā)展無人駕駛。不僅如此,GPU也被應用于VR/AR相關的產(chǎn)業(yè)。
但是GPU也有一定的局限性。深度學習算法分為訓練和推斷兩部分,GPU平臺在算法訓練上非常高效。但在推斷中對于單項輸入進行處理的時候,并行計算的優(yōu)勢不能完全發(fā)揮出來。
3、半定制化的FPGA
FPGA是在PAL、GAL、CPLD等可編程器件基礎上進一步發(fā)展的產(chǎn)物。用戶可以通過燒入FPGA配置文件來定義這些門電路以及存儲器之間的連線。這種燒入不是一次性的,比如用戶可以把FPGA配置成一個微控制器MCU,使用完畢后可以編輯配置文件把同一個FPGA配置成一個音頻編解碼器。因此,它既解決了定制電路靈活性的不足,又克服了原有可編程器件門電路數(shù)有限的缺點。
FPGA可同時進行數(shù)據(jù)并行和任務并行計算,在處理特定應用時有更加明顯的效率提升。對于某個特定運算,通用CPU可能需要多個時鐘周期;而FPGA可以通過編程重組電路,直接生成專用電路,僅消耗少量甚至一次時鐘周期就可完成運算。
此外,由于FPGA的靈活性,很多使用通用處理器或ASIC難以實現(xiàn)的底層硬件控制操作技術,利用FPGA可以很方便的實現(xiàn)。這個特性為算法的功能實現(xiàn)和優(yōu)化留出了更大空間。同時FPGA一次性成本(光刻掩模制作成本)遠低于ASIC,在芯片需求還未成規(guī)模、深度學習算法暫未穩(wěn)定,需要不斷迭代改進的情況下,利用FPGA芯片具備可重構的特性來實現(xiàn)半定制的人工智能芯片是最佳選擇之一。
功耗方面,從體系結(jié)構而言,F(xiàn)PGA也具有天生的優(yōu)勢。傳統(tǒng)的馮氏結(jié)構中,執(zhí)行單元(如CPU核)執(zhí)行任意指令,都需要有指令存儲器、譯碼器、各種指令的運算器及分支跳轉(zhuǎn)處理邏輯參與運行,而FPGA每個邏輯單元的功能在重編程(即燒入)時就已經(jīng)確定,不需要指令,無需共享內(nèi)存,從而可以極大的降低單位執(zhí)行的功耗,提高整體的能耗比。
由于FPGA具備靈活快速的特點,因此在眾多領域都有替代ASIC的趨勢。FPGA在人工智能領域的應用如圖所示。
4、全定制化的ASIC
目前以深度學習為代表的人工智能計算需求,主要采用GPU、FPGA等已有的適合并行計算的通用芯片來實現(xiàn)加速。在產(chǎn)業(yè)應用沒有大規(guī)模興起之時,使用這類已有的通用芯片可以避免專門研發(fā)定制芯片(ASIC)的高投入和高風險。但是,由于這類通用芯片設計初衷并非專門針對深度學習,因而天然存在性能、功耗等方面的局限性。隨著人工智能應用規(guī)模的擴大,這類問題日益突顯。
GPU作為圖像處理器,設計初衷是為了應對圖像處理中的大規(guī)模并行計算。因此,在應用于深度學習算法時,有三個方面的局限性:
第一,應用過程中無法充分發(fā)揮并行計算優(yōu)勢。深度學習包含訓練和推斷兩個計算環(huán)節(jié),GPU在深度學習算法訓練上非常高效,但對于單一輸入進行推斷的場合,并行度的優(yōu)勢不能完全發(fā)揮。
第二,無法靈活配置硬件結(jié)構。GPU采用SIMT計算模式,硬件結(jié)構相對固定。
目前深度學習算法還未完全穩(wěn)定,若深度學習算法發(fā)生大的變化,GPU無法像FPGA一樣可以靈活的配制硬件結(jié)構。第三,運行深度學習算法能效低于FPGA。
盡管FPGA倍受看好,甚至新一代百度大腦也是基于FPGA平臺研發(fā),但其畢竟不是專門為了適用深度學習算法而研發(fā),實際應用中也存在諸多局限:
第一,基本單元的計算能力有限。為了實現(xiàn)可重構特性,F(xiàn)PGA內(nèi)部有大量極細粒度的基本單元,但是每個單元的計算能力(主要依靠LUT查找表)都遠遠低于CPU和GPU中的ALU模塊;
第二、計算資源占比相對較低。為實現(xiàn)可重構特性,F(xiàn)PGA內(nèi)部大量資源被用于可配置的片上路由與連線;
第三,速度和功耗相對專用定制芯片(ASIC)仍然存在不小差距;
第四,F(xiàn)PGA價格較為昂貴,在規(guī)模放量的情況下單塊FPGA的成本要遠高于專用定制芯片。
因此,隨著人工智能算法和應用技術的日益發(fā)展,以及人工智能專用芯片ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟,全定制化人工智能ASIC也逐步體現(xiàn)出自身的優(yōu)勢,從事此類芯片研發(fā)與應用的國內(nèi)外比較有代表性的公司如圖所示。
深度學習算法穩(wěn)定后,AI芯片可采用ASIC設計方法進行全定制,使性能、功耗和面積等指標面向深度學習算法做到最優(yōu)。
5、類腦芯片
類腦芯片不采用經(jīng)典的馮·諾依曼架構,而是基于神經(jīng)形態(tài)架構設計,以IBMTruenorth為代表。IBM研究人員將存儲單元作為突觸、計算單元作為神經(jīng)元、傳輸單元作為軸突搭建了神經(jīng)芯片的原型。
目前,Truenorth用三星28nm功耗工藝技術,由54億個晶體管組成的芯片構成的片上網(wǎng)絡有4096個神經(jīng)突觸核心,實時作業(yè)功耗僅為70mW。由于神經(jīng)突觸要求權重可變且要有記憶功能,IBM采用與CMOS工藝兼容的相變非揮發(fā)存儲器(PCM)的技術實驗性的實現(xiàn)了新型突觸,加快了商業(yè)化進程。
三、AI芯片產(chǎn)業(yè)及趨勢
1、AI芯片應用領域
隨著人工智能芯片的持續(xù)發(fā)展,應用領域會隨時間推移而不斷向多維方向發(fā)展,這里我們選擇目前發(fā)展比較集中的幾個行業(yè)做相關的介紹。
AI芯片目前比較集中的應用領域
(1)智能手機
2017年9月,華為在德國柏林消費電子展發(fā)布了麒麟970芯片,該芯片搭載了寒武紀的NPU,成為“全球首款智能手機移動端AI芯片”;2017年10月中旬Mate10系列新品(該系列手機的處理器為麒麟970)上市。搭載了NPU的華為Mate10系列智能手機具備了較強的深度學習、本地端推斷能力,讓各類基于深度神經(jīng)網(wǎng)絡的攝影、圖像處理應用能夠為用戶提供更加完美的體驗。
而蘋果發(fā)布以iPhoneX為代表的手機及它們內(nèi)置的A11Bionic芯片。A11Bionic中自主研發(fā)的雙核架構NeuralEngine(神經(jīng)網(wǎng)絡處理引擎),它每秒處理相應神經(jīng)網(wǎng)絡計算需求的次數(shù)可達6000億次。這個NeuralEngine的出現(xiàn),讓A11Bionic成為一塊真正的AI芯片。A11Bionic大大提升了iPhoneX在拍照方面的使用體驗,并提供了一些富有創(chuàng)意的新用法。
(2)ADAS(高級輔助駕駛系統(tǒng))
ADAS是最吸引大眾眼球的人工智能應用之一,它需要處理海量的由激光雷達、毫米波雷達、攝像頭等傳感器采集的實時數(shù)據(jù)。相對于傳統(tǒng)的車輛控制方法,智能控制方法主要體現(xiàn)在對控制對象模型的運用和綜合信息學習運用上,包括神經(jīng)網(wǎng)絡控制和深度學習方法等,得益于AI芯片的飛速發(fā)展,這些算法已逐步在車輛控制中得到應用。
(3)CV(計算機視覺(ComputerVision)設備
需要使用計算機視覺技術的設備,如智能攝像頭、無人機、行車記錄儀、人臉識別迎賓機器人以及智能手寫板等設備,往往都具有本地端推斷的需要,如果僅能在聯(lián)網(wǎng)下工作,無疑將帶來糟糕的體驗。而計算機視覺技術目前看來將會成為人工智能應用的沃土之一,計算機視覺芯片將擁有廣闊的市場前景。
(4)VR設備
VR設備芯片的代表為HPU芯片,是微軟為自身VR設備Hololens研發(fā)定制的。這顆由臺積電代工的芯片能同時處理來自5個攝像頭、1個深度傳感器以及運動傳感器的數(shù)據(jù),并具備計算機視覺的矩陣運算和CNN運算的加速功能。這使得VR設備可重建高質(zhì)量的人像3D影像,并實時傳送到任何地方。
(5)語音交互設備
語音交互設備芯片方面,國內(nèi)有啟英泰倫以及云知聲兩家公司,其提供的芯片方案均內(nèi)置了為語音識別而優(yōu)化的深度神經(jīng)網(wǎng)絡加速方案,實現(xiàn)設備的語音離線識別。穩(wěn)定的識別能力為語音技術的落地提供了可能;與此同時,語音交互的核心環(huán)節(jié)也取得重大突破。語音識別環(huán)節(jié)突破了單點能力,從遠場識別,到語音分析和語義理解有了重大突破,呈現(xiàn)出一種整體的交互方案。
(6)機器人
無論是家居機器人還是商用服務機器人均需要專用軟件+芯片的人工智能解決方案,這方面典型公司有由前百度深度學習實驗室負責人余凱創(chuàng)辦的地平線機器人,當然地平線機器人除此之外,還提供ADAS、智能家居等其他嵌入式人工智能解決方案。
2、AI芯片國內(nèi)外代表性企業(yè)
本篇將介紹目前人工智能芯片技術領域的國內(nèi)外代表性企業(yè)。文中排名不分先后。人工智能芯片技術領域的國內(nèi)代表性企業(yè)包括中科寒武紀、中星微、地平線機器人、深鑒科技、靈汐科技、啟英泰倫、百度、華為等,國外包括英偉達、AMD、Google、高通、NervanaSystems、Movidius、IBM、ARM、CEVA、MIT/Eyeriss、蘋果、三星等。
中科寒武紀
寒武紀科技成立于2016年,總部在北京,創(chuàng)始人是中科院計算所的陳天石、陳云霽兄弟,公司致力于打造各類智能云服務器、智能終端以及智能機器人的核心處理器芯片。阿里巴巴創(chuàng)投、聯(lián)想創(chuàng)投、國科投資、中科圖靈、元禾原點、涌鏵投資聯(lián)合投資,為全球AI芯片領域第一個獨角獸初創(chuàng)公司。
寒武紀是全球第一個成功流片并擁有成熟產(chǎn)品的AI芯片公司,擁有終端AI處理器IP和云端高性能AI芯片兩條產(chǎn)品線。2016年發(fā)布的寒武紀1A處理器(Cambricon-1A)是世界首款商用深度學習專用處理器,面向智能手機、安防監(jiān)控、無人機、可穿戴設備以及智能駕駛等各類終端設備,在運行主流智能算法時性能功耗比全面超越傳統(tǒng)處理器。
中星微
1999年,由多位來自硅谷的博士企業(yè)家在北京中關村科技園區(qū)創(chuàng)建了中星微電子有限公司,啟動并承擔了國家戰(zhàn)略項目——“星光中國芯工程”,致力于數(shù)字多媒體芯片的開發(fā)、設計和產(chǎn)業(yè)化。
2016年初,中星微推出了全球首款集成了神經(jīng)網(wǎng)絡處理器(NPU)的SVAC視頻編解碼SoC,使得智能分析結(jié)果可以與視頻數(shù)據(jù)同時編碼,形成結(jié)構化的視頻碼流。該技術被廣泛應用于視頻監(jiān)控攝像頭,開啟了安防監(jiān)控智能化的新時代。自主設計的嵌入式神經(jīng)網(wǎng)絡處理器(NPU)采用了“數(shù)據(jù)驅(qū)動并行計算”架構,專門針對深度學習算法進行了優(yōu)化,具備高性能、低功耗、高集成度、小尺寸等特點,特別適合物聯(lián)網(wǎng)前端智能的需求。
地平線機器人(HorizonRobotics)
地平線機器人成立于2015年,總部在北京,創(chuàng)始人是前百度深度學習研究院負責人余凱。BPU(BrainProcessingUnit)是地平線機器人自主設計研發(fā)的高效人工智能處理器架構IP,支持ARM/GPU/FPGA/ASIC實現(xiàn),專注于自動駕駛、人臉圖像辨識等專用領域。
2017年,地平線發(fā)布基于高斯架構的嵌入式人工智能解決方案,將在智能駕駛、智能生活、公共安防三個領域進行應用,第一代BPU芯片“盤古”目前已進入流片階段,預計在2018年下半年推出,能支持1080P的高清圖像輸入,每秒鐘處理30幀,檢測跟蹤數(shù)百個目標。地平線的第一代BPU采用TSMC的40nm工藝,相對于傳統(tǒng)CPU/GPU,能效可以提升2~3個數(shù)量級(100~1,000倍左右)。
深鑒科技
深鑒科技成立于2016年,總部在北京。由清華大學與斯坦福大學的世界頂尖深度學習硬件研究者創(chuàng)立。深鑒科技于2018年7月被賽靈思收購。深鑒科技將其開發(fā)的基于FPGA的神經(jīng)網(wǎng)絡處理器稱為DPU。
到目前為止,深鑒公開發(fā)布了兩款DPU:亞里士多德架構和笛卡爾架構,其中,亞里士多德架構是針對卷積神經(jīng)網(wǎng)絡CNN而設計;笛卡爾架構專為處理DNN/RNN網(wǎng)絡而設計,可對經(jīng)過結(jié)構壓縮后的稀疏神經(jīng)網(wǎng)絡進行極致高效的硬件加速。相對于IntelXeonCPU與NvidiaTitanXGPU,應用笛卡爾架構的處理器在計算速度上分別提高189倍與13倍,具有24,000倍與3,000倍的更高能效。
靈汐科技
靈汐科技于2018年1月在北京成立,聯(lián)合創(chuàng)始人包括清華大學的世界頂尖類腦計算研究者。
公司致力于新一代神經(jīng)網(wǎng)絡處理器(Tianjic)開發(fā),特點在于既能夠高效支撐現(xiàn)有流行的機器學習算法(包括CNN,MLP,LSTM等網(wǎng)絡架構),也能夠支撐更仿腦的、更具成長潛力的脈沖神經(jīng)網(wǎng)絡算法;使芯片具有高計算力、高多任務并行度和較低功耗等優(yōu)點。軟件工具鏈方面支持由Caffe、TensorFlow等算法平臺直接進行神經(jīng)網(wǎng)絡的映射編譯,開發(fā)友善的用戶交互界面。Tianjic可用于云端計算和終端應用場景,助力人工智能的落地和推廣。
啟英泰倫
啟英泰倫于2015年11月在成都成立,是一家語音識別芯片研發(fā)商。啟英泰倫的CI1006是基于ASIC架構的人工智能語音識別芯片,包含了腦神經(jīng)網(wǎng)絡處理硬件單元,能夠完美支持DNN運算架構,進行高性能的數(shù)據(jù)并行計算,可極大的提高人工智能深度學習語音技術對大量數(shù)據(jù)的處理效率。
百度
百度2017年8月HotChips大會上發(fā)布了XPU,這是一款256核、基于FPGA的云計算加速芯片。合作伙伴是賽思靈(Xilinx)。XPU采用新一代AI處理架構,擁有GPU的通用性和FPGA的高效率和低能耗,對百度的深度學習平臺PaddlePaddle做了高度的優(yōu)化和加速。據(jù)介紹,XPU關注計算密集型、基于規(guī)則的多樣化計算任務,希望提高效率和性能,并帶來類似CPU的靈活性。
華為
麒麟970搭載的神經(jīng)網(wǎng)絡處理器NPU采用了寒武紀IP,如圖12所示。麒麟970采用了TSMC10nm工藝制程,擁有55億個晶體管,功耗相比上一代芯片降低20%。CPU架構方面為4核A73+4核A53組成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核MaliG72MP12GPU,在圖形處理以及能效兩項關鍵指標方面分別提升20%和50%;NPU采用HiAI移動計算架構,在FP16下提供的運算性能可以達到1.92TFLOPs,相比四個Cortex-A73核心,處理同樣的AI任務,有大約具備50倍能效和25倍性能優(yōu)勢。
英偉達(Nvidia)
英偉達創(chuàng)立于1993年,總部位于美國加利福尼亞州圣克拉拉市。早在1999年,英偉達發(fā)明了GPU,重新定義了現(xiàn)代計算機圖形技術,徹底改變了并行計算。深度學習對計算速度有非??量痰囊?,而英偉達的GPU芯片可以讓大量處理器并行運算,速度比CPU快十倍甚至幾十倍,因而成為絕大部分人工智能研究者和開發(fā)者的首選。自從GoogleBrain采用1.6萬個GPU核訓練DNN模型,并在語音和圖像識別等領域獲得巨大成功以來,英偉達已成為AI芯片市場中無可爭議的領導者。
AMD
美國AMD半導體公司專門為計算機、通信和消費電子行業(yè)設計和制造各種創(chuàng)新的微處理器(CPU、GPU、APU、主板芯片組、電視卡芯片等),以及提供閃存和低功率處理器解決方案,公司成立于1969年。AMD致力為技術用戶——從企業(yè)、政府機構到個人消費者——提供基于標準的、以客戶為中心的解決方案。
2017年12月Intel和AMD宣布將聯(lián)手推出一款結(jié)合英特爾處理器和AMD圖形單元的筆記本電腦芯片。目前AMD擁有針對AI和機器學習的高性能RadeonInstinc加速卡,開放式軟件平臺ROCm等。
Google在2016年宣布獨立開發(fā)一種名為TPU的全新的處理系統(tǒng)。TPU是專門為機器學習應用而設計的專用芯片。通過降低芯片的計算精度,減少實現(xiàn)每個計算操作所需晶體管數(shù)量的方式,讓芯片的每秒運行的操作個數(shù)更高,這樣經(jīng)過精細調(diào)優(yōu)的機器學習模型就能在芯片上運行得更快,進而更快地讓用戶得到更智能的結(jié)果。
在2016年3月打敗了李世石和2017年5月打敗了柯杰的阿爾法狗,就是采用了谷歌的TPU系列芯片。
GoogleI/O-2018開發(fā)者大會期間,正式發(fā)布了第三代人工智能學習專用處理器TPU3.0。TPU3.0采用8位低精度計算以節(jié)省晶體管數(shù)量,對精度影響很小但可以大幅節(jié)約功耗、加快速度,同時還有脈動陣列設計,優(yōu)化矩陣乘法與卷積運算,并使用更大的片上內(nèi)存,減少對系統(tǒng)內(nèi)存的依賴。速度能加快到最高100PFlops(每秒1000萬億次浮點計算)。
高通
在智能手機芯片市場占據(jù)絕對優(yōu)勢的高通公司,也在人工智能芯片方面積極布局。據(jù)高通提供的資料顯示,其在人工智能方面已投資了Clarifai公司和中國“專注于物聯(lián)網(wǎng)人工智能服務”的云知聲。而早在2015年CES上,高通就已推出了一款搭載驍龍SoC的飛行機器人——SnapdragonCargo。
高通認為在工業(yè)、農(nóng)業(yè)的監(jiān)測以及航拍對拍照、攝像以及視頻新需求上,公司恰好可以發(fā)揮其在計算機視覺領域的能力。此外,高通的驍龍820芯片也被應用于VR頭盔中。事實上,高通已經(jīng)在研發(fā)可以在本地完成深度學習的移動端設備芯片。
NervanaSystems
Nervana創(chuàng)立于2014年,公司推出的TheNervanaEngine是一個為深度學習專門定制和優(yōu)化的ASIC芯片。這個方案的實現(xiàn)得益于一項叫做HighBandwidthMemory的新型內(nèi)存技術,這項技術同時擁有高容量和高速度,提供32GB的片上儲存和8TB每秒的內(nèi)存訪問速度。該公司目前提供一個人工智能服務“inthecloud”,他們聲稱這是世界上最快的且目前已被金融服務機構、醫(yī)療保健提供者和政府機構所使用的服務。他們的新型芯片將會保證Nervana云平臺在未來的幾年內(nèi)仍保持最快的速度。
Movidius(被Intel收購)
2016年9月,Intel發(fā)表聲明收購了Movidius。Movidius專注于研發(fā)高性能視覺處理芯片。其最新一代的Myriad2視覺處理器主要由SPARC處理器作為主控制器,加上專門的DSP處理器和硬件加速電路來處理專門的視覺和圖像信號。這是一款以DSP架構為基礎的視覺處理器,在視覺相關的應用領域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統(tǒng)中。
該芯片已被大量應用在Google3D項目的Tango手機、大疆無人機、FLIR智能紅外攝像機、??瞪铐盗袛z像機、華睿智能工業(yè)相機等產(chǎn)品中。
IBM
IBM很早以前就發(fā)布過watson,投入了很多的實際應用。除此之外,還啟動了類腦芯片的研發(fā),即TrueNorth。TrueNorth是IBM參與DARPA的研究項目SyNapse的最新成果。
SyNapse全稱是SystemsofNeuromorphicAdaptivePlasticScalableElectronics(自適應可塑可伸縮電子神經(jīng)系統(tǒng),而SyNapse正好是突觸的意思),其終極目標是開發(fā)出打破馮·諾依曼體系結(jié)構的計算機體系結(jié)構。
ARM
ARM推出全新芯片架構DynamIQ,通過這項技術,AI芯片的性能有望在未來三到五年內(nèi)提升50倍。
ARM的新CPU架構將會通過為不同部分配置軟件的方式將多個處理核心集聚在一起,這其中包括一個專門為AI算法設計的處理器。芯片廠商將可以為新處理器配置最多8個核心。同時為了能讓主流AI在自己的處理器上更好地運行,ARM還將推出一系列軟件庫。
CEVA
CEVA是專注于DSP的IP供應商,擁有眾多的產(chǎn)品線。其中,圖像和計算機視覺DSP產(chǎn)品CEVA-XM4是第一個支持深度學習的可編程DSP,而其發(fā)布的新一代型號CEVA-XM6,具有更優(yōu)的性能、更強大的計算能力以及更低的能耗。CEVA指出,智能手機、汽車、安全和商業(yè)應用,如無人機、自動化將是其業(yè)務開展的主要目標。
MIT/Eyeriss
Eyeriss事實上是MIT的一個項目,還不是一個公司,從長遠來看,如果進展順利,很可能孵化出一個新的公司。Eyeriss是一個高效能的深度卷積神經(jīng)網(wǎng)絡(CNN)加速器硬件,該芯片內(nèi)建168個核心,專門用來部署神經(jīng)網(wǎng)路(neuralnetwork),效能為一般GPU的10倍。其技術關鍵在于最小化GPU核心和記憶體之間交換數(shù)據(jù)的頻率(此運作過程通常會消耗大量的時間與能量):一般GPU內(nèi)的核心通常共享單一記憶體,但Eyeriss的每個核心擁有屬于自己的記憶體。
目前,Eyeriss主要定位在人臉識別和語音識別,可應用在智能手機、穿戴式設備、機器人、自動駕駛車與其他物聯(lián)網(wǎng)應用裝置上。
蘋果
在iPhone8和iPhoneX的發(fā)布會上,蘋果明確表示其中所使用的A11處理器集成了一個專用于機器學習的硬件——“神經(jīng)網(wǎng)絡引擎(NeuralEngine)”,每秒運算次數(shù)最高可達6000億次。這塊芯片將能夠改進蘋果設備在處理需要人工智能的任務時的表現(xiàn),比如面部識別和語音識別等。
三星
2017年,華為海思推出了麒麟970芯片,據(jù)知情人士透露,為了對標華為,三星已經(jīng)研發(fā)了許多種類的人工智能芯片。三星計劃在未來三年內(nèi)新上市的智能手機中都采用人工智能芯片,并且他們還將為人工智能設備建立新的組件業(yè)務。三星還投資了Graphcore、深鑒科技等人工智能芯片企業(yè)。
3、技術趨勢
目前主流AI芯片的核心主要是利用MAC(MultiplierandAccumulation,乘加計算)加速陣列來實現(xiàn)對CNN(卷積神經(jīng)網(wǎng)絡)中最主要的卷積運算的加速。這一代AI芯片主要有如下3個方面的問題。
(1)深度學習計算所需數(shù)據(jù)量巨大,造成內(nèi)存帶寬成為整個系統(tǒng)的瓶頸,即所謂“memorywall”問題。
(2)與第一個問題相關,內(nèi)存大量訪問和MAC陣列的大量運算,造成AI芯片整體功耗的增加。
(3)深度學習對算力要求很高,要提升算力,最好的方法是做硬件加速,但是同時深度學習算法的發(fā)展也是日新月異,新的算法可能在已經(jīng)固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題。
因此,可以預見下一代AI芯片將有如下的五個發(fā)展趨勢。
(1)更高效的大卷積解構/復用
在標準SIMD的基礎上,CNN由于其特殊的復用機制,可以進一步減少總線上的數(shù)據(jù)通信。而復用這一概念,在超大型神經(jīng)網(wǎng)絡中就顯得格外重要。如何合理地分解、映射這些超大卷積到有效的硬件上成為了一個值得研究的方向,
(2)更低的Inference計算/存儲位寬
AI芯片最大的演進方向之一可能就是神經(jīng)網(wǎng)絡參數(shù)/計算位寬的迅速減少——從32位浮點到16位浮點/定點、8位定點,甚至是4位定點。在理論計算領域,2位甚至1位參數(shù)位寬,都已經(jīng)逐漸進入實踐領域。
(3)更多樣的存儲器定制設計
當計算部件不再成為神經(jīng)網(wǎng)絡加速器的設計瓶頸時,如何減少存儲器的訪問延時將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節(jié)的成本也越高,同時容量也越受限,因此新型的存儲結(jié)構也將應運而生。
(4)更稀疏的大規(guī)模向量實現(xiàn)
神經(jīng)網(wǎng)絡雖然大,但是,實際上有很多以零為輸入的情況,此時稀疏計算可以高效的減少無用能效。來自哈佛大學的團隊就該問題提出了優(yōu)化的五級流水線結(jié),在最后一級輸出了觸發(fā)信號。在Activation層后對下一次計算的必要性進行預先判斷,如果發(fā)現(xiàn)這是一個稀疏節(jié)點,則觸發(fā)SKIP信號,避免乘法運算的功耗,以達到減少無用功耗的目的。
(5)計算和存儲一體化
計算和存儲一體化(process-in-memory)技術,其要點是通過使用新型非易失性存儲(如ReRAM)器件,在存儲陣列里面加上神經(jīng)網(wǎng)絡計算功能,從而省去數(shù)據(jù)搬移操作,即實現(xiàn)了計算存儲一體化的神經(jīng)網(wǎng)絡處理,在功耗性能方面可以獲得顯著提升。
結(jié)尾:
近幾年,AI技術不斷取得突破性進展。作為AI技術的重要物理基礎,AI芯片擁有巨大的產(chǎn)業(yè)價值和戰(zhàn)略地位。
但從大趨勢來看,目前尚處于AI芯片發(fā)展的初級階段,無論是科研還是產(chǎn)業(yè)應用都有巨大的創(chuàng)新空間。
現(xiàn)在不僅英偉達、谷歌等國際巨頭相繼推出新產(chǎn)品,國內(nèi)百度、阿里等紛紛布局這一領域,也誕生了寒武紀等AI芯片創(chuàng)業(yè)公司。
在CPU、GPU等傳統(tǒng)芯片領域與國際相差較多的情況下,中國AI芯片被寄望能實現(xiàn)彎道超車。