自稱是“人工智能優(yōu)先”的巨頭——谷歌,揭秘其云平臺(tái)是如何運(yùn)行的?

時(shí)間:2018-07-04

來(lái)源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語(yǔ):在用搜索引擎和安卓系統(tǒng)重新定義了現(xiàn)代互聯(lián)網(wǎng)之后,谷歌又走在了下一代計(jì)算機(jī)研究和開(kāi)發(fā)浪潮的最前沿:人工智能。

【自稱是“人工智能優(yōu)先”的巨頭——谷歌,揭秘其云平臺(tái)是如何運(yùn)行的?】在用搜索引擎和安卓系統(tǒng)重新定義了現(xiàn)代互聯(lián)網(wǎng)之后,谷歌又走在了下一代計(jì)算機(jī)研究和開(kāi)發(fā)浪潮的最前沿:人工智能。許多人認(rèn)為人工智能和神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)是計(jì)算機(jī)的下一步,通過(guò)使用新的用例和更快的計(jì)算來(lái)解決目前無(wú)法解決的問(wèn)題。這家搜索巨頭現(xiàn)在自稱是“人工智能優(yōu)先”的公司,并且在很多方面都引領(lǐng)著這項(xiàng)技術(shù)的應(yīng)用。

神經(jīng)網(wǎng)絡(luò)算法和機(jī)器學(xué)習(xí)技術(shù)已經(jīng)成為了谷歌很多服務(wù)的核心。谷歌在Gmail中過(guò)濾垃圾郵件、優(yōu)化目標(biāo)廣告、并且在用戶與GoogleAssistant交談的時(shí)候分析聲音。在智能手機(jī)的內(nèi)部,就像谷歌眼鏡和三星Bixby這樣的想法都展示了人工智能的視覺(jué)處理能力,就連Spotify和Netflix這樣的公司都在使用谷歌的云服務(wù)來(lái)為用戶量身定制內(nèi)容。

谷歌的云平臺(tái)正在不斷努力,利用這個(gè)日益流行的計(jì)算領(lǐng)域。但是,這個(gè)新領(lǐng)域需要新的硬件才能更高效的運(yùn)行,而且谷歌自己在硬件開(kāi)發(fā)上也投入了大量的資金,并且將其命名為CloudTPU。這種定制的硬件被塞進(jìn)了谷歌的服務(wù)器,并且已經(jīng)開(kāi)始為當(dāng)前和擴(kuò)展后的人工智能生態(tài)系統(tǒng)提供了動(dòng)力。

那么它是如何運(yùn)作的呢?

TPUvsCPU:尋找更高的效率

今年早些時(shí)候,谷歌在I/O開(kāi)發(fā)者大會(huì)上推出了第二代TPU,為更強(qiáng)的集群提供了更高的性能和更好的擴(kuò)展能力。TPU是一種特定于應(yīng)用程序的集成電路,它是專門為特定用例設(shè)計(jì)的自定義集成電路,而不是像CPU那樣一般的處理單元。該單元的設(shè)計(jì)目的是處理常見(jiàn)的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)計(jì)算,用于訓(xùn)練和推理,特別是矩陣相乘、點(diǎn)積和量子化的變換,通常只有8位的精度。

雖然這些計(jì)算同樣可以在CPU上完成,有時(shí)甚至在GPU上效率更高,但是在夸操作類型的擴(kuò)展時(shí),這些架構(gòu)在性能和能源效率方面非常有限。例如IEEE7548位證書(shū)相乘優(yōu)化設(shè)計(jì)可以比16位浮點(diǎn)優(yōu)化設(shè)計(jì)性能高出5.5倍,具有6倍的預(yù)期效率。它們?cè)谀芰糠矫娴男士s小了27倍,IEEE754是用于所有現(xiàn)代CPU浮點(diǎn)計(jì)算的技術(shù)標(biāo)準(zhǔn)。

此外,許多神經(jīng)網(wǎng)絡(luò)用例需要從用戶的角度來(lái)進(jìn)行低延遲和幾乎瞬時(shí)的處理。這支持特定任務(wù)的專用硬件,而不是試圖將典型的高延遲圖形架構(gòu)適用于新的用例。而訪問(wèn)外部RAM內(nèi)存延遲也非常昂貴。

在大型數(shù)據(jù)中心,用CPU或GPU執(zhí)行神經(jīng)網(wǎng)絡(luò)功能時(shí),電力和區(qū)域的低效率可能導(dǎo)致出現(xiàn)巨大的成本支出。不僅僅是在硅和設(shè)備上,而且還會(huì)長(zhǎng)時(shí)間浪費(fèi)能源。谷歌知道,如果機(jī)器學(xué)習(xí)能以一種有意義的方式發(fā)揮作用,它需要的硬件不僅能提高性能,而且還能提供比CPU和GPU更好的能源效率。

為了解決這一問(wèn)題,谷歌著手專門設(shè)計(jì)了TPU,以提供比現(xiàn)有GPU更好的10本成本性能改進(jìn)。最終的設(shè)計(jì)是一個(gè)可以附加到通用PCIe總線上的協(xié)同處理器。它可以與普通的CPU一起工作,可以通過(guò)它的指令和處理流量,以及通過(guò)設(shè)計(jì)成為一種附加組件來(lái)加速時(shí)間部署。結(jié)果在進(jìn)行5個(gè)月的研發(fā)之后,這項(xiàng)設(shè)計(jì)就被使用在了谷歌的數(shù)據(jù)中心。

TPU

今年早些時(shí)候,谷歌發(fā)布了一個(gè)全面的對(duì)比,將TPU性能與效率與Haswell架構(gòu)CPU和NVIDIATeslaK80GPU進(jìn)行對(duì)比,讓我們更加深入的了解了處理器的設(shè)計(jì)。

谷歌TPU的核心是一個(gè)矩陣相乘單元,該單元包含了65538八位倍增器硬件單元,專門用于計(jì)算兩個(gè)數(shù)字的乘積,并將其添加到一個(gè)累加器中。當(dāng)使用浮點(diǎn)數(shù)進(jìn)行操作的時(shí)候,這被稱作FMA。也許你還記得,這是ARM為優(yōu)化其最新的CortexA75和A55CPU以及Mali-G72努力的結(jié)果。

與CPU或GPU不同,在將數(shù)據(jù)發(fā)送到算數(shù)邏輯單元時(shí),每個(gè)操作都可以訪問(wèn)多個(gè)寄存器,這個(gè)Mac實(shí)現(xiàn)了一種收縮設(shè)計(jì),它可以讀取一次寄存器,并在長(zhǎng)時(shí)間的計(jì)算中重新使用該價(jià)值。在TPU中,這是可能的結(jié)果,因?yàn)樗暮?jiǎn)化設(shè)計(jì)可以讓我們看到在相鄰的連接中,ALU執(zhí)行乘法和加法,而不需要任何內(nèi)存訪問(wèn)。折現(xiàn)值了設(shè)計(jì)在可能的功率上表現(xiàn),但是極大的提高了它們的性能和效率。

在數(shù)字方面,谷歌的TPU可以除了65536個(gè)多數(shù)據(jù),并且為每個(gè)周期添加8位證書(shū)??紤]到TPU運(yùn)行在700MHz的情況下可以計(jì)算65536×7億次或者在矩陣單元中每秒92兆(萬(wàn)億次操作)。谷歌表示,它的第二代TPU可以提供最多180兆浮點(diǎn)性能。與典型的標(biāo)量RISC處理器相比,它的并行吞吐量要高得多,后者通常只在一二時(shí)鐘周期或更多的指令下傳遞一個(gè)操作。

矩陣相乘單元的16位產(chǎn)品在矩陣單元下的32位累積器收集。還有一個(gè)24MB的SRAM的統(tǒng)一緩沖區(qū),它作為寄存器工作。控制處理器的指令通過(guò)PCIe總線從一個(gè)CPU發(fā)送到TPU。這些都是非常復(fù)雜的CISC類型指令,專門用來(lái)運(yùn)行每個(gè)指令的復(fù)雜任務(wù),例如大量的多添加計(jì)算。這些指令被傳遞到一個(gè)4階段的管道中。TPU總共只有12條指令,其中最重要的5條是簡(jiǎn)單的讀寫(xiě)結(jié)果。

總體來(lái)說(shuō),谷歌的TPU更現(xiàn)實(shí)浮點(diǎn)協(xié)處理器的原始想法,而并非GPU。它是一個(gè)讓人意外的精簡(jiǎn)版硬件,只包含了一個(gè)主要的處理元素和一個(gè)簡(jiǎn)單的簡(jiǎn)化控制方案。沒(méi)有緩存、分支預(yù)測(cè)器、多處理連接,或者將一個(gè)普通CPU中找到的其他微架構(gòu)特性,這也有助于在硅和電力消耗上節(jié)省大量的能源。

性能方面,谷歌表示自己的TPU設(shè)計(jì)通常比CPU能提供更好的性能與瓦特比,比在GPU上運(yùn)行的性能高出29倍。這種芯片設(shè)計(jì)不僅能提高能源效率,而且還能提供更好的性能。在六種常見(jiàn)的參考神經(jīng)網(wǎng)絡(luò)工作負(fù)載中,TPU在所有測(cè)試中都提供了顯著的性能優(yōu)勢(shì),通常比GPU快20倍或更多,比CPU處理快了71倍。當(dāng)然,這些結(jié)果會(huì)根據(jù)CPU和GPU的類型而有所不同,但都經(jīng)過(guò)了谷歌的測(cè)試。谷歌還專門對(duì)高端的英特爾Haswelle5-2699v3和NVIDIAK80進(jìn)行了測(cè)試,更深入的了解硬件特性。

與英特爾合作的邊緣計(jì)算

谷歌在硬件上的努力讓它在云計(jì)算領(lǐng)域有了一個(gè)良好的開(kāi)始,但并不是所有的人工智能技術(shù)都能很好地將數(shù)據(jù)傳輸?shù)饺绱诉b遠(yuǎn)的距離。一些應(yīng)用實(shí)例,比如自動(dòng)駕駛汽車,需要幾乎即時(shí)計(jì)算,因此不能依賴于互聯(lián)網(wǎng)上的高延遲數(shù)據(jù)傳輸,即使云計(jì)算的計(jì)算能力非???。相反這些類型的應(yīng)用程序需要在設(shè)備上本地完成,同樣的道理適用于許多智能手機(jī)應(yīng)用程序,比如攝像頭對(duì)圖像的處理。

在Pixel2智能手機(jī)上,谷歌悄悄的進(jìn)行了第一次嘗試,將神經(jīng)網(wǎng)絡(luò)功能引入專門的硬件,以適應(yīng)低功耗的移動(dòng)版本:PixelVisualCore。有趣的是,谷歌與英特爾合作開(kāi)發(fā)了這枚芯片,這表明它并不完全是一種谷歌內(nèi)部完成的設(shè)計(jì)。我們不知道這種伙伴關(guān)系雙方都付出了什么,但可能只是制造與更多的連接性有關(guān)。

最近一段年時(shí)間,英特爾收購(gòu)了多家人工智能公司,比如2016年的NervanaSystems、去年9月的Movidius、今年3月的Mobile。我們也知道英特爾有自己的神經(jīng)網(wǎng)絡(luò)處理器,位于它的神經(jīng)網(wǎng)絡(luò)之下。這一產(chǎn)品是英特爾收購(gòu)Nervana公司的結(jié)果。我們對(duì)這種處理器不太了解,但它是為服務(wù)器設(shè)計(jì)的,使用一種稱為Flexpoint的低精度數(shù)字格式,,并且以每秒8兆的速度進(jìn)行內(nèi)存訪問(wèn)。并且將與谷歌的TPU競(jìng)爭(zhēng)。

第一眼看上去,Pixel的硬件與谷歌的硬件設(shè)計(jì)完全不同,考慮到不同的預(yù)算,這也并不讓人感到意外。盡管我們對(duì)谷CoudTPUVisualCore架構(gòu)并不了解,但我們可以發(fā)現(xiàn)一些類似的功能。設(shè)計(jì)中的每個(gè)圖像處理單元都提供512個(gè)算術(shù)邏輯單元,總共有4096個(gè)。

同樣,這意味著一個(gè)高度并行的設(shè)計(jì),能夠同時(shí)處理大量的數(shù)據(jù),即使是經(jīng)過(guò)縮減的設(shè)計(jì),也可以每秒執(zhí)行3萬(wàn)億次操作。很明顯,這個(gè)芯片的數(shù)字單元比谷歌的TPU要少得多,但毫無(wú)疑問(wèn)它的不同之處在于主要是為了增強(qiáng)圖像的功能而設(shè)計(jì),不是谷歌在云計(jì)算中運(yùn)行的各種神經(jīng)網(wǎng)絡(luò)。然而它是一種類似的、高度并行的設(shè)計(jì),能夠執(zhí)行特定的操作。

谷歌未來(lái)是否堅(jiān)持這一設(shè)計(jì),并繼續(xù)與英特爾合作,以獲得邊緣計(jì)算能力,還是依賴于其他公司開(kāi)發(fā)的硬件,還有待觀察。

總結(jié)

也許谷歌最出名的產(chǎn)品是它的軟件,但是當(dāng)需要為新一代的人工智能計(jì)算提供動(dòng)力的時(shí)候,谷歌同樣在硬件開(kāi)發(fā)和部署方面頗有心得。

谷歌定制的TPU提供了大型云平臺(tái)計(jì)算能力,能夠部署機(jī)器學(xué)習(xí)技術(shù),提供必要的能源效率。相對(duì)于通用的CPU和GPU硬件,它還為特定的硬件帶來(lái)了顯著的性能提升。我們?cè)谝苿?dòng)領(lǐng)域也看到了類似的趨勢(shì),集成芯片廠商正越來(lái)越多的開(kāi)始選擇專用的DSP硬件,用來(lái)高效的執(zhí)行密集型算法。谷歌也將成為這個(gè)市場(chǎng)的主要硬件廠商。

我們還在等待谷歌的第一代人工智能智能手機(jī)硬件出現(xiàn),包括PxielVisualCore在內(nèi)。這枚芯片很快就會(huì)被用于更快的HDR處理器,并且毫無(wú)疑問(wèn)將在未來(lái)人工智能測(cè)試和產(chǎn)品中扮演重要的角色,比如現(xiàn)在的Pixel2智能手機(jī)。目前,谷歌正引領(lǐng)者云平臺(tái)的硬件軟件支持。值得注意的是,英特爾、微軟、Facebook、亞馬遜和其它競(jìng)爭(zhēng)對(duì)手都已經(jīng)開(kāi)始在這一領(lǐng)域發(fā)展。

隨著機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)在云計(jì)算和智能手機(jī)等設(shè)備上的應(yīng)用越來(lái)越多,谷歌早期在硬件方面的努力已經(jīng)使自己成為了下一代計(jì)算機(jī)領(lǐng)域的領(lǐng)導(dǎo)者。

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽(yáng)科技有限公司

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺(jué)
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0