時(shí)間:2018-01-25 10:27:03來源:網(wǎng)絡(luò)轉(zhuǎn)載
在上一篇文章中,我們向你介紹了機(jī)器視覺相關(guān)領(lǐng)域并且討論了一個(gè)非常有效的算法——像素智能分類決策樹,這個(gè)算法已經(jīng)在醫(yī)療圖像處理和Kinect中廣泛使用。在這篇文章中,我們將會(huì)看到最近很熱門深度神經(jīng)網(wǎng)絡(luò)(深度學(xué)習(xí))及其在機(jī)器視覺中成功的應(yīng)用,然后我們將會(huì)看一下未來機(jī)器視覺和機(jī)器學(xué)習(xí)的發(fā)展。
深度神經(jīng)網(wǎng)絡(luò)
最近幾年我們用于機(jī)器視覺研究的訓(xùn)練數(shù)據(jù)集在質(zhì)量和數(shù)量上都有了很大的提升。這些提升在很大程度上依賴于眾籌的發(fā)展,增大被標(biāo)記的圖片樣本數(shù)量到幾百萬(wàn)張。一個(gè)好的數(shù)據(jù)集集——ImageNet——包括幾萬(wàn)種類別的幾百萬(wàn)張被標(biāo)記過的圖片。
在ImageNet數(shù)據(jù)集社區(qū)經(jīng)過幾年的慢速發(fā)展后,在2012年,Krizhevsky等人引爆了這個(gè)領(lǐng)域。他們展示了通用GPU計(jì)算結(jié)合對(duì)算法的微小改變就能夠訓(xùn)練比以前更多層次的卷積神經(jīng)網(wǎng)絡(luò)。他們對(duì)ImageNet的1000個(gè)類別進(jìn)行精確測(cè)試,其結(jié)果是一個(gè)里程碑式的跨越。這引起了很多大眾媒體的關(guān)注,甚至帶來了大量創(chuàng)業(yè)公司的并購(gòu)。之后,深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域開始變成一個(gè)熱門課題,最近的很多論文擴(kuò)大了目標(biāo)定位、人臉識(shí)別和人類的姿態(tài)估計(jì)的研究方法。
未來展望
毫無疑問深度卷積神經(jīng)網(wǎng)路是強(qiáng)而有力的,然而它能夠完全解決機(jī)器的視覺問題嗎?我們可以確定的是深度學(xué)習(xí)會(huì)在未來幾年繼續(xù)流行,并且將會(huì)在未來幾年推動(dòng)相關(guān)的技術(shù)的發(fā)展,但是我們相信這還需要一些路要走。雖然我們僅僅能夠推測(cè)未來會(huì)發(fā)生什么改變,但是可以確定的是我們已經(jīng)能看到的一些趨勢(shì)。
表示方法:目前這些神經(jīng)網(wǎng)絡(luò)只能夠識(shí)別一些相對(duì)簡(jiǎn)單的圖像內(nèi)容,還不能更深層次的理解圖片中各個(gè)目標(biāo)對(duì)象之間的關(guān)系以及特定個(gè)體在我們生活中所扮演的角色(比如,我們不能根據(jù)圖片中的人的頭發(fā)都是很有光澤并且都拿著吹風(fēng)機(jī)就簡(jiǎn)單的認(rèn)為這些人的頭發(fā)是濕的)。新的數(shù)據(jù)集比如微軟的“CoCo“,可以通過提供“非典型”圖片的單個(gè)目標(biāo)對(duì)象的更多細(xì)節(jié)標(biāo)簽來進(jìn)一步改善這種狀況,比如,這些圖片包含多個(gè)并不是居于最突出位置的目標(biāo)對(duì)象。
效率:盡管深度神經(jīng)網(wǎng)絡(luò)在圖像處理方面能夠通過并行的方式來達(dá)到相對(duì)較快的執(zhí)行速度,但是,神經(jīng)網(wǎng)絡(luò)并不像我們上一篇文章所提到的問題那樣:這里的每一個(gè)測(cè)試樣例都要遍歷神經(jīng)網(wǎng)絡(luò)的每一個(gè)節(jié)點(diǎn)才會(huì)輸出。此外,即使用到最快的GPU集群進(jìn)行加速,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)也需要幾天或這幾周的時(shí)間,這限制了我們的實(shí)驗(yàn)速度。
結(jié)構(gòu)學(xué)習(xí):目前,深度卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)已經(jīng)經(jīng)過多年的研究的一個(gè)精心設(shè)計(jì)的穩(wěn)定結(jié)構(gòu)。如果說要改變它的話,我們能改變的只是每一層的大小和層的數(shù)量(也就是神經(jīng)網(wǎng)絡(luò)的深度),這些的確對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確性有很大的影響。目前,除了簡(jiǎn)單對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)改變來優(yōu)化神經(jīng)網(wǎng)絡(luò),我們希望能夠從數(shù)據(jù)直接學(xué)習(xí)到更靈活的網(wǎng)絡(luò)結(jié)構(gòu)。
最近,我們已經(jīng)開始著手解決上面的問題,尤其是后面兩個(gè)。令我們特別高興的是我們最近關(guān)于決策叢林算法的工作:決策有向無環(huán)圖(DAG)的集合。你可以認(rèn)為一個(gè)決策有向無環(huán)圖是一個(gè)決策樹,不同的是每一個(gè)決策有向無環(huán)圖的子節(jié)點(diǎn)允許有多個(gè)父節(jié)點(diǎn)。相較于決策樹,我們已經(jīng)證明,這樣可以減少一個(gè)數(shù)量級(jí)的內(nèi)存消耗,同時(shí)也改進(jìn)了算法的泛化能力。雖然有向無環(huán)圖(DAG)和神經(jīng)網(wǎng)絡(luò)非常相像,但是確實(shí)包括兩個(gè)非常大的不同點(diǎn),首先,DAG的結(jié)構(gòu)可以和模型的參數(shù)同時(shí)被訓(xùn)練;第二,DAG保留了決策樹高效的運(yùn)算性能:每一個(gè)測(cè)試樣本僅僅從DAG中選擇一個(gè)路徑而不是像神經(jīng)網(wǎng)絡(luò)一樣遍歷所有節(jié)點(diǎn)。我們正在積極的研究是否決策叢林同其他形式的深度學(xué)習(xí)相結(jié)合能夠產(chǎn)生出更加高效的深度神經(jīng)網(wǎng)絡(luò)。
如果你有興趣嘗試用決策叢林來解決你的問題,你可以通過AzureML的Gemini模型進(jìn)一步研究。
總而言之,機(jī)器視覺擁有光明的前景很大程度上歸功于機(jī)器學(xué)習(xí)的發(fā)展。機(jī)器視覺最近的快速發(fā)展已經(jīng)非常令人驚奇,但是我們相信機(jī)器視覺的未來依然是一本令人激動(dòng)的打開了的書。
標(biāo)簽:
中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
相關(guān)資訊
產(chǎn)品新聞
更多>2025-04-30
性能躍升20%!維宏NK300CX Plus數(shù)控系統(tǒng)...
2025-04-11
rpi-image-gen:樹莓派軟件鏡像構(gòu)建的終...
2025-04-08
【產(chǎn)品解讀】全面提升精密制造檢測(cè)節(jié)拍...
2025-03-31
激光閃耀 智慧引領(lǐng) | WISE MASER 黑武士...
2025-03-20