谷歌在機器視覺學習方面積累大量的數(shù)據(jù)以及技術,最近,他們推出了一個新的視頻數(shù)據(jù)庫,名稱為“原子視覺行為(AVA)“,該數(shù)據(jù)可由一個或多個標簽組成,能夠推動計算機視覺識別影像中行為的研究。
說到圖像識別,其實谷歌的照片應用就可以自動識別出寵物圖像,很多公司也在圖片識別上作出很多優(yōu)化嘗試,比如Shutterstock上周公布了一項全新的測試功能,用戶可以根據(jù)自己的布局來搜索股票照片。
相較于這些發(fā)生在靜態(tài)圖像領域的機器視覺識別技術,應用到視頻中的難度會更大,因為在視頻中,每一幀畫面的都包括各種復雜的場景,而且很多時候視頻中一個動作是由不同的人發(fā)出的。不過視頻識別方面的應用現(xiàn)在也有一些案例,比如著名色情網(wǎng)站Pornhub,它可以自動對成人視頻進行分類,包括讓系統(tǒng)識別出特定的性姿勢。
谷歌的軟件工程師也解釋道,“讓機器去識別影像中的人類行為是發(fā)展計算機視覺的一大難題,盡管過去幾年在圖像分類和尋找物體方面取得了突破?!彼怨雀柰瞥隽诉@個AVA數(shù)據(jù)庫,AVA包括80多個被動作標簽標注的Youtube視頻網(wǎng)址,比如握手、接吻、喝酒、擁抱等等。
谷歌希望通過開放這個數(shù)據(jù)庫,進一步改進他們基于視頻識別的機器視覺能力。