基于非對稱均方誤差的人體姿態(tài)估計方法
文:黃玉程(深圳大學(xué)) 孟凡陽(深圳信息職業(yè)技術(shù)學(xué)院信息技術(shù)研究所)2019年第二期
摘要:在用于人體姿態(tài)估計的深度神經(jīng)網(wǎng)絡(luò)中,損失函數(shù)通常使用均方誤差(MeanSquearError,MSE)。MSE雖然計算簡單,但無法確保與預(yù)測結(jié)果一致性,即神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測熱圖不同,計算得到的MSE相同。針對該問題,本文基于MSE提出非對稱均方誤差(AsymmetricMeanSquareError,AMSE)損失函數(shù),對預(yù)測熱圖添加懲罰項,對較大的預(yù)測輸出值進(jìn)行懲罰,保證MSE與預(yù)測結(jié)果的一致性。在COCOval2017數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的AMSE預(yù)測效果優(yōu)于MSE。
關(guān)鍵詞:人體姿態(tài)估計;均方誤差;非對稱均方誤差
1.引言
多人人體姿態(tài)估計作為眾多計算機(jī)視覺應(yīng)用,例如行為識別、人機(jī)交互的基本挑戰(zhàn)之一[1-3],其主要目的是為了識別和定位圖片中不同人體的關(guān)鍵點。
自從Toshev等人將深度學(xué)習(xí)應(yīng)用在人體姿態(tài)估計任務(wù)之后[4],人體姿態(tài)估計方法開始逐步由傳統(tǒng)方法向深度學(xué)習(xí)方向轉(zhuǎn)變[5-8],Toshev等人通過神經(jīng)網(wǎng)絡(luò)直接回歸出人體關(guān)鍵點坐標(biāo),Tompson等人使用多分辨率圖片作為輸入,提取圖片多尺度特征,并用于人體關(guān)鍵點熱圖預(yù)測[9]。當(dāng)前人體姿態(tài)估計框架分為兩大類,第一種為基于兩階段的方法[10-12],首先將圖片中每人的框架的找出,再對各框架中的人體進(jìn)行關(guān)鍵點定位,第二種為基于各關(guān)鍵點的方法[13-15],首先將圖片中所有的關(guān)鍵點定位,再對定位后的關(guān)鍵點進(jìn)行組合得到多人關(guān)鍵點。通?;趦呻A段的方法效果更好,因為該方法能更好的利用圖片的全局語義信息。
當(dāng)前最好的人體姿態(tài)估計方法都致力于新型網(wǎng)絡(luò)模型的研究,例如CPN和SBN,
CPN通過將多層級特征整合為金字塔網(wǎng)絡(luò)的形式解決困難關(guān)鍵點的檢測問題,SBN提供簡單高效的人體姿態(tài)估計方法,只對ResNet的最后一層添加反卷積層便取得了較好的結(jié)果[16]。這些方法均使用熱圖的方法進(jìn)行預(yù)測,并通過MSE計算預(yù)測熱圖與標(biāo)注熱圖之間的損失函數(shù)值,但使用MSE作為損失函數(shù)存在先天的不足,首先,不同預(yù)測熱圖與標(biāo)注熱圖間的MSE值與mAP度量存在不一致問題,這意味著具有相同MSE的兩張預(yù)測熱圖會產(chǎn)生不同的錯誤率,我們稱之為不一致問題。為了解決以上問題,本文提出非對稱均方誤差(AMSE),通過指引模型選擇更好的輸出來保持一致性。實驗表明,在只增加少許計算量的情況下,使用AMSE訓(xùn)練的模型效果明顯優(yōu)于MSE訓(xùn)練的模型。
綜上,本文的主要貢獻(xiàn)有以下幾點:
分析在人體姿態(tài)估計任務(wù)中,使用預(yù)測熱圖和標(biāo)注熱圖計算MSE值所產(chǎn)生的不一致問題。
提出非對稱均方誤差(AMSE)作為改進(jìn)損失函數(shù),解決不一致問題。
2.非對稱均方誤差
2.1均方誤差
基于熱圖表示的人體姿態(tài)估計方法,以 大小的彩圖作為輸入,輸出為一組表示人體部位定位的2D熱圖,如圖1所示:
圖12D熱圖
其中S=(S1,S2,???SJ)表示J張熱圖,每張圖代表一個關(guān)鍵點,Sj?RW′H熱圖間的MSE值計算公式定義為:
(1)
其中M=J′W′H,Gj?RW′H示第j關(guān)鍵點的標(biāo)注熱圖,熱圖是在關(guān)鍵點位置施加高斯斑所產(chǎn)生的圖片。對于第j個預(yù)測關(guān)鍵點的熱圖Sj,最終的關(guān)鍵點坐標(biāo)Kj由熱圖中最大值 的位置確定:
(2)
目前最好的人體姿態(tài)估計方法均采用MSE作為損失函數(shù)[17],但是MSE卻無法確保預(yù)測結(jié)果的一致性,在模型預(yù)測熱圖具有相同的MSE值的情況下,會出現(xiàn)不同的預(yù)測結(jié)果,該問題稱之為不一致問題。
2.2問題分析
對于給定標(biāo)注熱圖G0和MSE值 ,存在多個預(yù)測熱圖S*滿足以下公式:
(3)
不同的熱圖S*預(yù)測結(jié)果不同,卻得到了相同的MSE值。為了簡化這一問題,假設(shè)S*滿足以下條件:
(4)
如公式(4)所示,對預(yù)測熱圖上的每個點而言,只存在兩種情況,比目標(biāo)值大或小
。以一維熱圖為例,假設(shè)標(biāo)注熱圖為[0.5,1,0.5]T,則存在8種滿足公式(4)的預(yù)測熱圖存在,如圖2所示,其中黑體字表示比相應(yīng)位置的目標(biāo)值大0.5,非黑體字表示比相應(yīng)位置的目標(biāo)值小0.5。
圖2具有相同MSE的預(yù)測熱圖
由圖2可知,在相同MSE值的情況下,(a)-(e)和(f)-(h)的預(yù)測熱圖經(jīng)過公式(2)的求最值操作后,將產(chǎn)生一個像素位置的誤差導(dǎo)致最終結(jié)果不同,這便是MSE的不一致問題。實際上,不一致問題主要由公式(2)的操作產(chǎn)生,因為該操作對預(yù)測熱圖的絕對值不敏感,而預(yù)測熱圖內(nèi)各值的相對順序卻對預(yù)測一致性十分重要,只有當(dāng)預(yù)測熱圖內(nèi)各值的相對順序和標(biāo)注熱圖相同,才能通過公式(2)得到一致的結(jié)果。使用MSE的目的是為了縮小預(yù)測和目標(biāo)間的絕對差值,由此導(dǎo)致的與公式(2)的不匹配現(xiàn)象,產(chǎn)生了不一致問題。
針對該問題,圖像處理領(lǐng)域提出了結(jié)構(gòu)相似性指標(biāo)SSIM[18],在MSE相同的情況下,通過提高圖片的結(jié)構(gòu)相似性使人眼視覺效果得到改善。在人體姿態(tài)估計任務(wù)中,標(biāo)注熱圖由關(guān)鍵點部位施加的高斯斑產(chǎn)生,每張64′64大小的標(biāo)注熱圖僅在高斯斑的生成部分有值存在,所以,標(biāo)注熱圖不僅缺少豐富的邊緣紋理信息,還非常的稀疏,使用SSIM并不合適,若增大高斯斑的范圍使紋理更明顯則又會導(dǎo)致關(guān)鍵點的定位不準(zhǔn)確。
因此MSE仍為當(dāng)前最廣泛使用的損失函數(shù)之一,針對存在的問題,本文提出了非對稱均方誤差(AMSE)進(jìn)行改善。
2.3非對稱均方誤差
因為圖2內(nèi)各熱圖MSE值相同,所以MSE無法區(qū)分各熱圖的不同,但是各預(yù)測熱圖卻會有不同的預(yù)測結(jié)果。由圖2(a),圖2(b)可知,當(dāng)預(yù)測熱圖各值均大于或小于標(biāo)注熱圖的值時,預(yù)測效果最好,因此,迫使模型輸出類似于圖2(a),圖2(b)的值,可能使模型的效果得到提升。通過將模型輸出值的平方加在原始MSE損失函數(shù)上,能引導(dǎo)模型輸出類似于圖2(b)的更小的預(yù)測值,公式定義如下:
(5)
式中M=J′W′H,Gj?RW′H,Sj?RW′H,Gj和Sj分別表示第j個關(guān)鍵點的標(biāo)注熱圖和預(yù)測熱圖。當(dāng)=0.01時,該損失函數(shù)稱為正則化均方誤差(RMSE),RMSE通過對預(yù)測熱圖添加L2懲罰的方式,對預(yù)測熱圖中較大的值進(jìn)行懲罰。但是由于平方項的存在,即使預(yù)測值與目標(biāo)值相同,也無法使損失函數(shù)等于0,并始終對預(yù)測值進(jìn)行懲罰。RMSE在目標(biāo)值為1,0.5,0.25的曲線圖如圖3所示,圖中RMSE的取得最小值的點并不等于目標(biāo)值,這會導(dǎo)致較差的預(yù)測結(jié)果,然而,RMSE通過對較大預(yù)測值增加懲罰項的方法的確使模型偏向輸出較小的值,這對預(yù)測表現(xiàn)是有利的。
圖3RMSE預(yù)測曲線圖
如果損失函數(shù)不僅能在到達(dá)目標(biāo)值時降至最小,還能對較大的預(yù)測值施加更多的懲罰,那么該損失函數(shù)就能更好的引導(dǎo)模型偏向輸出較小的值并避免了RMSE的缺陷。出于此目的,我們提出非對稱性均方誤差(AMSE),其定義如下:
(6)
式中Wj是由模型生成的常數(shù)項矩陣并當(dāng)做常數(shù)進(jìn)行反向傳播,使用Wj的目的是為了使AMSE在等于目標(biāo)值時最小。當(dāng)Wj等于時,公式(6)為以下形式:
(7)
雖然公式(7)和MSE相同,在預(yù)測值等于目標(biāo)值時達(dá)到最小,但是它卻能對較大預(yù)測的輸出值進(jìn)行懲罰,因此Wj等于 是一個可行的選項,AMSE在目標(biāo)值為1,0.5,0.25的曲線圖如圖4所示。
圖4AMSE預(yù)測曲線圖
由圖4可知,AMSE預(yù)測曲具有線非對稱性,并在預(yù)測值等于目標(biāo)值時取最小值。實驗表明,Wj并不需要等于 ,不同形式的Wj也同樣有效。
3.實驗與分析
3.1實驗數(shù)據(jù)與模型
本實驗將在COCO關(guān)鍵點挑戰(zhàn)數(shù)據(jù)集上進(jìn)行[19],對不受控環(huán)境下的多人人體關(guān)鍵點坐標(biāo)進(jìn)行預(yù)測,該數(shù)據(jù)集有超過20萬張圖片和25萬個標(biāo)注人體實例,其中有15萬的實例已公開可作為驗證集和訓(xùn)練集。與文獻(xiàn)[10]相同,實驗只通過COCOtrain2017數(shù)據(jù)集進(jìn)行訓(xùn)練并不使用額外數(shù)據(jù),測試實驗將在val2017數(shù)據(jù)集上進(jìn)行。實驗完成后,通過目標(biāo)關(guān)鍵點相似度(OKS)進(jìn)行度量,與目標(biāo)檢測指標(biāo)IoU的作用相似,通過人體尺度標(biāo)準(zhǔn)化后的預(yù)測點和目標(biāo)點的距離,將用于計算OKS。
雖然當(dāng)前神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和實驗的復(fù)雜性不斷增加,但SBN作為當(dāng)前最好的人體姿態(tài)估計方法之一卻簡單有效,因此擬采用SBN作為實驗基準(zhǔn)進(jìn)行AMSE效果驗證。ResNet作為圖片特征提取的常用骨干網(wǎng)絡(luò)之一,SBN只需在ResNet的最后一層添加若干反卷積層。與SBN相同,我們將在ResNet最后一層添加三層反卷積層并使用批歸一化和ReLU激活函數(shù),反卷積層有256個4′4濾波器并將步幅設(shè)為2,最后通過1′1卷積調(diào)整輸出通道,即可得到預(yù)測熱圖,標(biāo)注熱圖由添加在關(guān)鍵點位置的2D高斯斑產(chǎn)生。
3.2模型訓(xùn)練與測試
實驗骨干模型ResNet的初始化由ImageNet分類任務(wù)上
的預(yù)訓(xùn)練完成,訓(xùn)練時,標(biāo)注人體邊框?qū)⒈绘i定至一定比例,通過改變邊框長度將比例固定為4比3,最后從圖片中裁剪下固定比例的標(biāo)注邊框并縮放至和SBN實驗相同的256′192分辨率以進(jìn)行對比。實驗數(shù)據(jù)增強(qiáng)包括圖片翻轉(zhuǎn)、30%的圖片尺度變換和40°的圖片旋轉(zhuǎn),模型訓(xùn)練使用4塊GPU并訓(xùn)練140代,訓(xùn)練學(xué)習(xí)率設(shè)為0.001并在90代和120代降低至0.0001和0.00001,批訓(xùn)練大小設(shè)為128,優(yōu)化器為Adam[20],ResNet-50和ResNet-101的模型實驗均由Pytorch完成,除特別聲明,使用ResNet-50為默認(rèn)骨干模型。
與文獻(xiàn)[10,11]相似,實驗采用兩階段式并使用預(yù)訓(xùn)練mask-RCNN做第一階段的單人人體框架檢測[21],檢測器在COCOval2017上的準(zhǔn)確率為56.4mAP。與常規(guī)方法相同[22],對原始和翻轉(zhuǎn)圖像的預(yù)測熱圖求平均后,即可用于關(guān)鍵點位置的預(yù)測,通過對最高響應(yīng)到次高響應(yīng)的方向上施加四分之一的偏移量,即可得到最終的關(guān)鍵點位置。
3.3實驗結(jié)果與分析
不同超參數(shù)的實驗結(jié)果如表1所示,當(dāng)β=0,AMSE退化成MSE,該結(jié)果可作為比較的基準(zhǔn)結(jié)果。當(dāng)β=0.01時,實驗結(jié)果高于基準(zhǔn)結(jié)果0.6個點達(dá)到73.0AP。實驗同時表明,AMSE對超參數(shù)β的選值并不敏感,當(dāng)取值范圍為0.01到0.1之間時,都可取得較好的結(jié)果,如未特別聲明,設(shè)β=0.01為實驗?zāi)J(rèn)值。
AMSE和MSE在不同骨干網(wǎng)絡(luò)下的比較如表2所示,gt-box表示是否使用標(biāo)注框架,AMSE在不同骨干網(wǎng)絡(luò)下,不論是否使用標(biāo)注框架,均能取得優(yōu)于MSE的測試結(jié)果,此外,若測試時使用標(biāo)注框架,AMSE在使用ResNet-101作為骨干網(wǎng)絡(luò)的情況下可使實驗結(jié)果提升更多。結(jié)果表明,AMSE能更有效的激發(fā)模型的性能。相較于MSE,當(dāng)骨干網(wǎng)絡(luò)為ResNet-50時,在使用標(biāo)注框架和不使用標(biāo)注框架的情況下,AMSE分別能使實驗結(jié)果提升0.6和0.2個點,該結(jié)果表明,在提供準(zhǔn)確的標(biāo)注框架的情況下測試AMSE,能使實驗效果提升更多。
表3分別將本方法和Hourglass、CPN、SBN進(jìn)行對比。SBN的人體框架檢測器AP為56.4與本方法相同,CPN和Hourglass的人體框架檢測器AP為55.3,OHKM表示是否使用難例挖掘[23]。本實驗的SBN效果與公開代碼效果一致,因此可直接與SBN論文中列出的結(jié)果相比較。表3可知,雖然SBN實驗結(jié)果優(yōu)于Hourglass和CPN,但是AMSE仍然能使最終結(jié)果提高0.2和0.4個點,而使用AMSE作為損失函數(shù)的代價僅為訓(xùn)練時增加的少許計算量。AMSE在當(dāng)前最好的輕量級方法SBN上取得了較好的效果,該方法也應(yīng)適用于其他效果一般的人體姿態(tài)估計方法,預(yù)測圖示例如圖5所示。
圖5預(yù)測熱圖示例
表1不同超參數(shù)的實驗結(jié)果
表2不同骨干下的實驗結(jié)果
表3不同模型下的實驗結(jié)果
4.結(jié)論
本論文介紹了人體姿態(tài)估計任務(wù)中,在計算預(yù)測熱圖與標(biāo)注熱圖間的MSE值時所存在的不一致問題,并針對該問題進(jìn)行了詳細(xì)的分析。為了解決該問題,本文提出了一種新型有效的非對稱均方誤差(AMSE)損失函數(shù),在MSE的基礎(chǔ)上對預(yù)測熱圖添加懲罰項,進(jìn)而解決了該問題。在COCOval2017數(shù)據(jù)集的實驗結(jié)果表明,使用標(biāo)注框架數(shù)據(jù)進(jìn)行模型測試能使AMSM的最終效果提高0.5個點左右。雖然本方法提出于人體姿態(tài)估計任務(wù)當(dāng)中,但是也應(yīng)同樣適用于任何使用MSE作為損失函數(shù)且對相對值的順序敏感的任務(wù)當(dāng)中。
參考文獻(xiàn)(References):
中傳動網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

掃碼關(guān)注小程序
時刻關(guān)注行業(yè)動態(tài)

- 4熱點資訊

填寫郵件地址,訂閱更多資訊:
撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動控制
- 伺服系統(tǒng)
- 機(jī)器視覺
- 機(jī)械傳動
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜