時間:2019-05-15 17:31:59來源:黃玉程 孟凡陽
摘要:在用于人體姿態(tài)估計的深度神經(jīng)網(wǎng)絡中,損失函數(shù)通常使用均方誤差(MeanSquearError,MSE)。MSE雖然計算簡單,但無法確保與預測結果一致性,即神經(jīng)網(wǎng)絡輸出的預測熱圖不同,計算得到的MSE相同。針對該問題,本文基于MSE提出非對稱均方誤差(AsymmetricMeanSquareError,AMSE)損失函數(shù),對預測熱圖添加懲罰項,對較大的預測輸出值進行懲罰,保證MSE與預測結果的一致性。在COCOval2017數(shù)據(jù)集上的實驗結果表明,本文提出的AMSE預測效果優(yōu)于MSE。
關鍵詞:人體姿態(tài)估計;均方誤差;非對稱均方誤差
1.引言
多人人體姿態(tài)估計作為眾多計算機視覺應用,例如行為識別、人機交互的基本挑戰(zhàn)之一[1-3],其主要目的是為了識別和定位圖片中不同人體的關鍵點。
自從Toshev等人將深度學習應用在人體姿態(tài)估計任務之后[4],人體姿態(tài)估計方法開始逐步由傳統(tǒng)方法向深度學習方向轉(zhuǎn)變[5-8],Toshev等人通過神經(jīng)網(wǎng)絡直接回歸出人體關鍵點坐標,Tompson等人使用多分辨率圖片作為輸入,提取圖片多尺度特征,并用于人體關鍵點熱圖預測[9]。當前人體姿態(tài)估計框架分為兩大類,第一種為基于兩階段的方法[10-12],首先將圖片中每人的框架的找出,再對各框架中的人體進行關鍵點定位,第二種為基于各關鍵點的方法[13-15],首先將圖片中所有的關鍵點定位,再對定位后的關鍵點進行組合得到多人關鍵點。通?;趦呻A段的方法效果更好,因為該方法能更好的利用圖片的全局語義信息。
當前最好的人體姿態(tài)估計方法都致力于新型網(wǎng)絡模型的研究,例如CPN和SBN,
CPN通過將多層級特征整合為金字塔網(wǎng)絡的形式解決困難關鍵點的檢測問題,SBN提供簡單高效的人體姿態(tài)估計方法,只對ResNet的最后一層添加反卷積層便取得了較好的結果[16]。這些方法均使用熱圖的方法進行預測,并通過MSE計算預測熱圖與標注熱圖之間的損失函數(shù)值,但使用MSE作為損失函數(shù)存在先天的不足,首先,不同預測熱圖與標注熱圖間的MSE值與mAP度量存在不一致問題,這意味著具有相同MSE的兩張預測熱圖會產(chǎn)生不同的錯誤率,我們稱之為不一致問題。為了解決以上問題,本文提出非對稱均方誤差(AMSE),通過指引模型選擇更好的輸出來保持一致性。實驗表明,在只增加少許計算量的情況下,使用AMSE訓練的模型效果明顯優(yōu)于MSE訓練的模型。
綜上,本文的主要貢獻有以下幾點:
分析在人體姿態(tài)估計任務中,使用預測熱圖和標注熱圖計算MSE值所產(chǎn)生的不一致問題。
提出非對稱均方誤差(AMSE)作為改進損失函數(shù),解決不一致問題。
2.非對稱均方誤差
2.1均方誤差
基于熱圖表示的人體姿態(tài)估計方法,以 大小的彩圖作為輸入,輸出為一組表示人體部位定位的2D熱圖,如圖1所示:
圖12D熱圖
其中S=(S1,S2,???SJ)表示J張熱圖,每張圖代表一個關鍵點,Sj?RW′H熱圖間的MSE值計算公式定義為:
(1)
其中M=J′W′H,Gj?RW′H示第j關鍵點的標注熱圖,熱圖是在關鍵點位置施加高斯斑所產(chǎn)生的圖片。對于第j個預測關鍵點的熱圖Sj,最終的關鍵點坐標Kj由熱圖中最大值 的位置確定:
(2)
目前最好的人體姿態(tài)估計方法均采用MSE作為損失函數(shù)[17],但是MSE卻無法確保預測結果的一致性,在模型預測熱圖具有相同的MSE值的情況下,會出現(xiàn)不同的預測結果,該問題稱之為不一致問題。
2.2問題分析
對于給定標注熱圖G0和MSE值 ,存在多個預測熱圖S*滿足以下公式:
(3)
不同的熱圖S*預測結果不同,卻得到了相同的MSE值。為了簡化這一問題,假設S*滿足以下條件:
(4)
如公式(4)所示,對預測熱圖上的每個點而言,只存在兩種情況,比目標值大或小
。以一維熱圖為例,假設標注熱圖為[0.5,1,0.5]T,則存在8種滿足公式(4)的預測熱圖存在,如圖2所示,其中黑體字表示比相應位置的目標值大0.5,非黑體字表示比相應位置的目標值小0.5。
圖2具有相同MSE的預測熱圖
由圖2可知,在相同MSE值的情況下,(a)-(e)和(f)-(h)的預測熱圖經(jīng)過公式(2)的求最值操作后,將產(chǎn)生一個像素位置的誤差導致最終結果不同,這便是MSE的不一致問題。實際上,不一致問題主要由公式(2)的操作產(chǎn)生,因為該操作對預測熱圖的絕對值不敏感,而預測熱圖內(nèi)各值的相對順序卻對預測一致性十分重要,只有當預測熱圖內(nèi)各值的相對順序和標注熱圖相同,才能通過公式(2)得到一致的結果。使用MSE的目的是為了縮小預測和目標間的絕對差值,由此導致的與公式(2)的不匹配現(xiàn)象,產(chǎn)生了不一致問題。
針對該問題,圖像處理領域提出了結構相似性指標SSIM[18],在MSE相同的情況下,通過提高圖片的結構相似性使人眼視覺效果得到改善。在人體姿態(tài)估計任務中,標注熱圖由關鍵點部位施加的高斯斑產(chǎn)生,每張64′64大小的標注熱圖僅在高斯斑的生成部分有值存在,所以,標注熱圖不僅缺少豐富的邊緣紋理信息,還非常的稀疏,使用SSIM并不合適,若增大高斯斑的范圍使紋理更明顯則又會導致關鍵點的定位不準確。
因此MSE仍為當前最廣泛使用的損失函數(shù)之一,針對存在的問題,本文提出了非對稱均方誤差(AMSE)進行改善。
2.3非對稱均方誤差
因為圖2內(nèi)各熱圖MSE值相同,所以MSE無法區(qū)分各熱圖的不同,但是各預測熱圖卻會有不同的預測結果。由圖2(a),圖2(b)可知,當預測熱圖各值均大于或小于標注熱圖的值時,預測效果最好,因此,迫使模型輸出類似于圖2(a),圖2(b)的值,可能使模型的效果得到提升。通過將模型輸出值的平方加在原始MSE損失函數(shù)上,能引導模型輸出類似于圖2(b)的更小的預測值,公式定義如下:
(5)
式中M=J′W′H,Gj?RW′H,Sj?RW′H,Gj和Sj分別表示第j個關鍵點的標注熱圖和預測熱圖。當=0.01時,該損失函數(shù)稱為正則化均方誤差(RMSE),RMSE通過對預測熱圖添加L2懲罰的方式,對預測熱圖中較大的值進行懲罰。但是由于平方項的存在,即使預測值與目標值相同,也無法使損失函數(shù)等于0,并始終對預測值進行懲罰。RMSE在目標值為1,0.5,0.25的曲線圖如圖3所示,圖中RMSE的取得最小值的點并不等于目標值,這會導致較差的預測結果,然而,RMSE通過對較大預測值增加懲罰項的方法的確使模型偏向輸出較小的值,這對預測表現(xiàn)是有利的。
圖3RMSE預測曲線圖
如果損失函數(shù)不僅能在到達目標值時降至最小,還能對較大的預測值施加更多的懲罰,那么該損失函數(shù)就能更好的引導模型偏向輸出較小的值并避免了RMSE的缺陷。出于此目的,我們提出非對稱性均方誤差(AMSE),其定義如下:
(6)
式中Wj是由模型生成的常數(shù)項矩陣并當做常數(shù)進行反向傳播,使用Wj的目的是為了使AMSE在等于目標值時最小。當Wj等于時,公式(6)為以下形式:
(7)
雖然公式(7)和MSE相同,在預測值等于目標值時達到最小,但是它卻能對較大預測的輸出值進行懲罰,因此Wj等于 是一個可行的選項,AMSE在目標值為1,0.5,0.25的曲線圖如圖4所示。
圖4AMSE預測曲線圖
由圖4可知,AMSE預測曲具有線非對稱性,并在預測值等于目標值時取最小值。實驗表明,Wj并不需要等于 ,不同形式的Wj也同樣有效。
3.實驗與分析
3.1實驗數(shù)據(jù)與模型
本實驗將在COCO關鍵點挑戰(zhàn)數(shù)據(jù)集上進行[19],對不受控環(huán)境下的多人人體關鍵點坐標進行預測,該數(shù)據(jù)集有超過20萬張圖片和25萬個標注人體實例,其中有15萬的實例已公開可作為驗證集和訓練集。與文獻[10]相同,實驗只通過COCOtrain2017數(shù)據(jù)集進行訓練并不使用額外數(shù)據(jù),測試實驗將在val2017數(shù)據(jù)集上進行。實驗完成后,通過目標關鍵點相似度(OKS)進行度量,與目標檢測指標IoU的作用相似,通過人體尺度標準化后的預測點和目標點的距離,將用于計算OKS。
雖然當前神經(jīng)網(wǎng)絡的結構和實驗的復雜性不斷增加,但SBN作為當前最好的人體姿態(tài)估計方法之一卻簡單有效,因此擬采用SBN作為實驗基準進行AMSE效果驗證。ResNet作為圖片特征提取的常用骨干網(wǎng)絡之一,SBN只需在ResNet的最后一層添加若干反卷積層。與SBN相同,我們將在ResNet最后一層添加三層反卷積層并使用批歸一化和ReLU激活函數(shù),反卷積層有256個4′4濾波器并將步幅設為2,最后通過1′1卷積調(diào)整輸出通道,即可得到預測熱圖,標注熱圖由添加在關鍵點位置的2D高斯斑產(chǎn)生。
3.2模型訓練與測試
實驗骨干模型ResNet的初始化由ImageNet分類任務上
的預訓練完成,訓練時,標注人體邊框?qū)⒈绘i定至一定比例,通過改變邊框長度將比例固定為4比3,最后從圖片中裁剪下固定比例的標注邊框并縮放至和SBN實驗相同的256′192分辨率以進行對比。實驗數(shù)據(jù)增強包括圖片翻轉(zhuǎn)、30%的圖片尺度變換和40°的圖片旋轉(zhuǎn),模型訓練使用4塊GPU并訓練140代,訓練學習率設為0.001并在90代和120代降低至0.0001和0.00001,批訓練大小設為128,優(yōu)化器為Adam[20],ResNet-50和ResNet-101的模型實驗均由Pytorch完成,除特別聲明,使用ResNet-50為默認骨干模型。
與文獻[10,11]相似,實驗采用兩階段式并使用預訓練mask-RCNN做第一階段的單人人體框架檢測[21],檢測器在COCOval2017上的準確率為56.4mAP。與常規(guī)方法相同[22],對原始和翻轉(zhuǎn)圖像的預測熱圖求平均后,即可用于關鍵點位置的預測,通過對最高響應到次高響應的方向上施加四分之一的偏移量,即可得到最終的關鍵點位置。
3.3實驗結果與分析
不同超參數(shù)的實驗結果如表1所示,當β=0,AMSE退化成MSE,該結果可作為比較的基準結果。當β=0.01時,實驗結果高于基準結果0.6個點達到73.0AP。實驗同時表明,AMSE對超參數(shù)β的選值并不敏感,當取值范圍為0.01到0.1之間時,都可取得較好的結果,如未特別聲明,設β=0.01為實驗默認值。
AMSE和MSE在不同骨干網(wǎng)絡下的比較如表2所示,gt-box表示是否使用標注框架,AMSE在不同骨干網(wǎng)絡下,不論是否使用標注框架,均能取得優(yōu)于MSE的測試結果,此外,若測試時使用標注框架,AMSE在使用ResNet-101作為骨干網(wǎng)絡的情況下可使實驗結果提升更多。結果表明,AMSE能更有效的激發(fā)模型的性能。相較于MSE,當骨干網(wǎng)絡為ResNet-50時,在使用標注框架和不使用標注框架的情況下,AMSE分別能使實驗結果提升0.6和0.2個點,該結果表明,在提供準確的標注框架的情況下測試AMSE,能使實驗效果提升更多。
表3分別將本方法和Hourglass、CPN、SBN進行對比。SBN的人體框架檢測器AP為56.4與本方法相同,CPN和Hourglass的人體框架檢測器AP為55.3,OHKM表示是否使用難例挖掘[23]。本實驗的SBN效果與公開代碼效果一致,因此可直接與SBN論文中列出的結果相比較。表3可知,雖然SBN實驗結果優(yōu)于Hourglass和CPN,但是AMSE仍然能使最終結果提高0.2和0.4個點,而使用AMSE作為損失函數(shù)的代價僅為訓練時增加的少許計算量。AMSE在當前最好的輕量級方法SBN上取得了較好的效果,該方法也應適用于其他效果一般的人體姿態(tài)估計方法,預測圖示例如圖5所示。
圖5預測熱圖示例
表1不同超參數(shù)的實驗結果
表2不同骨干下的實驗結果
表3不同模型下的實驗結果
4.結論
本論文介紹了人體姿態(tài)估計任務中,在計算預測熱圖與標注熱圖間的MSE值時所存在的不一致問題,并針對該問題進行了詳細的分析。為了解決該問題,本文提出了一種新型有效的非對稱均方誤差(AMSE)損失函數(shù),在MSE的基礎上對預測熱圖添加懲罰項,進而解決了該問題。在COCOval2017數(shù)據(jù)集的實驗結果表明,使用標注框架數(shù)據(jù)進行模型測試能使AMSM的最終效果提高0.5個點左右。雖然本方法提出于人體姿態(tài)估計任務當中,但是也應同樣適用于任何使用MSE作為損失函數(shù)且對相對值的順序敏感的任務當中。
參考文獻(References):
標簽:
上一篇:機器視覺光源知識總結
中國傳動網(wǎng)版權與免責聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(www.wangxinlc.cn)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權屬于原版權人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
產(chǎn)品新聞
更多>2025-04-30
性能躍升20%!維宏NK300CX Plus數(shù)控系統(tǒng)...
2025-04-11
2025-04-08
【產(chǎn)品解讀】全面提升精密制造檢測節(jié)拍...
2025-03-31
應用案例 | 使用宏集TELE監(jiān)控繼電器監(jiān)控...
2025-03-26
2025-03-20