時(shí)間:2024-02-22 10:37:14來源:3D視覺工坊
。該流程包括實(shí)例分割、特征匹配和點(diǎn)集配準(zhǔn)。首先,利用RGB圖像進(jìn)行單視圖三維語義場(chǎng)景分割,將2D數(shù)據(jù)集中的常見對(duì)象類封裝為物體實(shí)例的點(diǎn)云。然后,根據(jù)RGB圖像中感興趣對(duì)象之間的匹配關(guān)鍵點(diǎn)提取兩個(gè)連續(xù)分割點(diǎn)云的3D對(duì)應(yīng)點(diǎn)。此外,利用核密度估計(jì)(KDE)估計(jì)的分布對(duì)每對(duì)3D點(diǎn)進(jìn)行加權(quán),從而在解決點(diǎn)云之間的剛性變換時(shí)給出了更少中心對(duì)應(yīng)點(diǎn)的魯棒性。最終,在7自由度雙臂Baxter機(jī)器人上測(cè)試了該流程,結(jié)果表明機(jī)器人可以成功分割對(duì)象、在移動(dòng)時(shí)注冊(cè)多個(gè)視圖并抓取目標(biāo)對(duì)象。
讀者理解:
這篇文章介紹了一種用于移動(dòng)協(xié)作機(jī)器人的RGB-D感知的端到端處理流程。該流程包括實(shí)例分割、特征匹配和對(duì)齊,旨在幫助機(jī)器人在移動(dòng)過程中理解場(chǎng)景并執(zhí)行操作。文章提出的方法首先對(duì)場(chǎng)景中感興趣的對(duì)象進(jìn)行分割,并在機(jī)器人移動(dòng)時(shí)匹配連續(xù)的RGB圖像中的特征,然后利用深度圖獲取3D對(duì)應(yīng)關(guān)系。通過統(tǒng)計(jì)加權(quán)這些3D對(duì)應(yīng)關(guān)系,使用核密度估計(jì)(KDE)進(jìn)行剛性點(diǎn)云對(duì)齊。實(shí)驗(yàn)結(jié)果表明,在實(shí)際機(jī)器人上進(jìn)行的測(cè)試中,機(jī)器人能夠成功地理解場(chǎng)景并抓取目標(biāo)物體,驗(yàn)證了所提出方法的有效性。文章的主要貢獻(xiàn)在于提出了一種綜合性的處理流程,為移動(dòng)機(jī)器人在復(fù)雜環(huán)境中的感知和操作提供了重要參考。
1 引言
本文介紹自我中心視覺在機(jī)器和人類視覺中的重要性,特別是在密集環(huán)境中的作用。為了改善自主機(jī)器人的操作任務(wù),需要對(duì)感興趣物體的空間信息進(jìn)行三維感知。目前的分割和配準(zhǔn)任務(wù)通常是分開進(jìn)行的,但同時(shí)部署這兩個(gè)過程會(huì)導(dǎo)致計(jì)算成本高昂。因此,本文旨在實(shí)現(xiàn)輕量級(jí)的自我中心3D分割、特征匹配和場(chǎng)景重建流程,以提高基于視覺的室內(nèi)移動(dòng)協(xié)作機(jī)器人的性能。已有的工作主要集中在學(xué)習(xí)圖像之間的匹配特征,但對(duì)于室內(nèi)移動(dòng)協(xié)作機(jī)器人,還需要關(guān)注感興趣對(duì)象的空間占據(jù)信息。為了填補(bǔ)先前工作的空白并改善基于視覺的移動(dòng)協(xié)作機(jī)器人的3D語義場(chǎng)景感知,本文提出了三項(xiàng)貢獻(xiàn):
(1)一種提取和統(tǒng)計(jì)加權(quán)3D對(duì)應(yīng)點(diǎn)以進(jìn)行剛性點(diǎn)云對(duì)準(zhǔn)的穩(wěn)健方法,
(2)一種用于具有雙目視覺的自我中心機(jī)器人的端到端分割、特征匹配和全局配準(zhǔn)流程,
(3)使用真實(shí)機(jī)器人系統(tǒng)進(jìn)行測(cè)試,以驗(yàn)證提出方法的正確性。
2 自我中心的3d對(duì)象分割
本節(jié)提出了一種算法,用于自我中心地在RGB-D幀中分割物體。該算法首先從圖像流中獲取深度圖像D和RGB圖像I,然后分割出I中的感興趣對(duì)象以獲得對(duì)象的掩碼MI。接著,對(duì)D進(jìn)行孔填充以保證結(jié)果質(zhì)量,然后與I相對(duì)齊。隨后,處理對(duì)齊深度幀Dalign的像素,以校正MI之外的深度像素,并將其轉(zhuǎn)換為PM中的點(diǎn)。最后,通過刪除深度圖像中可能由孔造成的異常值來清理PM。
3 特征檢測(cè)與匹配
本節(jié)介紹了自我中心3D物體分割中特征檢測(cè)和匹配的算法。首先,將1D位置嵌入應(yīng)用到2D域中,以提高特征提取學(xué)習(xí)過程,并設(shè)計(jì)了特征提取網(wǎng)絡(luò)。然后,利用分割掩碼提供SuperPoint每個(gè)對(duì)象的掩碼RGB圖像,以確保特征掃描區(qū)域在掩碼區(qū)域內(nèi)。接著,為兩個(gè)連續(xù)幀中的每個(gè)對(duì)應(yīng)對(duì)象創(chuàng)建相應(yīng)對(duì)象的掩碼RGB圖像,并在每對(duì)圖像上應(yīng)用重新訓(xùn)練后的SuperPoint,以提取和匹配每個(gè)對(duì)象實(shí)例內(nèi)的2D關(guān)鍵點(diǎn)。最后,聚合匹配的特征并計(jì)算點(diǎn)云之間的3D對(duì)應(yīng)關(guān)系。這一方法避免了特征在不相關(guān)對(duì)象之間的匹配,并且提高了物體實(shí)例的準(zhǔn)確性和一致性。
4 點(diǎn)云對(duì)齊與配準(zhǔn)
本節(jié)詳細(xì)介紹了點(diǎn)云對(duì)齊與配準(zhǔn)的過程,主要包括兩個(gè)關(guān)鍵步驟:3D對(duì)應(yīng)關(guān)系的重要性加權(quán)和剛性運(yùn)動(dòng)的點(diǎn)云對(duì)齊。
3D對(duì)應(yīng)關(guān)系的重要性加權(quán):
權(quán)重初始化:根據(jù)每個(gè)點(diǎn)周圍特定半徑內(nèi)的鄰近點(diǎn)數(shù)初始化該點(diǎn)的權(quán)重。
密度估計(jì):使用KDE和ISJ算法估計(jì)未知分布的密度,以獲得魯棒性。
權(quán)重更新:根據(jù)密度函數(shù)更新每個(gè)點(diǎn)的權(quán)重,以更好地表示其重要性。
剛性運(yùn)動(dòng)的點(diǎn)云對(duì)齊:
計(jì)算平移向量:計(jì)算加權(quán)質(zhì)心,用于平移點(diǎn)云。
計(jì)算旋轉(zhuǎn)矩陣:通過奇異值分解得到旋轉(zhuǎn)矩陣,用于旋轉(zhuǎn)點(diǎn)云。
定義剛性變換矩陣:將平移向量和旋轉(zhuǎn)矩陣組合成剛性變換矩陣。
點(diǎn)云對(duì)齊:應(yīng)用剛性變換矩陣,將兩個(gè)多視點(diǎn)云進(jìn)行對(duì)齊。
5 實(shí)驗(yàn)
SuperPoint with Positional Embedding的性能:在MS COCO 2014數(shù)據(jù)集上,使用2D位置嵌入重新訓(xùn)練了SuperPoint,并在MagicPoint標(biāo)記的興趣點(diǎn)上進(jìn)行了微調(diào)。通過對(duì)圖像進(jìn)行調(diào)整和增強(qiáng),如隨機(jī)亮度和對(duì)比度、高斯噪聲、陰影和運(yùn)動(dòng)模糊,訓(xùn)練了具有128維度的位置嵌入的SuperPoint。訓(xùn)練過程在NVIDIA RTX 4090 GPU上進(jìn)行了10個(gè)時(shí)期(300,000次迭代)。實(shí)驗(yàn)結(jié)果顯示,SuperPoint在HPatches數(shù)據(jù)集上表現(xiàn)出色,具有較強(qiáng)的魯棒性,尤其在亮度變化和視角變化等常見場(chǎng)景下。
多角度下的點(diǎn)云對(duì)齊誤差:通過在距離場(chǎng)景2米的平面表面上移動(dòng)攝像機(jī),包括0°(初始位置)、±10°、±20°、±30°和±45°等不同角度,計(jì)算了兩個(gè)對(duì)應(yīng)點(diǎn)集Kt?1和Kt之間的均方根誤差(RMSE)。實(shí)驗(yàn)結(jié)果表明,隨著偏移角度的增加,RMSE變大,同時(shí)證明了KDE在減小對(duì)齊誤差方面的有效性。
在Baxter機(jī)器人上的部署實(shí)驗(yàn):
實(shí)驗(yàn)設(shè)置:在Baxter機(jī)器人上安裝IntelRealSense D435i RGB-D相機(jī),并設(shè)置了一個(gè)桌子、一把椅子、一個(gè)包和兩個(gè)塑料杯的場(chǎng)景。
機(jī)器人移動(dòng)與多視角拍攝:Baxter先站在一個(gè)位置拍攝一個(gè)視角,然后移動(dòng)到另一個(gè)角度拍攝另一個(gè)視角,其運(yùn)動(dòng)由Dataspeed移動(dòng)底座支持,通過ROS消息進(jìn)行同步。
多視角點(diǎn)云分割與對(duì)齊:在捕獲多視角點(diǎn)云后,Baxter首先對(duì)場(chǎng)景中的對(duì)象進(jìn)行分割,然后匹配兩個(gè)視圖之間的3D對(duì)應(yīng)關(guān)系,最后解決了權(quán)重3D對(duì)應(yīng)關(guān)系的剛性對(duì)齊,最終獲得了對(duì)場(chǎng)景的理解。
靠近和抓取目標(biāo)物體:Baxter演示了使用3D語義場(chǎng)景感知進(jìn)行機(jī)器人抓取的可行性,當(dāng)目標(biāo)物體在機(jī)器人的工作空間內(nèi)時(shí),Baxter可以有效地抓取這些物體。
在傳統(tǒng)硬件上的時(shí)間復(fù)雜度:使用OpenVINO庫(kù)在Intel HD Graphics 4000上部署了YOLOv8n,評(píng)估了分段、關(guān)鍵點(diǎn)提取和匹配、關(guān)鍵點(diǎn)加權(quán)以及點(diǎn)云對(duì)齊等步驟的時(shí)間復(fù)雜度和運(yùn)行時(shí)間。
6 結(jié)論
本研究提出了一種用于RGB-D感知移動(dòng)協(xié)作機(jī)器人的端到端流程,包括實(shí)例分割、特征匹配和對(duì)齊。通過在實(shí)際機(jī)器人上進(jìn)行的實(shí)驗(yàn),驗(yàn)證了該方法的有效性,機(jī)器人能夠理解場(chǎng)景并執(zhí)行操作。
中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
產(chǎn)品新聞
更多>2025-04-30
性能躍升20%!維宏NK300CX Plus數(shù)控系統(tǒng)...
2025-04-11
rpi-image-gen:樹莓派軟件鏡像構(gòu)建的終...
2025-04-08
【產(chǎn)品解讀】全面提升精密制造檢測(cè)節(jié)拍...
2025-03-31
激光閃耀 智慧引領(lǐng) | WISE MASER 黑武士...
2025-03-20