基于可見(jiàn)光單圖像三維結(jié)構(gòu)恢復(fù)方法綜述

文:梁炎興 王映輝 江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院2022年第2期

  基于可見(jiàn)光單圖像的三維重構(gòu)方法一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn),該文從光照物體的材質(zhì)和結(jié)構(gòu)差異,以及成像過(guò)程中信息損失等因素著手,對(duì)基于光照模型、基于幾何圖元以及基于深度學(xué)習(xí)策略的三維重建方法進(jìn)行了分類和概述,并分析討論各類方法的優(yōu)缺點(diǎn)以及未來(lái)的研究方向。

  1 引言

  從二維圖像重建出三維結(jié)構(gòu)作為計(jì)算機(jī)視覺(jué)的一個(gè)重要研究領(lǐng)域,已取得豐富的成果。其主要任務(wù)是通過(guò)相機(jī)獲取物體的二維圖像信息,利用三維重建的相關(guān)理論分析處理、恢復(fù)真實(shí)物體的表面形貌。該技術(shù)廣泛應(yīng)用于人工智能、機(jī)器人、無(wú)人駕駛、虛擬現(xiàn)實(shí)、航空遙感測(cè)量、工業(yè)自動(dòng)化等重要領(lǐng)域。目前,許多基于多圖像的三維恢復(fù)方法已被提出并得到廣泛應(yīng)用。雖然基于單圖像的三維恢復(fù)方法因其病態(tài)性而更具難度, 但其方便性一直受到業(yè)界和學(xué)術(shù)界的關(guān)注。尤其是基于可見(jiàn)光( 波段在 380 ~ 760 nm 區(qū)間的肉眼可見(jiàn)光 ) 而非結(jié)構(gòu)光、紅外激光、超聲波等方式的單圖像,其自身已經(jīng)丟失很多關(guān)鍵幾何信息,需要通過(guò)一些假設(shè)、先驗(yàn)知識(shí),或借助基于已有模型的深度學(xué)習(xí)方法實(shí)現(xiàn)三維恢復(fù)。

  總的來(lái)說(shuō),基于可見(jiàn)光單圖像的三維恢復(fù)存在以下影響因素和困難:

  (1) 物體自身的材質(zhì)差異。不同材質(zhì)的物體因微觀分子結(jié)構(gòu)不同,呈現(xiàn)出不同的表面特性,如金屬、白紙、玻璃等。如果只考慮某種特定材質(zhì)的物體,往往會(huì)使三維恢復(fù)系統(tǒng)缺乏泛化性和魯棒性,而針對(duì)多個(gè)類別會(huì)因較大的類內(nèi)差異和較小的類間差異導(dǎo)致重建精度下降。

  (2) 物體表面的幾何結(jié)構(gòu)差異。點(diǎn)、線、面代表了不同維度的幾何結(jié)構(gòu),這些基本幾何結(jié)構(gòu)元素的組合構(gòu)成了物體的表面形貌。同一個(gè)物體的不同區(qū)域,因物體表面凹凸、高低程度的不同,造成表面結(jié)構(gòu)、輪廓的差異。即使是同種材質(zhì)的不同物體,也會(huì)因制造工藝、設(shè)計(jì)外形等因素導(dǎo)致物體表面的幾何結(jié)構(gòu)有較大的差異。

  (3) 圖像信息采集的損失。真實(shí)世界中的物體往往受到環(huán)境的影響,存在高光、陰影、遮擋、非剛性變形等現(xiàn)象,加上相機(jī)拍攝角度、距離、鏡頭畸變、投影等因素,導(dǎo)致圖像本身的信息損失甚至錯(cuò)誤,干擾三維恢復(fù)的數(shù)據(jù)輸入。

  基于單圖像的三維結(jié)構(gòu)恢復(fù)是一個(gè)不確定性問(wèn)題,即病態(tài)性問(wèn)題,僅靠單幅圖像無(wú)法得到唯一確定的三維恢復(fù)結(jié)果,如何利用一定的先驗(yàn)知識(shí)和預(yù)標(biāo)定數(shù)據(jù)集,來(lái)指導(dǎo)和約束三維重建是一大難點(diǎn)。

  基于以上困難,國(guó)內(nèi)外許多研究成果給出了不同的解決方案和方法,概括起來(lái)包括:基于光照模型的方法、基于幾何圖元展布規(guī)律的方法和基于深度學(xué)習(xí)的方法。

  2 基于光照模型的方法

  2.1 基于紋理的形狀恢復(fù)方法

  從紋理恢復(fù)形狀 (Shape from Texture,SfT) 的方法,是由 Gibson 于 1950 年首次提出,它是一種根據(jù)物體表面紋理變化來(lái)推算表面形變情況,進(jìn)而恢復(fù)出物體三維結(jié)構(gòu)的方法。為了簡(jiǎn)化模型使其可計(jì)算,通常假定物體表面在一個(gè)水平面上, 此時(shí)該方法將問(wèn)題轉(zhuǎn)變?yōu)楣浪阄矬w所在平面的法向量。之后, 該方法逐漸從平面擴(kuò)展到光滑連續(xù)曲面。

  應(yīng)用 SfT 方法必須滿足以下先驗(yàn)條件:(1) 紋理由規(guī)則的紋理單元組成,并假定這些單元具有完全一致的固定形狀 ( 通常只有人工構(gòu)造的規(guī)則圖案才滿足該要求 );(2) 紋理分布具有均勻性,即紋理密度相同;(3) 紋理圖像能夠轉(zhuǎn)換成基于頻域的表示;(4) 紋理具有各向同性特性或隨機(jī)相位特性。由于該方法限制條件嚴(yán)格,通用性弱,且紋理圖案極易受到光照、陰影的影響,導(dǎo)致其準(zhǔn)確性較低。該方法逐漸被基于明暗的形狀恢復(fù)方法所代替。

  2.2 基于明暗的形狀恢復(fù)方法

  基于明暗的形狀恢復(fù) (Shape from Shading,SfS) 方法是計(jì)算機(jī)視覺(jué)領(lǐng)域中三維結(jié)構(gòu)恢復(fù)的重要方法之一。該方法最早由 Horn[14] 于 1986 年提出,其基本過(guò)程是借助一定的成像模型,從單幅圖像的明暗變化出發(fā),根據(jù)表面點(diǎn)的亮度取決于入射光線和表面法線之間的角度這一物理定理,通過(guò)施加約束條件求解物體表面的梯度場(chǎng),進(jìn)而由積分梯度的方式得到表面起伏高度值?;? SfS 方法的系統(tǒng)具有設(shè)備簡(jiǎn)單、分辨率高、適用性強(qiáng)等優(yōu)勢(shì),在工業(yè)生產(chǎn)過(guò)程檢測(cè)、醫(yī)學(xué)圖像分析與重建、人臉與指紋等生物特征識(shí)別、星球表面形貌重建等領(lǐng)域得到廣泛的應(yīng)用。

  2.2.1 經(jīng)典的 SfS 方法

  由于物體表面的明暗極易受到光源、形狀、材質(zhì)特性,以及相機(jī)或視點(diǎn)的角度、距離、參數(shù)等因素的影響,因此經(jīng)典的SfS 方法需滿足以下前提假設(shè):(1) 表面微觀結(jié)構(gòu)需要抽象為一種朗伯特反射模型;(2) 物體表面各點(diǎn)的光照反射特性一致, 且反射系數(shù)已知;(3) 光源為無(wú)限遠(yuǎn)處的點(diǎn)光源;(4) 物體表面與相機(jī)距離較遠(yuǎn),成像幾何關(guān)系滿足正交投影。

  如圖 1 所示,由朗伯特反射模型可知,反射光的強(qiáng)度與入射光的強(qiáng)度,以及入射光與體表面法向量之間夾角的余弦值成正比,如公式 (1) 所示:

公式1.png    (1)

  其中,x 和 y 為圖像的二維坐標(biāo);圖標(biāo)1.png為漫反射光強(qiáng)度;圖標(biāo)2.png為光源強(qiáng)度;ρ 為表面反射系數(shù);θ 為入射光與表面法向量之間的夾角。

  若以相機(jī)坐標(biāo)系為參照系,設(shè)物體表面起伏高度為圖片4.png,則物體表面的法方向可通過(guò)表面各點(diǎn)的法向量圖片5.png和表面梯度圖標(biāo)5.png表示,它們之間的關(guān)系如公式 (2)~(3) 所示:

公式2.png    (2)

公式3.png    (3)

由公式(1) ~ (3) 可知,朗伯特反射模型可由公式(4) 表示:

公式4.png(4)

       其中,圖標(biāo)1.png為歸一化的圖像亮度;圖標(biāo)6.png為反射函數(shù); p0 和 q0 為反射點(diǎn)沿光源方向的向量。

  通常,僅由該模型無(wú)法確定其唯一解,因此,必須建立聯(lián)合表面反射模型和表面微觀結(jié)構(gòu)模型的正則化模型,對(duì)上式進(jìn)行進(jìn)一步約束和求解。

  根據(jù)建立正則化模型方式的不同,SfS 算法大致可分為最小值方法、演化方法、線性化方法和局部方法等 4 類典型算法。

  (1) 最小值方法

  最小值方法就是將物體表面反射模型推導(dǎo)出的亮度方程和物體表面微觀結(jié)構(gòu)模型聯(lián)合表示成一個(gè)能量函數(shù)的泛函極值問(wèn)題或最優(yōu)化問(wèn)題,以求得最小值解或近似解。由于二維圖像數(shù)據(jù)與由反射模型所確定的物體表面亮度之間存在誤差,該方法首先將亮度方程轉(zhuǎn)化為誤差函數(shù)的形式;然后結(jié)合不同的約束條件 ( 如光滑性約束、可積性約束、圖像梯度約束等 ),聯(lián)立得到新的泛函極值函數(shù),并應(yīng)用交錯(cuò)網(wǎng)格方法或三角面元逼近方法將其離散化 ;最后利用 GaussSeidel 迭代方法得到物體表面梯度圖標(biāo)5.png和表面起伏高度 Z 的網(wǎng)格點(diǎn)值。

  (2) 演化方法

  演化方法的核心是利用動(dòng)力學(xué)思想,將 SfS 的泛函求解問(wèn)題看作是一個(gè) Hamilton 系統(tǒng)方程問(wèn)題。當(dāng)給定初值或邊界條件時(shí),該方程就轉(zhuǎn)化為一個(gè)柯西初值問(wèn)題或狄利克雷邊界問(wèn)題。這類問(wèn)題通常可以利用特征線方法、Viscosity 方法、Level Sets 方法等方法進(jìn)行求解。其中,確定圖像中唯一形狀的特征點(diǎn)是關(guān)鍵,該點(diǎn)是演化過(guò)程開始的起點(diǎn)。演化過(guò)程從起點(diǎn)開始,搜索鄰近點(diǎn),找出其中遠(yuǎn)離光源方向的所有點(diǎn),并從中篩選出離光源方向最近的點(diǎn),再沿著該方向構(gòu)成的演化路徑計(jì)算圖像中每一點(diǎn)的高度值,從而得到整個(gè)表面的高度。由于演化過(guò)程是關(guān)于時(shí)間可微的,故應(yīng)用演化方法求解 SfS 問(wèn)題,實(shí)際上也隱含地利用了物體表面微觀結(jié)構(gòu)模型。

  



  

朗伯特反射模型示意圖.png

圖 1 朗伯特反射模型示意圖

     (3) 線性化方法

  線性化方法是指通過(guò)對(duì)反射函數(shù)作泰勒展開后,舍去其非線性項(xiàng),將其轉(zhuǎn)化為線性問(wèn)題進(jìn)行求解。該方法認(rèn)為在反射函數(shù)中,低階項(xiàng)占主要成份,舍去高階項(xiàng)后的結(jié)果與真實(shí)情況接近,且滿足泰勒展開的要求,從而間接要求物體表面的高低變化滿足連續(xù)緩慢的特性。因此,先將表面反射函數(shù)表示為表面梯度的函數(shù),并作泰勒展開,只保留常數(shù)項(xiàng)和一次項(xiàng),兩邊同時(shí)進(jìn)行傅里葉變換,然后根據(jù)光源方向的傾角和偏角對(duì)其進(jìn)行改寫,再進(jìn)行逆傅里葉變換,即可得到物體表面的高度值。

  (4) 局部化方法

  上述方法的求解過(guò)程是全局的,不能獨(dú)立得到物體表面的局部形狀表示。而局部化方法首先根據(jù)先驗(yàn)知識(shí)假定物體表面微觀結(jié)構(gòu)是一個(gè)特定的形狀 ( 如球形 );然后將反射模型與物體微觀結(jié)構(gòu)模型聯(lián)合構(gòu)成形狀參數(shù)的線性偏微方程組,通過(guò)尋找圖像特征點(diǎn),旋轉(zhuǎn)圖像使其與光源方向在圖像平面上的投影方向一致,計(jì)算在該坐標(biāo)系下表面點(diǎn)的傾角 γ 和偏角 θ;最后利用邊界條件迭代求解,即可直接確定物體的局部三維表面形狀。

  綜上所述,經(jīng)典 SfS 方法的算法復(fù)雜度高,對(duì)初始環(huán)境尤其是光照條件限制嚴(yán)格。朗伯特反射模型本身存在缺陷—— 理想漫反射的條件在現(xiàn)實(shí)中幾乎無(wú)法滿足,以此為基礎(chǔ)的各種計(jì)算方法必然存在較大誤差。但是,該類方法為其他方法奠定了許多光學(xué)和計(jì)算機(jī)渲染的理論基礎(chǔ),如后改進(jìn)的 SfS 方法。

  2.2.2 后改進(jìn)的 SfS 方法

  經(jīng)典的 SfS 方法使用簡(jiǎn)化的成像模型 ( 如假設(shè)物體表面滿足理想反射、光源位于無(wú)限遠(yuǎn)處、相機(jī)遵循正交投影模型等 ), 盡管降低了 SfS 方法的復(fù)雜性,但也直接導(dǎo)致了三維恢復(fù)結(jié)果的誤差較大。這是因?yàn)閷?shí)際物體的表面并非理想的漫反射表面, 而是既含有漫反射又含有鏡面反射的混合表面。尤其是當(dāng)相機(jī)距離物體表面較近時(shí),相機(jī)不再滿足正交投影,而接近于透視投影,甚至還會(huì)發(fā)生陰影、遮擋等現(xiàn)象,從而對(duì)表面各點(diǎn)的亮度產(chǎn)生更大的干擾。同時(shí),實(shí)際物體的表面材質(zhì)是非均勻、各向異性的,使得物體表面各點(diǎn)的光照反射特性不一致,反射系數(shù)也會(huì)隨著表面起伏高度和凹凸發(fā)生變化。近年來(lái),國(guó)內(nèi)外諸多學(xué)者對(duì)經(jīng)典的 SfS 方法展開了不同方面的研究和改進(jìn),衍生出許多突破前提假設(shè)的后改進(jìn)的 SfS 方法。

  (1) 基于表面微觀結(jié)構(gòu)的方法

  經(jīng)典的 SfS 算法中一個(gè)最重要的前提假設(shè)是物體表面的光反射模型遵循朗伯特反射模型,該模型是一個(gè)高度簡(jiǎn)化的理想模型,忽略了許多實(shí)際情況。因此,采用不同的表面微觀結(jié)構(gòu)模型和反射模型,盡可能地覆蓋多種光照情況,可以大大提高三維恢復(fù)結(jié)果的精確性。Ahmed 等首次建立了 Ward 模型下的 SfS 圖像輻照度方程,并利用 Lax-Friedrichs 算法進(jìn)行了求解。

  Vogel 等提出了透視投影下基于 Phong 模型的混合表面SfS 方法的研究,如圖 2 所示,同樣使用了 Lax-Friedrichs 算法進(jìn)行求解。Archinal 等基于數(shù)字表面模型利用月球軌道觀察相機(jī)捕捉到窄視角圖像,通過(guò)光電映射增強(qiáng)技術(shù),改進(jìn)了月球表面重建模型的細(xì)節(jié)。O’Hara 等使用朗伯特反射模型和Oren-Nayar 反射模型的混合模型,基于小孔成像相機(jī)模型, 實(shí)現(xiàn)了單圖像的火星地表重建。Yang 等提出摒棄簡(jiǎn)單的反射模型,將基于徑向基函數(shù)的模型擬合到數(shù)據(jù)中,其實(shí)驗(yàn)結(jié)果相比于朗伯特反射模型有明顯提升。

  Camilli 等研究了如何使一些非朗伯特模型應(yīng)用在 SfS 方法的適配性問(wèn)題上,拓展了 SfS 方法的普適性。王國(guó)琿等提出一種基于牛頓 - 拉弗森法的 Blinn-Phong 混合表面模型的三維恢復(fù)快速 SfS 算法,相比于其他方法提高了求解效率。

  (2) 基于光照反射率的方法

  物體表面的凹凸和高度,可根據(jù)表面點(diǎn)的亮度變化,通過(guò)不同的反射模型計(jì)算得到。均勻的光照反射率假定物體表面是光滑的,忽略了現(xiàn)實(shí)的非均勻性和各向異性。對(duì)不同情況的反射率進(jìn)行分類處理,有利于提高三維恢復(fù)的精度。

  Samaras 等建立了具有分段恒定反射率的多視點(diǎn) SfS 模型,并將其應(yīng)用于人臉重建,提高了人臉模型的精細(xì)程度。Capanna 等使用最大似然估計(jì)方法來(lái)降低噪聲對(duì)不同材質(zhì)的反射率的敏感性,并將其應(yīng)用于重建 Lutetia 小行星中。Wu 等使用單幅圖像和不同的約束條件,從低分辨率表面模型中恢復(fù)出不同的反射率對(duì)應(yīng)的不同形貌,結(jié)果表明可以達(dá)到和使用相對(duì)高分辨率圖像一樣的重建效果。

  (3) 基于光源或相機(jī)與物體距離的方法

  

使用 SfS 方法恢復(fù)莫扎特臉模.png

  圖 2 使用 SfS 方法恢復(fù)莫扎特臉模

  相機(jī)距離物體遠(yuǎn)近的不同直接決定后續(xù)計(jì)算使用正交投影還是透視投影,從而影響三維恢復(fù)的精度。Herbort 等基于非朗伯特模型和可變反射率,通過(guò)主動(dòng)距離掃描技術(shù),不斷改變相機(jī)和物體之間的距離,實(shí)現(xiàn)三維物體恢復(fù),同時(shí)增加距離懲罰項(xiàng)進(jìn)行優(yōu)化約束,保證其精度接近原始曲面,以提高三維恢復(fù)模型的細(xì)節(jié)。Liu 等仔細(xì)分析了光照方向和光源與物體的距離對(duì)三維結(jié)構(gòu)恢復(fù)的影響,提出一種誤差預(yù)測(cè)模型。該模型揭示了光源與物體表面的距離和方位角如何影響三維恢復(fù)精度。實(shí)驗(yàn)結(jié)果表明,在窄視角高分辨率相機(jī)采集的圖像中,其三維恢復(fù)結(jié)果優(yōu)于其他同時(shí)期的方法。

  相比于經(jīng)典的 SfS 方法,基于光源或相機(jī)與物體距離的方法在三維結(jié)構(gòu)恢復(fù)的結(jié)果上有明顯提升,可以根據(jù)不同的場(chǎng)景適應(yīng)不同的重建要求。但良好的重建結(jié)果依賴于準(zhǔn)確的先驗(yàn)知識(shí),包括對(duì)光照情況的綜合考慮、物體表面微觀結(jié)構(gòu)的精確建模、相機(jī)與視點(diǎn)的角度關(guān)系等。對(duì)于小范圍的室內(nèi)近距離單個(gè)物體,或結(jié)構(gòu)簡(jiǎn)單的星球宏觀地貌等,SfS 方法的三維恢復(fù)效果較好,而對(duì)于大范圍的復(fù)雜室外場(chǎng)景,恢復(fù)效果較差。為了提高室外場(chǎng)景的三維恢復(fù)效果,SfS 方法逐漸被以多視圖幾何理論為基礎(chǔ)的運(yùn)動(dòng)結(jié)構(gòu)恢復(fù) (Structure from Motion,SfM) 方法和同時(shí)定位與地圖生成 (Simultaneous Localization And Mapping,SLAM) 方法所取代,但這類方法不屬于基于單圖像范疇的三維結(jié)構(gòu)恢復(fù)方法。

  3 基于幾何圖元展布規(guī)律的方法

  自然界中的部分物體,尤其是人造物體具有明顯的幾何規(guī)律,如重復(fù)的紋理、對(duì)稱的結(jié)構(gòu)、規(guī)則的幾何拼接圖形、人造CAD 模型等。借助幾何規(guī)律這一重要特性,通過(guò)對(duì)單幅圖像

  局部建模和全局拓展,就可以恢復(fù)出完整的三維模型。具體可分為利用二維幾何特征的方法和利用三維構(gòu)造模型的方法。

  3.1 基于二維幾何特征的方法

  基于二維幾何特征的方法是指一個(gè)三維模型映射在二維平面上的幾何圖形具有諸如對(duì)稱、重復(fù)等規(guī)律,通過(guò)將一個(gè)單位圖元旋轉(zhuǎn)、平移或縮放就可以反推出整個(gè)三維模型。

  該方法的第一步是定義和檢測(cè)這種規(guī)律,即需要對(duì)目標(biāo)形狀或預(yù)先訓(xùn)練的模型進(jìn)行強(qiáng)約束。Wei 等對(duì)此提出了一般對(duì)稱性的概念( 包括平移對(duì)稱、旋轉(zhuǎn)對(duì)稱和反射對(duì)稱),Chertok、Lee 和 Loy 在二維圖像的對(duì)稱性檢測(cè)方面也做了許多工作。這些定義和方法針對(duì)特定的目標(biāo)類 ( 如人臉,人體和汽車 ) 或某些特定場(chǎng)景 ( 如具有平面墻、天花板和地板的室內(nèi)場(chǎng)景,具有重復(fù)圖案的平面場(chǎng)景 ) 取得了良好的效果。

  第二步要針對(duì)鄰近像素進(jìn)行強(qiáng)制光度匹配,使二維單位圖元重復(fù)拓展拼接形成三維模型的過(guò)程中,圖元之間的拼接處更加平滑自然。通常使用基于馬爾可夫隨機(jī)場(chǎng) (Markov Random Field,MRF) 的立體優(yōu)化來(lái)強(qiáng)制匹配像素之間的光度一致性,使用一個(gè)平滑項(xiàng)來(lái)懲罰像素鄰域之間的不一致性。第三步為了使圖元之間具有相互一致的深度值,還需要對(duì)三維模型的深度圖進(jìn)行建模。Zabih 等定義多個(gè)圖像之間的交互集并強(qiáng)制可見(jiàn)性約束,Sun 等使用遮擋項(xiàng)來(lái)懲罰遮擋,這間接地使深度貼圖保持了一致。

  基于上述 3 個(gè)重建步驟,許多學(xué)者提出了系統(tǒng)性框架。Wu 等提出一種側(cè)重于利用圖元重復(fù)性的框架,該框架能通過(guò)輸入單幅圖像,自動(dòng)檢測(cè)重復(fù)區(qū)域,并將其以圖像中稠密像素匹配的形式恢復(fù)出三維模型,如圖 3 所示。該匹配關(guān)系由一個(gè)

  

基于重復(fù)圖元的單圖像重建.png

  圖 3 基于重復(fù)圖元的單圖像重建

  區(qū)間圖表示,區(qū)間圖表示圖像中每個(gè)像素與其匹配像素之間的距離。為了獲得稠密的重復(fù)結(jié)構(gòu),該方法還提出了一個(gè)圖割來(lái)平衡高層次的幾何重復(fù)約束、低層次的光度一致性和空間平滑性約束,以消除重復(fù)拼接處的不一致性。Xue 等提出一種側(cè)重于利用圖元對(duì)稱性縮小搜索空間的框架,通過(guò)輸入一個(gè)對(duì)稱分段平面物體的單幅圖像,尋找所有的對(duì)稱線匹配對(duì),然后基于對(duì)稱線和平面線,通過(guò) MRF 恢復(fù)出深度圖,相比于其他方法計(jì)算效率更高。

  相較于其他三維模型,中國(guó)古代建筑是一種典型的同時(shí)具備軸對(duì)稱和中心對(duì)稱特點(diǎn)的三維模型。王映輝教授團(tuán)隊(duì)針對(duì)此類問(wèn)題進(jìn)行了詳細(xì)的研究,并提出了一種中國(guó)唐朝風(fēng)格的古建筑建模方法。該方法只需要已知建筑物一個(gè)角的圖像,就可以根據(jù)其幾何特征規(guī)則恢復(fù)出完整的唐朝建筑三維模型,相比于其他方法具有數(shù)據(jù)量少、魯棒性強(qiáng)的特點(diǎn)。基于上述建模方法, 團(tuán)隊(duì)更進(jìn)一步提出一種基于構(gòu)件提取的室內(nèi)場(chǎng)景重建方法。該方法對(duì)幾何圖元規(guī)律進(jìn)行了延伸和拓展,提出了模型構(gòu)件理論。首先,利用形狀檢測(cè)和平面分解方法提取室內(nèi)場(chǎng)景中基本形狀構(gòu)件,用基于邊界檢測(cè)方法及基于有向包圍盒的方法實(shí)現(xiàn)室內(nèi)場(chǎng)景中基本形狀構(gòu)件的擬合;然后,選擇基本形狀構(gòu)件集中最大的構(gòu)件作為基準(zhǔn)構(gòu)件,以基準(zhǔn)構(gòu)件為中心尋找最佳的組合構(gòu)件,對(duì)組合構(gòu)件與標(biāo)準(zhǔn)模型庫(kù)的標(biāo)準(zhǔn)模型逐一匹配,尋找匹配度最高的構(gòu)件組合,識(shí)別最佳組合構(gòu)件組成的物體,并利用標(biāo)

  準(zhǔn)模型庫(kù)中的對(duì)應(yīng)標(biāo)準(zhǔn)模型進(jìn)行替換;最后,完成室內(nèi)場(chǎng)景的重建。該方法豐富了二維幾何特征的種類和表達(dá)方式,保證了場(chǎng)景物體構(gòu)件提取的準(zhǔn)確性和場(chǎng)景物體的形狀完整性,并提高了室內(nèi)場(chǎng)景重建的準(zhǔn)確性。

  重復(fù)性和對(duì)稱性是一種簡(jiǎn)單明確的先驗(yàn)條件,只需知道一個(gè)圖元就可以根據(jù)規(guī)律重建出所有表面,大大減少了三維結(jié)構(gòu)恢復(fù)的難度。但是,特定在一個(gè)三維模型上的圖元無(wú)法用于處理另一個(gè)三維模型。理想的約束條件應(yīng)盡可能廣義,以適應(yīng)更多的對(duì)象,但是也應(yīng)盡可能嚴(yán)格,使問(wèn)題收斂。

  3.2 基于三維構(gòu)造模型的方法

  現(xiàn)實(shí)中有許多物體是具有簡(jiǎn)單幾何構(gòu)型的,如立方體、圓柱體等,也有許多物體是具有特殊固定形狀的,如人臉是由眼睛、鼻子、嘴巴、耳朵和面部構(gòu)成的,汽車是由底盤、車輪、車殼構(gòu)成的。這些模型的三維結(jié)構(gòu)清楚明確,只需通過(guò)對(duì)基本幾何體拼接組合即可得到一個(gè)更大的復(fù)雜幾何體。因此,在三維恢復(fù)過(guò)程中,使用特定的三維構(gòu)造模型代替通用的光照反射模型可以大大提高重建精度。基于三維構(gòu)造模型的方法由待表示對(duì)象的參數(shù)模型組成,通過(guò)尋找最佳擬合時(shí)的輸入圖像和三維模型投影之間的參數(shù)來(lái)實(shí)現(xiàn)重建。

  最早 Pentland 針對(duì)自然界中的常見(jiàn)物體提出了超二次曲面模型,為基于三維構(gòu)造模型的方法奠定了基礎(chǔ)。隨后 Jia 提出了廣義柱體的概念,并對(duì)所有柱類外形進(jìn)行詳細(xì)分類描述。 Gupta 等提出了針對(duì)方形物體的建模規(guī)則,如圖 4 所示,

  將模型針對(duì)不同的應(yīng)用場(chǎng)景進(jìn)一步細(xì)化分類,提高了重建精度。Xiao 等隨后也提出了類似的建模規(guī)則。這些模型雖然都能對(duì)某種特定外形物體進(jìn)行描述,但各模型的局限性太大,導(dǎo)致其適用面較為狹窄。王映輝等提出一種實(shí)現(xiàn)三維網(wǎng)格細(xì)化的可調(diào)多邊形方法,該方法首先通過(guò)將三角形的中心點(diǎn)映射到切線平面來(lái)生成映射點(diǎn);然后將映射點(diǎn)按一定比例移動(dòng),逆時(shí)針連接, 得到切平面上的可調(diào)多邊形;最后形成可調(diào)三角形和四邊形來(lái)填充可調(diào)多邊形之間的間隙。該方法生成的細(xì)分曲面可以根據(jù)不同的運(yùn)動(dòng)系數(shù)靈活調(diào)整,相較于傳統(tǒng)超二次曲面模型具有較強(qiáng)的魯棒性和有效性。

  隨著 CAD 技術(shù)的不斷成熟,基于 CAD 模型的方法逐漸涌現(xiàn)。該類方法通過(guò)建立一組對(duì)應(yīng)點(diǎn)描述模型,可以有效地確定物體的近似視點(diǎn),從而粗略表示任意物體的近似外形。此外, 還有基于 CAD 模型的非參數(shù)化重建的方法,但是該方法僅限于對(duì)預(yù)先分割好的在線商品圖像進(jìn)行三維恢復(fù),其局限性較大,

  

基于三維模型解析圖的幾何重建.png

  圖 4 基于三維模型解析圖的幾何重建

  究其原因是因?yàn)闆](méi)有對(duì)模型的各個(gè)組成部分進(jìn)行有效分割和內(nèi)部特征表示。王映輝等提出一套多域物質(zhì)體數(shù)據(jù)內(nèi)部分界面提取方法和多域物質(zhì)體數(shù)據(jù)內(nèi)部結(jié)構(gòu)特征表達(dá)方法。該方法通過(guò)構(gòu)建有向骨架樹、提取骨架形狀特征和脊骨特征,借助樹形結(jié)構(gòu)拓?fù)溥M(jìn)行向量表示,實(shí)現(xiàn)了體數(shù)據(jù)分界面形狀特征的完整描述。實(shí)驗(yàn)結(jié)果表明,該方法不僅能夠準(zhǔn)確表達(dá)三維恢復(fù)模型, 同時(shí)還能清晰地分割和描述模型內(nèi)外的結(jié)構(gòu)關(guān)系,增強(qiáng)了模型細(xì)節(jié)的精確性。

  總體來(lái)看,基于幾何圖元展布規(guī)律的方法的先驗(yàn)知識(shí),在圖元或模型設(shè)計(jì)階段就已經(jīng)被設(shè)定好,可針對(duì)特定物體提供更多的先驗(yàn)信息,因此能取得較好的重建效果。雖然這類方法很難擴(kuò)展到其他物體上,但因其應(yīng)用面廣泛,成為繼 SfS 方法之后又一個(gè)重要的三維結(jié)構(gòu)恢復(fù)方法。

  4 基于深度學(xué)習(xí)的方法

  深度學(xué)習(xí) (Deep Learning) 源于對(duì)人工神經(jīng)網(wǎng)絡(luò) (ArtificialNeural Network,ANN) 進(jìn)一步發(fā)展。本質(zhì)上它是一種特征學(xué)習(xí)方法,負(fù)責(zé)把低層次的原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的、非線性的網(wǎng)絡(luò)模型轉(zhuǎn)化成為高層次的表達(dá) [82]。1986 年 Rumelhart 等提出反向傳播 (Back Propagation,BP) 算法,但由于該算法在梯度下降時(shí)會(huì)陷入局部極值,加之存在梯度消失、硬件算力不足等問(wèn)題,未被大規(guī)模應(yīng)用。直到 2006 年,Hinton 等

  提出一種新的深度神經(jīng)網(wǎng)絡(luò)模型,該模型利用預(yù)訓(xùn)練的方法緩解了局部極值問(wèn)題,降低了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度和對(duì)計(jì)算機(jī)算力的要求,才使該類方法得以重新應(yīng)用。2012 年, 在 ImageNet 圖像識(shí)別大賽中,Krizhevsky 等采用深度學(xué)習(xí)模型 AlexNet 一舉奪冠。從此,深度學(xué)習(xí)受到國(guó)內(nèi)外業(yè)界學(xué)者的廣泛關(guān)注和應(yīng)用。隨著一些新的網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練模型、訓(xùn)練數(shù)據(jù)集的出現(xiàn),深度學(xué)習(xí)在語(yǔ)音識(shí)別、自然語(yǔ)言處理、圖像識(shí)別和分割等多個(gè)領(lǐng)域都取得了顯著的效果。自 AlexNet 網(wǎng)絡(luò)發(fā)布以來(lái),深度學(xué)習(xí)在三維數(shù)據(jù)的分類、識(shí)別和重建上也取得了較大的進(jìn)展。目前,廣泛應(yīng)用的深度學(xué)習(xí)模型主要包括深度置信網(wǎng)絡(luò) (Deep Belief Network,DBN)、卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Networks,RNN)、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN) 等。

  相較于二維圖像領(lǐng)域,深度學(xué)習(xí)在三維重建上的研究起步較晚,但自 2012 年以來(lái)也取得了較大進(jìn)展。其中,基于語(yǔ)義標(biāo)簽的方法是三維恢復(fù)深度學(xué)習(xí)方法得以應(yīng)用的重要前提,也是實(shí)現(xiàn)通過(guò)數(shù)據(jù)集訓(xùn)練三維恢復(fù)深度網(wǎng)絡(luò)的重要基礎(chǔ)。場(chǎng)景的語(yǔ)義理解對(duì)于尺度和三維結(jié)構(gòu)的感知起重要作用。基于語(yǔ)義標(biāo)簽的三維恢復(fù)方法是指從帶有幾何信息提示 ( 如地平線、消失點(diǎn)、表面邊界等 ) 的單幅圖像中生成空間上合理的場(chǎng)景三維恢復(fù)。該方法通過(guò)了解像素或區(qū)域的語(yǔ)義類,可以很容易地實(shí)現(xiàn)

  深度和幾何約束( 如“天空”距離較遠(yuǎn),“地面”是水平的), 從而建立局部二維圖像和整體三維模型之間的映射關(guān)系。但是, 要唯一確定絕對(duì)深度,還需要諸如紋理、相對(duì)深度、相機(jī)參數(shù)等額外信息。特別的,該方法非常依賴語(yǔ)義類的初始定義,語(yǔ)義類訓(xùn)練集的精準(zhǔn)與否直接影響最終的重建效果。

  目前,國(guó)際上公開的數(shù)據(jù)集包括 PASCAL3D+、Object- Net3D[102] 和 IKEA 等。這些數(shù)據(jù)集對(duì)多個(gè)類別的物體語(yǔ)義和位姿信息進(jìn)行預(yù)先人工標(biāo)注。公開數(shù)據(jù)集為各大深度學(xué)習(xí)算法提供了一個(gè)相同的訓(xùn)練起點(diǎn)和參考標(biāo)準(zhǔn),但是這些數(shù)據(jù)集也有其自身的局限性:(1) 樣本數(shù)量不足,僅限于很少的對(duì)象類別和樣本;(2) 只能從有限的標(biāo)簽字典中選擇一個(gè)標(biāo)簽來(lái)標(biāo)注模型,即使語(yǔ)義不夠準(zhǔn)確,也不能創(chuàng)造發(fā)明新的標(biāo)簽;(3) 圖像和三維模型因?yàn)榕臄z視角、相機(jī)畸變等因素導(dǎo)致不能完全匹配;(4) 數(shù)據(jù)集之間對(duì)標(biāo)簽的尺度定義不統(tǒng)一,存在線段、平面、CAD 模型等多種尺度。以上問(wèn)題造成了深度學(xué)習(xí)方法在監(jiān)督程度上的差異,從而直接影響三維恢復(fù)質(zhì)量。根據(jù)實(shí)際應(yīng)用需要,深度學(xué)習(xí)方法通常分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。

  4.1 有監(jiān)督學(xué)習(xí)

  Wu 等建立 3D ShapeNets 網(wǎng)絡(luò),將三維幾何外形標(biāo)簽表示為三維體素上二值變量的概率分布,通過(guò)吉布斯采樣預(yù)測(cè)外形類型,實(shí)現(xiàn)填補(bǔ)未知空洞來(lái)完成重建。Kar 等提出立體學(xué)習(xí)機(jī)系統(tǒng),使用逆投影變換,將二維圖像特征投影到三維模型網(wǎng)格中,利用單視點(diǎn)語(yǔ)義線索進(jìn)行三維恢復(fù)。該系統(tǒng)在簡(jiǎn)化特征匹配過(guò)程的同時(shí)仍能保持較好的泛化性。Wu 等提出MarrNet 網(wǎng)絡(luò)模型,在端到端生成重建結(jié)果的網(wǎng)絡(luò)結(jié)構(gòu)中加入 2.5D 草圖,增強(qiáng)了重建效果,使網(wǎng)絡(luò)可以針對(duì)不同類別的物體進(jìn)行三維重建。Tulsiani 等利用射線一致性約束構(gòu)造了一個(gè)通用檢測(cè)器,通過(guò)學(xué)習(xí)單視點(diǎn)的三維結(jié)構(gòu)來(lái)訓(xùn)練多視點(diǎn)的幾何一致性,使得普通 CNN 網(wǎng)絡(luò)可以測(cè)量不同三維物體之間的外觀一致性。Kato 等提出一種近似梯度渲染網(wǎng)格渲染器,并將其集成到神經(jīng)網(wǎng)絡(luò)中,經(jīng)過(guò)渲染器處理,使得神經(jīng)網(wǎng)絡(luò)可以通過(guò)輸入單幅二維輪廓圖像來(lái)監(jiān)督三維結(jié)構(gòu)重建過(guò)程。

  特別的,對(duì)于一些具有固定形貌的三維物體,有監(jiān)督學(xué)習(xí)可以極大幫助深度網(wǎng)絡(luò)快速收斂,提高三維重聚的精確性。下面具體以人臉模型和人體模型為例進(jìn)行簡(jiǎn)單介紹。

  人臉具有明確的五官和高度的對(duì)稱性,且眼睛、眉毛、鼻子、嘴巴和耳朵等相對(duì)位置是固定的,深度學(xué)習(xí)網(wǎng)絡(luò)只需根據(jù)輸入的二維人臉圖像,進(jìn)行參數(shù)調(diào)整和模型變形,就能得到對(duì)應(yīng)的三維人臉模型。3D 主動(dòng)形變模型 (3D Morphable Models, 3DMM) 正是對(duì)應(yīng)該思路的一種三維參數(shù)化模型,該模型通過(guò)利用原型人臉的大數(shù)據(jù)集進(jìn)行人臉識(shí)別和圖像編碼,尋求構(gòu)建基于圖像的二維人臉線性表示。實(shí)現(xiàn)該模型的最直接思路就是在線性空間中嵌入所有三維面部,或從大量的三維激光掃描圖像公開數(shù)據(jù)集中學(xué)習(xí)面部的密度函數(shù)參數(shù)。借助 3DMM 人臉模型,Romdhani 提出了一種基于多特征的方法,該方法使用了非線性最小二乘優(yōu)化擬合,提高了恢復(fù)精度。Jourabloo 使用 CNN 回歸來(lái)估計(jì)和更新 3DMM 模型參數(shù)。雖然這些方法可以實(shí)現(xiàn)針對(duì)人臉的高精度模板生成和精確的單圖像人臉重建,但是非常依賴圖像與模板模型之間詳細(xì)準(zhǔn)確的逐點(diǎn)匹配和復(fù)雜的參數(shù)擬合過(guò)程,以及大量的人臉數(shù)據(jù)的支持。

  為了簡(jiǎn)化模型訓(xùn)練和參數(shù)擬合的復(fù)雜度,Castelan 等和Dovgard 等利用面部特征對(duì)稱性,將所有模型的表面形狀和亮度融合到一個(gè)單一的耦合統(tǒng)計(jì)模型中,簡(jiǎn)化了參數(shù)擬合的過(guò)程。這種方法可以生成更加精確的面部曲面輪廓,且當(dāng)新面孔和存儲(chǔ)的模板面孔之間形狀差異很小時(shí),可以將新面孔表示為存儲(chǔ)的三維面孔的線性組合。但是在差異較大的情況下,需要調(diào)整模板以適應(yīng)特定形狀 ( 如輸入的是笑臉時(shí),數(shù)據(jù)庫(kù)應(yīng)包括各種笑臉形狀)。同時(shí),該模型不能顯式地對(duì)表面亮度進(jìn)行建模, 當(dāng)圖像明暗發(fā)生變化時(shí)會(huì)匹配失敗,特別是針對(duì)膚色變化時(shí), 這種失效十分普遍。

  Kemelmacher 等提出并解決了一個(gè)用于正面圖像的非凸優(yōu)化問(wèn)題,該方法使用深度圖和反射率圖代替普通的光照?qǐng)D,并針對(duì)深度值和反射率值增加了對(duì)應(yīng)的損失函數(shù),提高深度學(xué)習(xí)網(wǎng)絡(luò)在不同亮度下的重建效果。Deng 等提出一種利用3DMM 模型的 R-Net、C-Net 的聯(lián)合網(wǎng)絡(luò)框架,如圖 5 所示。該網(wǎng)絡(luò)首先通過(guò)約束人臉表情、紋理、方位、光照等信息,利用魯棒的混合損失函數(shù)進(jìn)行弱監(jiān)督學(xué)習(xí),同時(shí)使用感知水平的信息作為置信度,結(jié)合圖像與模型的互補(bǔ)信息進(jìn)行形狀聚集, 最終實(shí)現(xiàn)人臉重建。Xu 等使用 3DMM 模型以及其他頭部區(qū)域的深度圖作為輸入,提出一種雙層網(wǎng)絡(luò)來(lái)重建頭部模型。該模型首先使用自重建方法在單個(gè)圖像上學(xué)習(xí)人臉形狀,然后使用立體圖像學(xué)習(xí)頭發(fā)和耳朵的幾何形狀,不僅提高了精度,而且保證了整體頭部幾何形狀的一致性。

  同理,人體也是一種具有固定特征的模型,人體三維恢復(fù)的任務(wù)是從單幅圖像中分析二維人體姿態(tài),估計(jì)一個(gè)簡(jiǎn)單的

  

基于 R-Net、C-Net 的三維人臉精確重建.png

  圖 5 基于 R-Net、C-Net 的三維人臉精確重建

  三維人體骨架,從而實(shí)現(xiàn)完整的三維姿態(tài)和三維人體模型的恢復(fù)。雖然這個(gè)問(wèn)題在多相機(jī)和多視圖幾何理論下得到了很好的解決,但是對(duì)于單幅圖像,不確定的成像條件和有限的數(shù)據(jù)集使得該任務(wù)變得非常復(fù)雜。傳統(tǒng)基于優(yōu)化的方法為單目姿態(tài)和形狀恢復(fù)提供了最可靠的解決方案。然而,由于運(yùn)行時(shí)間慢、對(duì)初始化條件的依賴,以及陷入局部極小值等問(wèn)題使得效果并不顯著。借助人體參數(shù)模型 (Skinned Multi-Person Linear, SMPL) 可直接從圖像中回歸姿勢(shì)和形狀,甚至特征點(diǎn)、骨架點(diǎn)、輪廓、語(yǔ)義分割或原始像素。以 Kolotouros 等的方法為例, 該方法首先使用 SMPL 作為人體模型的模板引入網(wǎng)格;然后引入 GraphCNN 直接處理輸入的單幅圖像并提取特征點(diǎn),隨后直接附著在 SMPL 模型的頂點(diǎn)坐標(biāo)圖結(jié)構(gòu)中以便繼續(xù)處理; 最后每個(gè)頂點(diǎn)都將其在 SMPL 模型變形網(wǎng)格中的三維位置作為最終的輸出結(jié)果。該方法能直接恢復(fù)出人體的完整三維幾何模型,而無(wú)需顯式地求解預(yù)先指定的參數(shù)化空間。同時(shí),在得到每個(gè)頂點(diǎn)的三維坐標(biāo)后,如果需要適配并預(yù)測(cè)符合特定的模型,只需要從當(dāng)前模型中反向回歸其參數(shù)即可。Jiang 等提出一種基于 SMPL 參數(shù)模型和距離場(chǎng)的深度學(xué)習(xí)網(wǎng)絡(luò),能夠同時(shí)利用兩種損失函數(shù)參與網(wǎng)絡(luò)訓(xùn)練,生成更加準(zhǔn)確的人體姿態(tài)模型。Zhu 等提出一種結(jié)合參數(shù)模型與自由形變的深度學(xué)習(xí)網(wǎng)絡(luò), 該網(wǎng)絡(luò)利用身體關(guān)節(jié)、輪廓和每個(gè)像素著色信息的約束信息進(jìn)行分層網(wǎng)格變形優(yōu)化,不僅能恢復(fù)出完整人體模型,而且能實(shí)現(xiàn)精準(zhǔn)的紋理貼圖匹配。

  4.2 半監(jiān)督學(xué)習(xí)

  不同于直接使用三維模型數(shù)據(jù)集或三維參數(shù)模型數(shù)據(jù)集訓(xùn)練深度網(wǎng)絡(luò)求解絕對(duì)深度信息的有監(jiān)督學(xué)習(xí)方法,半監(jiān)督學(xué)習(xí)方法使用三維空間上的特征 ( 如特征點(diǎn)、特征線段、特征面 ) 作為語(yǔ)義標(biāo)簽,建立標(biāo)簽和深度信息的關(guān)聯(lián)性,從而實(shí)現(xiàn)三維模型恢復(fù)。

  Delage 等利用室內(nèi)場(chǎng)景中的幾何線索 ( 如天花板和墻壁的接縫 ),使用 MRF 重建墻壁、天花板和地板的相對(duì)位置。Hedau 等利用相似的幾何線索恢復(fù)了雜亂房間的空間布局。這兩種方法對(duì)于簡(jiǎn)單的室內(nèi)場(chǎng)景效果明顯,但是對(duì)房間結(jié)構(gòu)和房間布局有嚴(yán)格的要求,應(yīng)用十分有限。Gould 等提出的場(chǎng)景分解模型證明了戶外場(chǎng)景中幾何信息和語(yǔ)義之間的強(qiáng)相關(guān)性。Hoiem 等提出了一套語(yǔ)義松散的幾何集,定義諸如建筑物是垂直的,道路、草和水是水平的等概念,并構(gòu)建了一種簡(jiǎn)單的三維恢復(fù)模型與之匹配,該模型可以通過(guò)“彈出”垂直區(qū)域來(lái)恢復(fù)結(jié)構(gòu)。Russell 等采用一種更具語(yǔ)義動(dòng)機(jī)的方法——利用詳細(xì)的人工標(biāo)定數(shù)據(jù)集,來(lái)分割和推斷區(qū)域和區(qū)域邊緣的幾何類別 ( 如天空總是在盡可能遠(yuǎn)的深度,草地和道路形成支撐其他對(duì)象的地平面等 ),并且通過(guò)建立相對(duì)于地平面的支撐和附著關(guān)系來(lái)完成深度推斷。

  除了單純地使用數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)之外,與傳統(tǒng)算法相結(jié)合的方法也可以幫助網(wǎng)絡(luò)更快地收斂。Haines 等利用深度學(xué)習(xí)預(yù)測(cè)預(yù)分割區(qū)域的連續(xù)三維方向,并將區(qū)域平面檢測(cè)作為MRF 模型的優(yōu)化問(wèn)題。Fouhey 等首先檢測(cè)凸 / 凹邊、遮擋邊界、超像素及其方向,然后將分組問(wèn)題表述為二元二次規(guī)劃問(wèn)題。Heitz 等將目標(biāo)檢測(cè)、多類圖像標(biāo)記和深度感知相結(jié)合。Liu 等基于 Hetiz 的方法,將 MRF 和機(jī)器學(xué)習(xí)相結(jié)合。該方

  

室外場(chǎng)景語(yǔ)義分類集.png

  圖 6 室外場(chǎng)景語(yǔ)義分類集

  法首先使用一個(gè)學(xué)習(xí)好的多類圖像標(biāo)簽集來(lái)推斷圖像中每個(gè)像素的語(yǔ)義類,該標(biāo)簽集設(shè)置為:天空、樹、路、草、水、建筑、山和前景對(duì)象 ( 前 7 類覆蓋了室外場(chǎng)景中的大部分背景區(qū)域, 而最后一類負(fù)責(zé)標(biāo)記一組前景對(duì)象 )。然后使用基于像素和超像素的機(jī)器學(xué)習(xí)網(wǎng)絡(luò),結(jié)合全局深度優(yōu)先、全局結(jié)構(gòu)特征等規(guī)則約束,實(shí)現(xiàn)了較好的重建結(jié)果,如圖 6 所示。Yang 等將復(fù)雜的分割問(wèn)題轉(zhuǎn)化為深度預(yù)測(cè)問(wèn)題,不再顯示區(qū)分各個(gè)標(biāo)簽, 并提出了一種不需要區(qū)分真實(shí)地面的深度學(xué)習(xí)網(wǎng)絡(luò)。然而,該方法受網(wǎng)絡(luò)架構(gòu)的影響,限制了預(yù)測(cè)平面的總數(shù)量,導(dǎo)致其在復(fù)雜場(chǎng)景中的性能下降。Liu 等在 Yang 的方法基礎(chǔ)上,提出基于 Mask R-CNN 的實(shí)例分割框架,解決了這個(gè)問(wèn)題。

  4.3 無(wú)監(jiān)督學(xué)習(xí)

  雖然基于有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的方法效果顯著,但構(gòu)建大規(guī)模全覆蓋的監(jiān)督訓(xùn)練數(shù)據(jù)集十分困難,而且重建結(jié)果特別依賴數(shù)據(jù)集的標(biāo)簽質(zhì)量。本質(zhì)上講,語(yǔ)義標(biāo)簽還是某種特定的人工圖像特征,實(shí)際過(guò)程離不開求解從圖像特征到深度的映射。盡管網(wǎng)絡(luò)可以隱式推理出上下文語(yǔ)義,但是重建結(jié)果的優(yōu)劣嚴(yán)重依賴語(yǔ)義集的設(shè)定,導(dǎo)致網(wǎng)絡(luò)的泛化性不足,使用場(chǎng)景有限。隨著研究的不斷深入,一些無(wú)監(jiān)督學(xué)習(xí)的方法逐漸被提出。

  Rezende 等首次提出一種無(wú)監(jiān)督學(xué)習(xí)的三維重建網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)實(shí)現(xiàn)了無(wú)需三維模型形貌標(biāo)簽,就可以直接通過(guò)二

  維圖像進(jìn)行端到端的無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練。雖然只適用于立方體和圓柱體等簡(jiǎn)單形狀,但其證明了無(wú)監(jiān)督學(xué)習(xí)三維表征的可能。Choy 等提出一種基于標(biāo)準(zhǔn)長(zhǎng)短期記憶網(wǎng)絡(luò) (Long Short Term Memory,LSTM) 的擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)——三維循環(huán)重建神經(jīng) 網(wǎng) 絡(luò) (3D Recurrent Reconstruction Neural Network, 3D-R2N2),并建立了大型 CAD 模型數(shù)據(jù)集 ModelNet。該網(wǎng)絡(luò)無(wú)需利用圖像分類標(biāo)簽進(jìn)行訓(xùn)練,就能很好地適應(yīng)缺乏紋理特征和寬基線特征的問(wèn)題。雖然該網(wǎng)絡(luò)在重建細(xì)節(jié)方面存在缺失,但由于實(shí)現(xiàn)了在單個(gè)架構(gòu)中同時(shí)支持單視圖和多視圖重建,且實(shí)驗(yàn)結(jié)果均優(yōu)于傳統(tǒng)方法,使其具有十分重要的意義。Girdhar 等提出的 TL-Embedding Network 網(wǎng)絡(luò)首先在訓(xùn)練自編碼器時(shí)利用像素網(wǎng)格學(xué)習(xí)三維模型嵌入,然后通過(guò)ConvNets 輸入二維圖像找到對(duì)應(yīng)的模型嵌入,最后經(jīng)過(guò)解碼器得到體素表示的三維重建模型。Yan 等提出的透視變換網(wǎng)絡(luò)(Perspective Tansformer Nets) 在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中加入透視變換,同時(shí)將在不同特定視角下的二維物體輪廓和對(duì)應(yīng)體素輪廓的距離作為新的損失函數(shù),因此在無(wú)監(jiān)督學(xué)習(xí)下取得了較好的泛化能力。Li 等提出一種通過(guò)二維圖像和輪廓的集合來(lái)預(yù)測(cè)目標(biāo)對(duì)象的三維網(wǎng)格形狀和紋理的深度學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)將建模對(duì)象表示為可變形構(gòu)件圖像的集合,通過(guò)對(duì)大量可變性構(gòu)件圖像的分割,有效地加強(qiáng)了重建網(wǎng)格和原始圖像之間的語(yǔ)義一致性。由于該網(wǎng)絡(luò)不需要三維監(jiān)督、手動(dòng)注釋關(guān)鍵點(diǎn)、對(duì)象的多視圖圖像或 3D 參數(shù)化模板,因此很容易推廣到?jīng)]有此類標(biāo)簽的各種對(duì)象類別。

  為了更好地利用二維圖像和三維模型之間的著色信息,同時(shí)減少二維圖像和三維模型之間匹配誤差導(dǎo)致的“塊狀重疊” 問(wèn)題,Chang 和 Hao 都提出直接從帶有紋理的合成 CAD 模型出發(fā),使用合成圖像訓(xùn)練深度模型以估計(jì)相機(jī)位姿和重建三維形狀。紋理 CAD 模型能夠表示任意方向和尺寸的曲面,并且借助紋理著色能夠捕捉到更加精細(xì)的細(xì)節(jié)。其關(guān)鍵在于深度學(xué)習(xí)網(wǎng)絡(luò)首先要訓(xùn)練無(wú)標(biāo)簽的二維圖片集,然后訓(xùn)練與之對(duì)應(yīng)的無(wú)標(biāo)簽的三維模型集,最后通過(guò)一定的懲罰函數(shù)將二者聯(lián)立,并在輸入一幅新圖像時(shí)匹配判斷。這類方法有兩個(gè)優(yōu)勢(shì):

  (1) 避免了人工定義模型和人工標(biāo)注可能帶來(lái)的錯(cuò)誤,同時(shí)紋理 CAD 模型之間可以任意組合,生成幾乎無(wú)限量的具有精確真實(shí)姿態(tài)和三維模型的渲染訓(xùn)練圖像;(2) 深度學(xué)習(xí)網(wǎng)絡(luò)可以應(yīng)對(duì)大量的外觀變化,對(duì)復(fù)雜建模的效果尤為明顯。雖然紋理CAD 模型在合成圖像 ( 即人工構(gòu)造的紋理圖像,或人工構(gòu)造的紋理模型對(duì)應(yīng)映射的二維圖像 ) 上有明顯的效果,但在應(yīng)用于自然圖像 ( 即非合成圖像 ) 時(shí),性能有明顯下降。為了克服這個(gè)問(wèn)題,個(gè)別學(xué)者嘗試在訓(xùn)練集中添加少量人工標(biāo)記的自然圖像來(lái)微調(diào)網(wǎng)絡(luò)參數(shù),但是人工標(biāo)簽又會(huì)引入由于標(biāo)注錯(cuò)誤帶來(lái)的誤差。

  此外,一些學(xué)者嘗試?yán)?GAN 網(wǎng)絡(luò)進(jìn)行三維恢復(fù)。其中,具有代表性的是 Wu 等提出的 3D-VAE-GAN 網(wǎng)絡(luò)。該網(wǎng)絡(luò)首先通過(guò)變分自編碼網(wǎng)絡(luò)得到輸入二維圖像的潛在向量,然后通過(guò) GAN 網(wǎng)絡(luò)的生成器得到重建物體。其優(yōu)點(diǎn)是可以從概率表征空間中采樣新的三維對(duì)象,并且判別器帶有三維物體識(shí)別的信息特征。實(shí)驗(yàn)表明,與 TL-Embedding Network 的重建精度相比,3D-VAE-GAN 網(wǎng)絡(luò)取得了更好的效果。

  綜上所述,相較于傳統(tǒng)方法,深度學(xué)習(xí)具有無(wú)需人工描述規(guī)則和設(shè)定參數(shù)、數(shù)據(jù)處理量大等諸多優(yōu)勢(shì),并取得了明顯成果。但深度學(xué)習(xí)也存在以下問(wèn)題:(1) 公共數(shù)據(jù)集較少。與目前千萬(wàn)級(jí)的二維圖像數(shù)據(jù)集相比,三維模型公共數(shù)據(jù)集規(guī)模小、種類少,早期具有代表性的公開數(shù)據(jù)集如 PASCAL3D+[101] 和 ObjectNet3D 已無(wú)法滿足實(shí)際需要。(2) 重建分辨率及精度問(wèn)題。網(wǎng)絡(luò)支持的重建物體分辨率通常是 32×32×32,且重建結(jié)果與真實(shí)模型對(duì)比,精度未達(dá)到 95% 以上,存在細(xì)節(jié)部分缺失嚴(yán)重的問(wèn)題。但是三維相比于二維多了一個(gè)維度,若盲目增加分辨率會(huì)導(dǎo)致數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),極大降低計(jì)算效率。(3) 單幅圖像重建的不確定問(wèn)題。與傳統(tǒng)方法一樣,基于深度學(xué)習(xí)的方法在利用單幅圖像進(jìn)行三維恢復(fù)時(shí),一幅圖像往往對(duì)應(yīng)多個(gè)不同的三維模型。這種不確定性反映在訓(xùn)練集中就是兩幅看起來(lái)相似的圖像可能導(dǎo)致完全不同的重建結(jié)果。目前, 只能通過(guò)盡可能準(zhǔn)確的定義損失函數(shù)和外加約束條件來(lái)限制其結(jié)果的不確定性。

  5 總結(jié)與展望

  基于可見(jiàn)光單圖像的三維結(jié)構(gòu)恢復(fù)本身是一個(gè)不確定性問(wèn)題。自 20 世紀(jì) 90 年代以來(lái),國(guó)內(nèi)外許多學(xué)者提出了各種方法,

  如表 1 所示?;诠庹漳P偷姆椒ㄍㄟ^(guò)圖像的紋理和明暗關(guān)系, 假設(shè)和建立物體表面的微觀結(jié)構(gòu)模型,構(gòu)建二維圖像和三維深度之間的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)三維結(jié)構(gòu)恢復(fù)。該方法在已知材質(zhì)反射率 ( 即消除了材質(zhì)差異因素 ) 的前提下,試圖從幾何結(jié)構(gòu)差異作為切入點(diǎn)進(jìn)行求解,但該方法極易受到實(shí)際環(huán)境的光線情況、相機(jī)視點(diǎn)和光照模型類型的影響,且計(jì)算量較大?;趲缀螆D元展布規(guī)律的方法利用二維圖像或三維模型存在的幾何規(guī)律代替光照模型,通過(guò)平移、旋轉(zhuǎn)、縮放、重復(fù)等操作實(shí)現(xiàn)三維恢復(fù),從而回避了求解物體表面幾何結(jié)構(gòu)差異帶來(lái)的誤差問(wèn)題,對(duì)于人造紋理和模型有明顯的優(yōu)勢(shì),但正是這種先驗(yàn)規(guī)律限制了該方法在其他不規(guī)則物體上的應(yīng)用,導(dǎo)致其適用面較窄。基于深度學(xué)習(xí)的方法利用深度網(wǎng)絡(luò)避免了傳統(tǒng)方法中人工定義關(guān)系和人工設(shè)定參數(shù)的局限性,配合有監(jiān)督、半監(jiān)督或無(wú)監(jiān)督的方法,實(shí)現(xiàn)了利用特征點(diǎn)、特征線段、特征面、特征模型等多維度的空間信息,根據(jù)輸入圖像直接得到對(duì)應(yīng)三維深度點(diǎn)的求解過(guò)程。并且基于幾何圖元展布規(guī)律的方法依賴海量數(shù)據(jù)的支撐,有效減小了圖像采集過(guò)程中可能帶來(lái)的誤差。但其缺點(diǎn)也顯而易見(jiàn):非常依賴網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)和訓(xùn)練數(shù)據(jù)集的質(zhì)量。雖然基于深度學(xué)習(xí)的方法比傳統(tǒng)方法有了明顯進(jìn)步,但是完全依賴深度學(xué)習(xí)方法的效果仍不盡如人意。對(duì)于病態(tài)性問(wèn)題,只有將單幅圖像擴(kuò)展到多幅圖像,利用多視圖幾何理論才能盡可能地減小誤差。其中,SfM 和 SLAM 是多視圖幾何理論的兩種代表性方法,由于已經(jīng)超出了單幅圖像的討論范圍,敬請(qǐng)讀者自行查閱相關(guān)資料。

  從影響因素的角度來(lái)看,物體自身的材質(zhì)差異和幾何結(jié)構(gòu)差異是決定三維恢復(fù)結(jié)果優(yōu)劣的根本原因,而圖像信息采集損失帶來(lái)的不確定性是其外部原因。從現(xiàn)有方法來(lái)看,無(wú)法通過(guò)數(shù)學(xué)計(jì)算來(lái)精準(zhǔn)求解三維結(jié)構(gòu),只能通過(guò)構(gòu)造合理的光照模型

  

基于可見(jiàn)光單圖像三維結(jié)構(gòu)恢復(fù)方法對(duì)比.png

  表 1 基于可見(jiàn)光單圖像三維結(jié)構(gòu)恢復(fù)方法對(duì)比

  或?qū)ふ乙?guī)則的幾何圖元紋理來(lái)近似描述物體表面的微觀結(jié)構(gòu), 在誤差允許的范圍內(nèi)縮小或忽略差異,亦或通過(guò)深度學(xué)習(xí)的方式,在網(wǎng)絡(luò)訓(xùn)練的時(shí)候,通過(guò)增加大量高精度、高分辨率圖像, 以減少信息損失和不確定性,從而逼近真實(shí)物體的表面形貌。此外,采用多方法的融合統(tǒng)一框架將是解決上述問(wèn)題的一種新的趨勢(shì)。2020 年,Henderson 等提出一種傳統(tǒng)方法和深度學(xué)習(xí)相結(jié)合的新型網(wǎng)絡(luò)框架。該框架解決了從單幅圖像中進(jìn)行三維恢復(fù),以及生成新的三維形狀樣本的問(wèn)題??蚣芩惴ㄖ胁粌H結(jié)合了傳統(tǒng)的光照模型、先驗(yàn)?zāi)P偷姆椒?,而且同時(shí)支持無(wú)標(biāo)注數(shù)據(jù)集的學(xué)習(xí)和帶有語(yǔ)義標(biāo)簽的有監(jiān)督學(xué)習(xí)。結(jié)果表明,該算法能適應(yīng)單色光以及白光環(huán)境,可以自動(dòng)調(diào)整陰影和輪廓在網(wǎng)絡(luò)中的權(quán)重,生成的模型具有更精細(xì)的表面細(xì)節(jié)和較強(qiáng)的魯棒性。這種集成優(yōu)勢(shì)是前文所述任何單一算法所無(wú)法實(shí)現(xiàn)的。綜上所述,基于可見(jiàn)光單圖像三維結(jié)構(gòu)恢復(fù)問(wèn)題未來(lái)可以從以下幾方面發(fā)展和突破:

  (1) 傳統(tǒng)方法與基于深度學(xué)習(xí)方法相結(jié)合 現(xiàn)有基于深度

  學(xué)習(xí)方法相較于傳統(tǒng)方法已經(jīng)取得了明顯的效果,但是深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練非常依賴數(shù)據(jù)集 ( 數(shù)據(jù)集的好壞直接影響網(wǎng)絡(luò)效果 )。而基于可見(jiàn)光單圖像三維結(jié)構(gòu)恢復(fù)問(wèn)題缺少相應(yīng)的海量標(biāo)準(zhǔn)數(shù)據(jù)集,使得網(wǎng)絡(luò)缺少泛化能力。傳統(tǒng)方法雖然計(jì)算復(fù)雜度高,但由于其通用性強(qiáng),目前仍然發(fā)揮不可缺少的作用。二者相結(jié)合,可以最大發(fā)揮其方法的優(yōu)勢(shì),達(dá)到更好的重建效果。

  (2) 基于 GAN 網(wǎng)絡(luò)或組合 GAN 網(wǎng)絡(luò)實(shí)現(xiàn)三維重建 盡管GAN 網(wǎng)絡(luò)本身的特性導(dǎo)致在訓(xùn)練過(guò)程中引入噪聲,使得訓(xùn)練結(jié)果不穩(wěn)定,但是這種方法對(duì)于缺乏大型標(biāo)準(zhǔn)數(shù)據(jù)集的情況仍然顯示出良好的潛力。此外,將 GAN 網(wǎng)絡(luò)視作形狀或輪廓先驗(yàn)知識(shí)模型的一部分,可以很好地幫助網(wǎng)絡(luò)快速收斂,使其滿足特定問(wèn)題場(chǎng)景的需要。

  (3) 建立真實(shí)場(chǎng)景的大型標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)集 多數(shù)研究者選用純白背景或 CAD 模型渲染出的人工合成數(shù)據(jù)集進(jìn)行訓(xùn)練。這些數(shù)據(jù)集環(huán)境復(fù)雜,標(biāo)準(zhǔn)不一,與真實(shí)場(chǎng)景差異較大,且每個(gè)物體的外形復(fù)雜程度差異很大,不利于網(wǎng)絡(luò)的訓(xùn)練和最終實(shí)驗(yàn)數(shù)據(jù)的對(duì)比,致使其網(wǎng)絡(luò)在真實(shí)環(huán)境中效果較弱。當(dāng)下迫切需要參照二維圖像領(lǐng)域構(gòu)建一些大型的標(biāo)準(zhǔn)數(shù)據(jù)集供大家測(cè)試和對(duì)比使用。

  總體而言,每種基于可見(jiàn)光單圖像三維結(jié)構(gòu)恢復(fù)方法在各自特定問(wèn)題領(lǐng)域都取得了明顯的成果,但是每種方法的普適性較弱,對(duì)問(wèn)題的初始條件要求嚴(yán)格。單純依靠某一種方法來(lái)解決恢復(fù)問(wèn)題已經(jīng)變得越發(fā)困難,未來(lái)基于多種方法以適用于更加廣泛的通用場(chǎng)景的融合解決方案,特別是結(jié)合深度學(xué)習(xí)的途徑,是一個(gè)亟待研究的重點(diǎn)方向。

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運(yùn)動(dòng)控制

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

直驅(qū)與傳動(dòng)

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

中國(guó)傳動(dòng)網(wǎng)

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

2022年第2期

2022年第2期

圖片閱讀

掃碼關(guān)注小程序

時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)

雜志訂閱

填寫郵件地址,訂閱更多資訊:

撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺(jué)
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運(yùn)動(dòng)控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運(yùn)動(dòng)控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運(yùn)動(dòng)控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運(yùn)動(dòng)控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運(yùn)動(dòng)控制

    2023年第2期