室內(nèi)場(chǎng)景生成算法綜述

文:楊 淼 陳寶權(quán) 2022年第3期

    室內(nèi)場(chǎng)景生成任務(wù)是近年來熱門的研究課題。它不僅能為計(jì)算機(jī)視覺任務(wù)提供天然帶有標(biāo)注的室內(nèi)場(chǎng)景數(shù)據(jù)集,幫助其更好地理解場(chǎng)景,還能應(yīng)用到諸多現(xiàn)實(shí)場(chǎng)景中,如機(jī)器人導(dǎo)航等。室內(nèi)場(chǎng)景布局的多樣性使得場(chǎng)景生成成為一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。該文梳理了近年來在室內(nèi)場(chǎng)景生成算法領(lǐng)域中的研究進(jìn)展,從場(chǎng)景輸入、場(chǎng)景上下文關(guān)系、場(chǎng)景表達(dá)方式、場(chǎng)景生成方式以及家具擺放順序?qū)ι伤惴ㄟM(jìn)行總結(jié)分類,并以無樣例的基于物體關(guān)系的生成方式、無樣例的基于人類活動(dòng)的生成方式以及基于樣例和物體關(guān)系的生成方式  3 個(gè)分支對(duì)室內(nèi)場(chǎng)景生成算法的發(fā)展以及優(yōu)缺點(diǎn)進(jìn)行分析。此外,該文還總結(jié)了現(xiàn)有算法的不足,并指出了室內(nèi)場(chǎng)景生成算法未來可以嘗試的方向。

  

  1 引言

  近年來,虛擬室內(nèi)場(chǎng)景被廣泛應(yīng)用于虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、開放式游戲以及機(jī)器人領(lǐng)域,然而,室內(nèi)場(chǎng)景的設(shè)計(jì)需要耗費(fèi)大量時(shí)間且室內(nèi)場(chǎng)景建模也需要復(fù)雜的場(chǎng)景設(shè)計(jì)工具。因此, 自動(dòng)化室內(nèi)場(chǎng)景生成任務(wù)成為了研究人員關(guān)注的熱點(diǎn),并得到了快速發(fā)展。

  室內(nèi)場(chǎng)景生成任務(wù),其目的就是將家具擺放在具有固定大小、結(jié)構(gòu)的三維空間中,并滿足現(xiàn)實(shí)室內(nèi)場(chǎng)景中的功能約束及物理約束。其中,家具在三維空間中的屬性信息可由位置、朝向、類別來描述。室內(nèi)場(chǎng)景生成的本質(zhì)是確定擺放的家具類別以及家具排列在三維空間中的方式。與室內(nèi)場(chǎng)景生成任務(wù)類似, 三維模型生成過程是確定模型部件的排列方式,戶型圖生成則是將房間進(jìn)行排列,所以戶型圖、三維模型以及室內(nèi)場(chǎng)景生成任務(wù)的解決方案可以互相借鑒或組合使用。三維模型由于其固定的功能特性,使得模型部件之間具有相對(duì)固定的布局規(guī)律, 不具有太多的變化。與三維模型生成相比,室內(nèi)場(chǎng)景生成有以下 3 個(gè)難點(diǎn):

  (1) 室內(nèi)場(chǎng)景中家具的擺放方式有很大的自由度,同樣的家具可能有多種合理的布局,所以家具之間的關(guān)系相對(duì)更加復(fù)雜。

  (2) 三維模型有固定的計(jì)算機(jī)可以理解的表達(dá)方式,如點(diǎn)云、體素、網(wǎng)格等。如何將室內(nèi)場(chǎng)景抽象為計(jì)算機(jī)可以理解的場(chǎng)景表達(dá)方式是一項(xiàng)挑戰(zhàn)。

  (3) 室內(nèi)場(chǎng)景生成還需要考慮更多特殊的約束,如過道連通性、視野開闊性等。主流的室內(nèi)場(chǎng)景生成算法,使用物體之間的上下文關(guān)系對(duì)場(chǎng)景布局進(jìn)行結(jié)構(gòu)化,少量基于人類活動(dòng)與物體上下文關(guān)系來表達(dá)場(chǎng)景布局的室內(nèi)場(chǎng)景生成算法組成了新的分支。無參考信息的室內(nèi)場(chǎng)景生成任務(wù)是非常具有挑戰(zhàn)性的,

  

場(chǎng)景生成算法框架.png

  圖 1 場(chǎng)景生成算法框架

  由此,出現(xiàn)了一系列基于樣例的場(chǎng)景生成算法。本文從上述 3 個(gè)難點(diǎn)出發(fā),將場(chǎng)景生成任務(wù)按照無樣例的基于物體關(guān)系的生成方式、無樣例的基于人類活動(dòng)的生成方式以及基于樣例和物體關(guān)系的生成方式 3 個(gè)分支,對(duì)場(chǎng)景生成算法進(jìn)行描述和分析。

  圖 1 展示了整個(gè)場(chǎng)景生成過程中所涉及的算法框架,其中,室內(nèi)場(chǎng)景效果圖來自 3D-FRONT 數(shù)據(jù)集。

  2 室內(nèi)場(chǎng)景數(shù)據(jù)集

  基于室內(nèi)場(chǎng)景圖像的圖像檢測(cè)、圖像分割、本征分解等計(jì)算機(jī)視覺相關(guān)的任務(wù)已經(jīng)得到了深入研究,這些研究致力于使計(jì)算機(jī)能夠像人類一樣更好地理解室內(nèi)場(chǎng)景。然而,在視覺領(lǐng)域中對(duì)應(yīng)不同任務(wù)的標(biāo)注數(shù)據(jù)是非常難獲得的,因此,該領(lǐng)域迫切需要天然帶有標(biāo)注的室內(nèi)場(chǎng)景數(shù)據(jù)集來模擬真實(shí)室內(nèi)場(chǎng)景,從而減輕標(biāo)注數(shù)據(jù)的負(fù)擔(dān)。

  最早出現(xiàn)的室內(nèi)場(chǎng)景數(shù)據(jù)集是由 Handa 等提出的SceneNet 數(shù)據(jù)集,該數(shù)據(jù)集僅提供少量帶有三維模型的室內(nèi)場(chǎng)景。Song 等提出了被廣泛使用的大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集 SUNCG,然而,該室內(nèi)場(chǎng)景是由業(yè)余設(shè)計(jì)師設(shè)計(jì)的,所以與真實(shí)場(chǎng)景存在一定的差距。與三維模型組合而來的合成室內(nèi)場(chǎng)景數(shù)據(jù)集不同,Dai 等提出了一個(gè)基于真實(shí)場(chǎng)景掃描且包含豐富注釋的 RGB-D 掃描圖像數(shù)據(jù)集 ScanNet。Li 等提出的 InteriorNet 數(shù)據(jù)集使用了更多高質(zhì)量的計(jì)算機(jī)輔助設(shè)計(jì)(Computer Aided Design,CAD) 模型,并請(qǐng)專業(yè)設(shè)計(jì)師據(jù)此設(shè)計(jì)了近 2 000 萬個(gè)室內(nèi)場(chǎng)景,同時(shí)渲染出了更接近照片效果的室內(nèi)場(chǎng)景圖像,只是其并不公開對(duì)應(yīng)的三維模型,僅提供圖像供研究使用。不同于前述的數(shù)據(jù)集 ( 都不包含對(duì)室內(nèi)場(chǎng)景結(jié)構(gòu)的真實(shí)標(biāo)注 ),Mo 等提出的 StructureNet 數(shù)據(jù)集提供了由專業(yè)設(shè)計(jì)師設(shè)計(jì)的帶有場(chǎng)景結(jié)構(gòu)信息標(biāo)注的室內(nèi)場(chǎng)景,可以為諸如房間結(jié)構(gòu)預(yù)測(cè)等任務(wù)提供更可靠的標(biāo)注數(shù)據(jù)。之后, Fu 等提供了 3D-FRONT 室內(nèi)場(chǎng)景數(shù)據(jù)集,該數(shù)據(jù)集是由家裝領(lǐng)域用戶使用的真實(shí)室內(nèi)場(chǎng)景數(shù)據(jù)構(gòu)成的,其中有將近一半的房間場(chǎng)景被設(shè)計(jì)師認(rèn)作具有一定設(shè)計(jì)理念的高質(zhì)量場(chǎng)景。由Roberts 等提出的 Hypersim 數(shù)據(jù)集在提供三維模型的同時(shí), 也提供了帶有實(shí)例和語(yǔ)義分割標(biāo)注的渲染圖像,以及圖像解耦之后的表示圖像,是目前標(biāo)注信息最完善的室內(nèi)場(chǎng)景數(shù)據(jù)集。

  3 室內(nèi)場(chǎng)景生成算法的分類

  室內(nèi)場(chǎng)景生成算法發(fā)展至今已有許多出色的研究成果。本文從已有算法中,抽象出了 5 個(gè)分類標(biāo)準(zhǔn),并從不同角度對(duì)現(xiàn)有的算法進(jìn)行歸納總結(jié),分析比較現(xiàn)有算法的優(yōu)劣,用于幫助讀者更好地理解室內(nèi)場(chǎng)景生成算法的發(fā)展現(xiàn)狀,具體如表 1 室內(nèi)場(chǎng)景生成算法分類所示。

  3.1 基于場(chǎng)景輸入的分類

  根據(jù)場(chǎng)景輸入是否存在參考樣例,可以將室內(nèi)場(chǎng)景生成算法分為無樣例的場(chǎng)景生成算法和基于樣例的場(chǎng)景生成算法。無樣例的場(chǎng)景生成算法往往是從大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集中總結(jié)規(guī)則、抽象能量函數(shù),或者將布局規(guī)律融入概率統(tǒng)計(jì)、深度學(xué)習(xí)先驗(yàn),進(jìn)而從無到有地生成合理的室內(nèi)場(chǎng)景?;跇永膱?chǎng)景生成算法有文本、草圖、圖像、三維信息等輸入形式,要求場(chǎng)景的生成結(jié)果與輸入一定程度上匹配,屬于有條件的場(chǎng)景生成任務(wù)。

  在場(chǎng)景生成的實(shí)際應(yīng)用中,往往需要加入用戶的喜好,所以基于樣例的生成算法能夠更好地與人交互,更具有應(yīng)用前景。但是,在需要大量多樣的虛擬室內(nèi)場(chǎng)景時(shí),無樣例的場(chǎng)景生成算法更具優(yōu)勢(shì)。

  3.2 基于場(chǎng)景上下文關(guān)系的分類

  根據(jù)場(chǎng)景上下文信息建模的方式不同,可將室內(nèi)場(chǎng)景生成算法分為基于物體與物體之間的關(guān)系和基于人類與物體之間的關(guān)系。大多數(shù)室內(nèi)場(chǎng)景生成算法考慮的都是物體與物體之間的關(guān)系,這種關(guān)系可用來確定家具擺放的空間位置關(guān)系和判斷家具類別的共現(xiàn)關(guān)系,還有少部分采用隱式的方式學(xué)習(xí)場(chǎng)景布局的上下文信息,如采用神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制或利用 CNN、DNN 網(wǎng)絡(luò)參數(shù)自動(dòng)學(xué)習(xí)。考慮到物體的擺放與人類的活動(dòng)息息相關(guān),近年來出現(xiàn)了基于人類與物體之間的關(guān)系進(jìn)行建模的算法,其主要包含人體姿態(tài) - 物體、人體動(dòng)作 - 物體以及人體部位 - 物體 3 種形式。

  設(shè)計(jì)師在利用計(jì)算機(jī)軟件進(jìn)行室內(nèi)場(chǎng)景設(shè)計(jì)的過程中,未將人可能在的區(qū)域或動(dòng)作輸入計(jì)算機(jī)中,所以缺少包含人類行為的虛擬室內(nèi)場(chǎng)景數(shù)據(jù)集。另外,在不考慮復(fù)雜度的情況下, 基于物體與物體之間的關(guān)系建模是最易實(shí)現(xiàn)的,未來的算法會(huì)更加傾向于基于這種關(guān)系的建模方式。然而,現(xiàn)有的算法仍避免不了人為定義如支撐、環(huán)繞等物體與物體之間的關(guān)系,采用注意力機(jī)制學(xué)習(xí)物體與物體之間的關(guān)系能更好地解決該問題。

  3.3 基于場(chǎng)景表達(dá)方式的分類

  室內(nèi)場(chǎng)景生成算法根據(jù)其表達(dá)方式的不同主要分為圖結(jié)構(gòu)、層次結(jié)構(gòu)、圖像結(jié)構(gòu)和矩陣結(jié)構(gòu)。圖結(jié)構(gòu)是由節(jié)點(diǎn)集合和邊集合構(gòu)成的,其優(yōu)點(diǎn)是靈活直觀,可以在任意兩個(gè)對(duì)象之間添加聯(lián)系,所以大部分算法都采用圖結(jié)構(gòu)的方式進(jìn)行表達(dá)。層

  

室內(nèi)場(chǎng)景生成算法分類.png

  表 1 室內(nèi)場(chǎng)景生成算法分類

  注:場(chǎng)景上下文關(guān)系中,O 代表物體 - 物體關(guān)系,P 代表人 - 物體關(guān)系;場(chǎng)景表達(dá)中,G 代表圖結(jié)構(gòu),H 代表層次結(jié)構(gòu),I 代表圖像結(jié)構(gòu),M 代表矩陣結(jié)構(gòu);生成順序中,Seq 代表順序生成,Syn 代表同步生成;場(chǎng)景輸入中,N 代表無參考,T 代表文本輸入,S 代表草圖輸入,I 代表圖像輸入,D 代表三維信息輸入;生成算法中, C 代表傳統(tǒng)算法,L 代表深度學(xué)習(xí)算法。

  次結(jié)構(gòu)是由一組具有父子關(guān)系的節(jié)點(diǎn)組成,每一個(gè)子節(jié)點(diǎn)都只有一個(gè)父節(jié)點(diǎn)。一般將整個(gè)場(chǎng)景作為根節(jié)點(diǎn),家具或家具部件作為葉子節(jié)點(diǎn),節(jié)點(diǎn)之間存在指向性關(guān)系。按照層次遞進(jìn)的方式生成室內(nèi)場(chǎng)景比較符合設(shè)計(jì)師設(shè)計(jì)場(chǎng)景時(shí)的設(shè)計(jì)思路??紤]到家具一般排列在二維空間中,有研究人員采用俯視圖的方式來表達(dá)場(chǎng)景,圖像結(jié)構(gòu)的表達(dá)方式可以更加直觀地將家具之間的位置關(guān)系體現(xiàn)到坐標(biāo)上?;诰仃嚨谋磉_(dá)方式,首先將每個(gè)家具節(jié)點(diǎn)的屬性用向量來表示,然后將所有家具的向量整合為一個(gè)可以代表整個(gè)場(chǎng)景布局信息的矩陣,矩陣的表達(dá)形式最為簡(jiǎn)單,不需要定義物體之間的上下文關(guān)系,但是在生成過程中同樣無法體現(xiàn)家具之間的關(guān)系,可解釋性不強(qiáng)。

  目前,深度學(xué)習(xí)是主要的場(chǎng)景生成算法,而圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使得圖結(jié)構(gòu)表示的場(chǎng)景也能利用深度學(xué)習(xí)的優(yōu)勢(shì),自動(dòng)學(xué)習(xí)場(chǎng)景布局規(guī)律。同時(shí),圖結(jié)構(gòu)本身能靈活增加、刪除節(jié)點(diǎn)的優(yōu)勢(shì)也能使深度學(xué)習(xí)算法更好地與人交互。所以利用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)的圖結(jié)構(gòu)表達(dá)場(chǎng)景會(huì)更具優(yōu)勢(shì)。

  3.4 基于場(chǎng)景生成方式的分類

  根據(jù)場(chǎng)景生成方式的不同,可將室內(nèi)場(chǎng)景生成算法主要分為傳統(tǒng)算法和深度學(xué)習(xí)算法。在深度學(xué)習(xí)算法出現(xiàn)以前,為了確定布局參數(shù),傳統(tǒng)方法采用基于規(guī)則、優(yōu)化以及概率統(tǒng)計(jì)的傳統(tǒng)方式對(duì)場(chǎng)景的布局規(guī)律進(jìn)行建模。在大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集出現(xiàn)以后,深度學(xué)習(xí)算法由于其強(qiáng)大的特征學(xué)習(xí)和提取能力成為室內(nèi)場(chǎng)景布局算法的主要手段。傳統(tǒng)算法需要耗費(fèi)大量的人工成本對(duì)室內(nèi)場(chǎng)景布局規(guī)律進(jìn)行抽象,并且在生成過程中耗時(shí)相對(duì)較長(zhǎng)。而深度學(xué)習(xí)算法則通過端到端的生成神經(jīng)網(wǎng)絡(luò), 可以自動(dòng)學(xué)習(xí)布局規(guī)律并且快速生成布局,成為目前主流的場(chǎng)景生成算法。

  3.5 基于家具擺放順序的分類

  根據(jù)場(chǎng)景中家具擺放的順序,可以將室內(nèi)場(chǎng)景生成算法分為順次迭代和同步生成兩種方式。順次迭代的缺點(diǎn)是后序擺放的物體由于順序性無法對(duì)前序擺放的物體產(chǎn)生影響,而前序擺放的物體也無法預(yù)測(cè)后續(xù)擺放的物體類別,但其優(yōu)點(diǎn)是如果發(fā)現(xiàn)放不下的物體可以舍棄,所以只要算法正確就一定能夠生成合理的場(chǎng)景。同步生成的優(yōu)點(diǎn)是所有家具在擺放時(shí)都可以考慮其他所有家具的擺放,缺點(diǎn)是擺放的過程中不能舍棄家具,可能會(huì)有不合理的場(chǎng)景出現(xiàn)。

  4 室內(nèi)場(chǎng)景生成算法

  室內(nèi)場(chǎng)景布局生成的目標(biāo)是確定家具的大小、類別及擺放在三維空間中的位置和朝向。目前,主流的場(chǎng)景生成算法是在無樣例約束的條件下,基于物體關(guān)系對(duì)場(chǎng)景建模后進(jìn)行生成。本節(jié)對(duì)無樣例的基于物體關(guān)系的場(chǎng)景生成算法,按照傳統(tǒng)算法和深度學(xué)習(xí)算法兩大類進(jìn)行梳理,并概述了場(chǎng)景表達(dá)方式和場(chǎng)景生成順序。在上述主流算法的基礎(chǔ)上,還衍生出了基于人類活動(dòng)的無樣例場(chǎng)景建模的場(chǎng)景生成方式,以及基于物體關(guān)系和樣例的場(chǎng)景生成方式。

  本節(jié)按照無樣例的基于物體關(guān)系的場(chǎng)景生成算法、無樣例的基于人類活動(dòng)的場(chǎng)景生成算法以及基于樣例和物體關(guān)系的場(chǎng)景生成算法 3 大類對(duì)場(chǎng)景生成算法進(jìn)行具體地梳理和分析,用于幫助讀者更好地了解場(chǎng)景生成算法的發(fā)展趨勢(shì)。

  4.1 無樣例的基于物體關(guān)系的場(chǎng)景生成算法

  4.1.1 傳統(tǒng)生成方法

  早期用于研究自動(dòng)室內(nèi)場(chǎng)景生成的傳統(tǒng)方法主要分為 3 種:基于規(guī)則的場(chǎng)景生成、基于能量?jī)?yōu)化的場(chǎng)景生成以及基于概率統(tǒng)計(jì)的場(chǎng)景生成。傳統(tǒng)方法需要充分發(fā)揮科研人員的概括和抽象能力,利用有限的知識(shí)和能力抽象出可能的場(chǎng)景布局規(guī)律,并用算法來表示。

  Xu 等最早提出基于規(guī)則并以順序迭代的方式將家具逐個(gè)擺放到室內(nèi)場(chǎng)景中的場(chǎng)景生成算法。在擺放過程中,該算法根據(jù)可放置的平面、平面的支撐能力以及擺放物體間的距離來考慮家具可能擺放的位置,同時(shí)將現(xiàn)實(shí)場(chǎng)景中家具之間的語(yǔ)義相關(guān)性融入到規(guī)則中使得家具擺放更加合理。此外,該算法還增加了物體的非互穿性、穩(wěn)定性及物體間的摩擦等物理約束,避免出現(xiàn)不和諧的場(chǎng)景擺放。

  Yu 和 Merrell 等提出用以布局信息為變量的能量函數(shù)來表示規(guī)則,通過優(yōu)化能量函數(shù)的方式生成合理的布局。家具之間的語(yǔ)義相關(guān)性可以概括為層次關(guān)系、空間位置關(guān)系以及成對(duì)關(guān)系,其可作為場(chǎng)景上下文信息融入能量方程。也可以考慮功能性擺放規(guī)則以及視覺性擺放規(guī)則,來約束家具的擺放位置。兩種算法從解決問題的不同角度分別提出了不同的優(yōu)化能量函數(shù)方式。由于搜索空間過大,前述算法采用了模擬退火算法, 逐步確定家具的擺放后得到一個(gè)合理的室內(nèi)場(chǎng)景。后者則考慮到由于布局的多樣性會(huì)使得場(chǎng)景有多種合理的布局,對(duì)應(yīng)的能量函數(shù)也具有多峰值,所以該算法采用了馬爾科夫蒙特卡洛采樣的方式,對(duì)能量函數(shù)進(jìn)行優(yōu)化。

  Fisher 等提出一種基于高斯混合模型和貝葉斯模型的概率模型來學(xué)習(xí)場(chǎng)景的布局先驗(yàn),并以此為基礎(chǔ)生成與用戶給定示例場(chǎng)景相似的新室內(nèi)場(chǎng)景。該模型能夠根據(jù)成對(duì)物體在空間位置中的共現(xiàn)概率,預(yù)測(cè)可擺放的家具類別以及場(chǎng)景空間中最有可能擺放該家具的位置。為了增加新場(chǎng)景布局的多樣性,該論文還提出了一種基于場(chǎng)景上下文信息的聚類算法,并以此提供可互相替換的家具類別。除了考慮成對(duì)的對(duì)象關(guān)系以外, Kermani 等還采用了涉及兩個(gè)以上對(duì)象的關(guān)系表示場(chǎng)景的上下文。與前述只考慮局部家具之間的上下文關(guān)系不同,Liu 等利用給定的大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集構(gòu)造了一個(gè)具有層次結(jié)構(gòu)的語(yǔ)法概率模型,用其來概括整個(gè)室內(nèi)場(chǎng)景的上下文關(guān)系。這種利用數(shù)據(jù)集學(xué)到的層次關(guān)系,將其作為一個(gè)整體進(jìn)行擺放更能增加布局的合理性。Henderson 等也是按照主要物體、小物體、天花板物體、墻面物體這樣層次遞進(jìn)的順序進(jìn)行家具擺放。

  4.1.2 深度學(xué)習(xí)生成方法

  深度學(xué)習(xí)是一種基于數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。隨著大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集的出現(xiàn),采用深度學(xué)習(xí)的方式進(jìn)行場(chǎng)景生成成為了可能。傳統(tǒng)生成方法需要人工定義具體的規(guī)則、優(yōu)化函數(shù)或密度函數(shù),而深度學(xué)習(xí)可以直接利用具有特殊結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)來隱式地學(xué)習(xí)表達(dá)這些信息,避免人工定義的復(fù)雜性。除此之外,采用深度學(xué)習(xí)的方式從大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集中學(xué)習(xí)到的場(chǎng)景先驗(yàn)?zāi)軌蚝芎玫匮a(bǔ)充人有限的室內(nèi)場(chǎng)景設(shè)計(jì)經(jīng)驗(yàn)。

  Wang 和 Ritchie 等提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景生成模型,能夠快速靈活地生成場(chǎng)景。雖然室內(nèi)場(chǎng)景存在于三維空間,但重力決定了大多數(shù)對(duì)象在二維平面上進(jìn)行布局,所以該模型將俯視圖表示的場(chǎng)景作為模型輸入,利用不同的卷積神經(jīng)網(wǎng)絡(luò)對(duì)家具的類別、位置、朝向以及大小進(jìn)行預(yù)測(cè),并以迭代的方式將家具逐個(gè)添加到場(chǎng)景中。將場(chǎng)景圖表示為俯視圖可以實(shí)現(xiàn)像素級(jí)別的細(xì)粒度的推理過程,并且可以利用專門為圖像理解而開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的室內(nèi)場(chǎng)景結(jié)構(gòu)。

  與圖像平鋪表示的室內(nèi)場(chǎng)景不同,Li 等認(rèn)為室內(nèi)場(chǎng)景的結(jié)構(gòu)本質(zhì)上是分層的,提出將室內(nèi)場(chǎng)景抽象為包含支撐關(guān)系、共現(xiàn)關(guān)系、環(huán)繞關(guān)系以及墻依靠關(guān)系的分層樹結(jié)構(gòu)。首先,循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)抽象出的分層樹結(jié)構(gòu),由葉子節(jié)點(diǎn)開始自下而上地對(duì)家具屬性以及與其他家具的相對(duì)位置關(guān)系進(jìn)行編碼;然后, 從根節(jié)點(diǎn)向下解碼出每個(gè)家具節(jié)點(diǎn)的類別、大小、朝向等場(chǎng)景布局信息;最后,以變分自編碼器的方式進(jìn)行訓(xùn)練,由隨機(jī)采樣的噪聲進(jìn)行生成。

  與分層樹結(jié)構(gòu)類似,Zhang 等也采用了變分自編碼器的生成網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)將場(chǎng)景中所有物體特征排列成固定大小矩陣作為室內(nèi)場(chǎng)景的表達(dá)方式,將參數(shù)化矩陣輸入稀疏連接的前向神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)室內(nèi)場(chǎng)景粗粒度的全局布局信息,同時(shí)利用有向距離場(chǎng)將場(chǎng)景映射到二維空間中學(xué)習(xí)細(xì)粒度的局部布局信息。Yang 等也采用了矩陣的表達(dá)形式,除了包含單個(gè)物體信息的生成網(wǎng)絡(luò)外,該研究還利用生成網(wǎng)絡(luò)對(duì)物體的相對(duì)屬性進(jìn)行編碼,最后利用貝葉斯方法結(jié)合單獨(dú)對(duì)象屬性、相對(duì)屬性以及參數(shù)先驗(yàn)對(duì)最終布局進(jìn)行優(yōu)化。

  隨著圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和發(fā)展,圖結(jié)構(gòu)表達(dá)的室內(nèi)場(chǎng)景可以利用深度學(xué)習(xí)的方式編碼場(chǎng)景先驗(yàn),且圖結(jié)構(gòu)是最直觀表達(dá)物體上下文關(guān)系的場(chǎng)景表達(dá)方式。消息傳遞網(wǎng)絡(luò)是實(shí)現(xiàn)圖卷積網(wǎng)絡(luò)常用的框架,Zhou 等提出了一種利用消息傳遞網(wǎng)絡(luò)對(duì)場(chǎng)景圖表示的室內(nèi)場(chǎng)景進(jìn)行場(chǎng)景增強(qiáng)的方法,并利用從大量的室內(nèi)場(chǎng)景數(shù)據(jù)集中抽象出的支撐、環(huán)繞、靠近、共現(xiàn)關(guān)系及消息傳遞的注意力機(jī)制,讓模型更加集中于最相關(guān)的場(chǎng)景上下文對(duì)新物體進(jìn)行預(yù)測(cè)。Wang 等將場(chǎng)景生成拆分成兩個(gè)步驟, 首先,在決策模型的框架下,利用圖卷積神經(jīng)網(wǎng)絡(luò)生成場(chǎng)景圖表示場(chǎng)景布局規(guī)劃;然后,利用卷積神經(jīng)網(wǎng)絡(luò)將圖結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)代表的家具實(shí)例化到具體的空間位置中。Luo 等將圖卷積神經(jīng)網(wǎng)絡(luò)和條件變分自編碼器結(jié)合起來,提出了一種端到端生成室內(nèi)場(chǎng)景的算法。Dhamo 等在圖卷積神經(jīng)網(wǎng)絡(luò)和條件變分自編碼器的基礎(chǔ)上,通過在解碼器之前加入增強(qiáng)后的與原始圖像有差異的場(chǎng)景進(jìn)行訓(xùn)練,能夠根據(jù)人的偏好改變場(chǎng)景圖之后, 進(jìn)行室內(nèi)場(chǎng)景生成。

  以往的場(chǎng)景生成方式會(huì)對(duì)家具之間的關(guān)系進(jìn)行假設(shè), Wang 等提出將場(chǎng)景抽象成一個(gè)對(duì)象屬性的序列,將場(chǎng)景生成任務(wù)轉(zhuǎn)化為序列生成任務(wù),采用Transformer 結(jié)構(gòu)生成場(chǎng)景, 并通過 Transformer 中的注意力機(jī)制隱式學(xué)習(xí)家具物體之間的關(guān)系。

  4.2 無樣例的基于人類活動(dòng)的場(chǎng)景生成算法

  真實(shí)場(chǎng)景中物體之間的關(guān)系復(fù)雜多樣,很難從中提取出重要的場(chǎng)景上下文關(guān)系進(jìn)行建?!,F(xiàn)實(shí)中場(chǎng)景的布局往往是按照功能區(qū)劃分,并且和人的活動(dòng)密切相關(guān),因此可以通過建模人類活動(dòng)與物體之間的關(guān)系,對(duì)場(chǎng)景布局進(jìn)行解析。

  通過人體姿態(tài)可以預(yù)測(cè)接下來的動(dòng)作傾向,而動(dòng)作是人和物體之間產(chǎn)生交互的中介,所以人體姿態(tài)和物體之間存在一定的上下文關(guān)系。Jiang 等通過構(gòu)造概率密度函數(shù)來學(xué)習(xí)物體的支撐性、可達(dá)性以及易用性與人體 6 種標(biāo)準(zhǔn)姿態(tài)的上下文關(guān)系。在場(chǎng)景生成過程中,模型首先根據(jù)已有物體推斷可能的人體姿態(tài)以及位置,然后再以人體姿態(tài)為中心,從概率密度函數(shù)中采樣找到可能的下一個(gè)物體的擺放位置。

  Fisher 等直接利用動(dòng)作建模人和物體之間的聯(lián)系,并且以此為依據(jù)生成與給定粗糙掃描場(chǎng)景在功能和幾何屬性方面都類似的新場(chǎng)景。該研究從掃描場(chǎng)景中提取帶有功能區(qū)的幾何場(chǎng)景模版后,將虛擬人代理放在對(duì)應(yīng)的功能區(qū)。虛擬人代理根據(jù)場(chǎng)景功能確定凝視、觸摸、背部支撐以及臀部支撐等與物體交互的動(dòng)作,將物體擺放成與動(dòng)作相關(guān)的排列。

  Ma 等研究了一種由動(dòng)作驅(qū)動(dòng)的場(chǎng)景生成框架,該框架通過模擬被人類動(dòng)作改變的物體放置確定場(chǎng)景布局。首先,利用標(biāo)注圖像對(duì)動(dòng)作模型進(jìn)行學(xué)習(xí),其中,每種類型的動(dòng)作結(jié)合了一個(gè)或多個(gè)人體姿勢(shì)、一個(gè)或多個(gè)物體類別和表示人 - 物體以及物體 - 物體之間的空間位置關(guān)系信息;然后,通過采樣動(dòng)作序列生成場(chǎng)景。與其他算法不同的是,由于一個(gè)動(dòng)作可能涉及多個(gè)人體姿勢(shì)和物體,該框架能在確定動(dòng)作后同時(shí)觸發(fā)一系列物體的放置,而且場(chǎng)景中所有動(dòng)作之間具有某種順序關(guān)系,使得整個(gè)場(chǎng)景的生成更具一致性。

  不同于其他研究關(guān)注固定的人體姿態(tài),Savva 等將人體姿態(tài)用動(dòng)作屬性控制,允許更高自由度的人體姿態(tài)與場(chǎng)景的交互。該研究建立能反映人體部位與人附近物體聯(lián)系的人體姿態(tài)屬性,從大規(guī)模數(shù)據(jù)集中構(gòu)建概率模型,將人體姿態(tài)估計(jì)融入場(chǎng)景生成任務(wù),以生成更合理的場(chǎng)景。Qi 等提出用一種與空間屬性相關(guān)的與或圖來表示室內(nèi)場(chǎng)景,在終端節(jié)點(diǎn)上將與人類活動(dòng)相關(guān)的上下文關(guān)系編碼進(jìn)馬爾可夫隨機(jī)場(chǎng),然后以采樣的方式生成新的場(chǎng)景。Fu 等的研究則是在給定一個(gè)空?qǐng)鼍耙约安糠旨揖哳悇e的情況下,通過人類活動(dòng)與物體之間的聯(lián)系,在給定家具的基礎(chǔ)上進(jìn)行類別擴(kuò)充,構(gòu)造完整的場(chǎng)景功能區(qū)。

  4.3 基于樣例和物體關(guān)系的場(chǎng)景生成算法

  自動(dòng)化室內(nèi)場(chǎng)景生成的目的是減輕設(shè)計(jì)布局所耗費(fèi)的時(shí)間精力,然而,在某些應(yīng)用上仍需要一定程度的與人交互,才能生成符合用戶需求的室內(nèi)場(chǎng)景布局。除此之外,完全無參考的室內(nèi)場(chǎng)景生成任務(wù)需要學(xué)習(xí)所有可能的場(chǎng)景布局,較難實(shí)現(xiàn), 而基于樣例的方式大大減少了布局多樣性,使場(chǎng)景生成任務(wù)更加簡(jiǎn)單。本節(jié)將對(duì)文本輸入、草圖輸入、圖像輸入以及三維信息輸入幾種不同的基于樣例的場(chǎng)景生成算法進(jìn)行介紹。

  4.3.1 文本輸入

  利用自然語(yǔ)言描述來獲取場(chǎng)景布局是一種較為簡(jiǎn)便的方式,自然語(yǔ)言作為人們?nèi)粘1磉_(dá)思維的方式在描述場(chǎng)景時(shí)不需要任何培訓(xùn)。Seversky 和 Coyne 等較早地提出了語(yǔ)言驅(qū)動(dòng)的場(chǎng)景生成方式,該方法通過自然語(yǔ)言詳細(xì)描述對(duì)象及空間位置的關(guān)系,實(shí)現(xiàn)自然語(yǔ)言到場(chǎng)景的映射,這種方式可以生成符合語(yǔ)言表達(dá)的室內(nèi)場(chǎng)景,但限制了用戶表達(dá)場(chǎng)景的自由度和多樣

  性,只能生成固定的場(chǎng)景布局。Chang 等提出將自然語(yǔ)言解析成一個(gè)包含要擺放物體以及物體之間如何排列的場(chǎng)景模版后,根據(jù)數(shù)據(jù)集中學(xué)習(xí)到的物體之間的空間位置先驗(yàn),將隱含的物體之間的位置關(guān)系擴(kuò)充進(jìn)來。Ma 等提出的算法不僅考慮了物體之間的空間位置關(guān)系,還對(duì)物體成對(duì)出現(xiàn)的概率進(jìn)行建模,因此,該方法不僅支持隱式位置關(guān)系擴(kuò)充,也支持隱式的物體類別擴(kuò)充,這種利用從數(shù)據(jù)集中提取出的隱式、通用的布局規(guī)律對(duì)場(chǎng)景增強(qiáng)的方式,可以讓用戶不必像以前的大多數(shù)方法一樣提供明確的布局信息。Chang 等嘗試將描述內(nèi)容與物體關(guān)聯(lián)起來,以便找到更適合文本描述的三維模型,還將規(guī)則轉(zhuǎn)化成基于文本的交互式場(chǎng)景編輯操作,并開發(fā)出給用戶使用的 UI 界面。

  4.3.2 草圖輸入

  草圖對(duì)于用戶而言也是一種表達(dá)場(chǎng)景布局的簡(jiǎn)易方式,建模師會(huì)根據(jù)室內(nèi)設(shè)計(jì)師預(yù)先繪制的概念草圖創(chuàng)建對(duì)應(yīng)的三維室內(nèi)場(chǎng)景?,F(xiàn)有的三維場(chǎng)景設(shè)計(jì)工具需要建模師多次重復(fù)模型尋找以及模型擺放兩個(gè)步驟將家具逐個(gè)擺放到室內(nèi)場(chǎng)景中。在給定草圖進(jìn)行場(chǎng)景生成的自動(dòng)化算法中,Shin 等也采用了類似的流程,首先,從草圖中識(shí)別出單個(gè)物體;然后,根據(jù)物體的視覺特征去模型庫(kù)中找到對(duì)應(yīng)的三維模型;最后,擺放到三維空間中。將三維模型拆分成部件,完成部件級(jí)別的模型尋找以及擺放,也能實(shí)現(xiàn)模型草圖到三維模型的生成,但是單個(gè)物體的檢索和擺放往往會(huì)產(chǎn)生歧義,為此,Xu 等提出對(duì)數(shù)據(jù)集中提取的具有共現(xiàn)關(guān)系和空間位置關(guān)系的家具組合進(jìn)行提取,從而實(shí)現(xiàn)多個(gè)物體的協(xié)同檢索和放置,該方法極大地減少了用戶干預(yù)。

  4.3.3 圖像輸入

  手機(jī)是人們?nèi)粘y帶且具有攝像功能的設(shè)備,得到一張場(chǎng)景圖像只需要按下拍照按鈕,所以通過 RGB 圖像生成場(chǎng)景也是用戶可選的方案,并得到了廣泛的研究和發(fā)展。Huang 等提出利用能夠表征場(chǎng)景功能和幾何約束聯(lián)合分布的整體場(chǎng)景語(yǔ)法來表示三維場(chǎng)景的結(jié)構(gòu),利用蒙特卡洛方法找到與真實(shí)場(chǎng)景最相似的由場(chǎng)景三維信息渲染得到的場(chǎng)景。Nie 等將圖像重建分為場(chǎng)景布局結(jié)構(gòu)估計(jì)、物體檢測(cè)及網(wǎng)格重建 3 個(gè)子任務(wù),本質(zhì)上還是檢測(cè)要擺放的物體,根據(jù)相機(jī)姿態(tài)投影到三維空間中。該研究通過注意力機(jī)制對(duì)所有物體的卷積特征進(jìn)行加權(quán)求和, 將上下文信息融入到物體三維空間預(yù)估過程中。Xiao 等采用了更復(fù)雜的圖卷積神經(jīng)網(wǎng)絡(luò),通過消息傳遞融入上下文信息。Zhang 等結(jié)合了以上兩種思路,利用 Nie 等提出的注意力機(jī)

  制得到初始位置后,再利用 Xiao 等提出的圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化場(chǎng)景布局。

  4.3.4 三維信息輸入

  用二維 RGB 圖像進(jìn)行三維場(chǎng)景生成較易出現(xiàn)偏差,而基于深度信息構(gòu)建的 RGB-D 場(chǎng)景或掃描場(chǎng)景帶來的三維場(chǎng)景信息更加明確,但是 RGB-D 圖像往往充滿噪聲,所以 Chen 等提出將在數(shù)據(jù)庫(kù)中學(xué)習(xí)到的物體上下文關(guān)系用于約束重建,確保重建家具與掃描家具之間的語(yǔ)義相似性。Hampali 等采用了蒙特卡洛方法,搜尋 RGB-D 圖像中可能的家具集合信息, 以最小化重建場(chǎng)景與真實(shí)場(chǎng)景的差異。Fisher 等利用人 - 物體的上下文關(guān)系生成和具有噪聲的掃描場(chǎng)景相似的新場(chǎng)景。Avetisyan 等則是在檢測(cè)出掃描場(chǎng)景中的物體后,利用物體 - 物體的上下文關(guān)系對(duì)家具的擺放位置進(jìn)行優(yōu)化。

  5 總結(jié)與未來展望

  本文對(duì)場(chǎng)景生成算法做了一個(gè)較為全面的分析和描述,分別從基于規(guī)則、概率統(tǒng)計(jì)、優(yōu)化函數(shù)的傳統(tǒng)場(chǎng)景生成方式到基于圖卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)生成方法,從基于物體 - 物體之間上下文關(guān)系的算法到基于人- 物體的上下文關(guān)系的算法,從無樣例的生成模型到基于樣例的生成模型,從矩陣結(jié)構(gòu)、層次結(jié)構(gòu)、圖像結(jié)構(gòu)到圖結(jié)構(gòu)的場(chǎng)景表達(dá)方式,從順序生成到同步生成的生成順序分析了各個(gè)場(chǎng)景生成算法的優(yōu)缺點(diǎn),以及近年來的發(fā)展。

  目前,室內(nèi)場(chǎng)景生成算法仍然存在問題。主流的深度學(xué)習(xí)方法雖然能學(xué)習(xí)到一定的場(chǎng)景先驗(yàn)知識(shí),但仍然需要預(yù)定義一些空間位置關(guān)系和共現(xiàn)關(guān)系來輔助算法進(jìn)行場(chǎng)景理解,且預(yù)定義的關(guān)系所能表達(dá)的場(chǎng)景上下文關(guān)系有限。神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制可以很好地解決這個(gè)問題,但注意力機(jī)制僅能表示物體之間聯(lián)系的緊密程度,不包含任何語(yǔ)義信息。所以將語(yǔ)義關(guān)系預(yù)測(cè)融入場(chǎng)景生成是未來研究的方向之一。

  最直觀且目前最有發(fā)展前景的場(chǎng)景表達(dá)方式是圖結(jié)構(gòu)和圖像結(jié)構(gòu)的表達(dá)方式。圖結(jié)構(gòu)表達(dá)方式可以忽略家具本身在三維空間中的位置,在任意節(jié)點(diǎn)之間構(gòu)造聯(lián)系,但該表達(dá)方式的節(jié)點(diǎn)之間不具備明確順序。而圖像結(jié)構(gòu)由于其本身排列在二維空間坐標(biāo)系中,所以圖像表示的場(chǎng)景能自然地捕捉到家具之間的位置關(guān)系。因而將圖結(jié)構(gòu)和圖像結(jié)構(gòu)結(jié)合進(jìn)行場(chǎng)景預(yù)估也是一個(gè)值得研究的課題?,F(xiàn)有的算法雖將圖和圖像相結(jié)合但是采用的是兩步走的策略,未來可以嘗試訓(xùn)練一個(gè)端到端的網(wǎng)絡(luò)將兩者結(jié)合起來。


楊 淼 1 陳寶權(quán) 2*

  1 山東大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院

  2 北京大學(xué)前沿計(jì)算研究中心

  轉(zhuǎn)載自《集成技術(shù)》




中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運(yùn)動(dòng)控制

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

直驅(qū)與傳動(dòng)

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

中國(guó)傳動(dòng)網(wǎng)

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

2022年第3期

2022年第3期

圖片閱讀

掃碼關(guān)注小程序

時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)

雜志訂閱

填寫郵件地址,訂閱更多資訊:

撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運(yùn)動(dòng)控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運(yùn)動(dòng)控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運(yùn)動(dòng)控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運(yùn)動(dòng)控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運(yùn)動(dòng)控制

    2023年第2期