在5G全面鋪展的新技術(shù)時代,隨著分身技術(shù)落地經(jīng)驗的不斷積累以及產(chǎn)品技術(shù)的突破創(chuàng)新,5月21日,在全國矚目的兩會召開之際,搜狗聯(lián)合新華社推出的全球首個3D AI合成主播“新小微”正式亮相,為全國觀眾帶來最新的兩會新聞資訊報道。近日,中國科學院北京分院的研究團隊研發(fā)出一個AI人像生成模型。該模型可以依據(jù)簡筆畫生成逼真的人臉肖像。
利用這一模型,沒有繪畫經(jīng)驗的人也可以很容易地得到逼真圖像。除了用于娛樂,在未來,這個模型或能幫助執(zhí)法人員進行嫌疑人畫像。
這項研究發(fā)表在學術(shù)網(wǎng)站arXiv上,論文標題為《深度人臉畫像:從草圖深度生成人臉圖像(Deep Face Drawing:Deep Generation of FaceImages from Sketches)》。今年七月份,這項技術(shù)將在計算機圖形學頂會SIGGRAPH會議上展出。
一、給人臉“分區(qū)”,逐塊推理出逼真圖像
現(xiàn)有的“從圖像生成圖像”的技術(shù)已經(jīng)可以實現(xiàn)快速輸出結(jié)果。但是,現(xiàn)有解決方案對輸入圖像的要求較高,只有以專業(yè)素描畫像等逼真度較高的圖像作為輸入時,才能生成逼真的人臉肖像。
在這種模型中,輸出結(jié)果的質(zhì)量直接受到輸入圖像的影響,即輸出結(jié)果受到輸入圖像的“硬約束”。
為了解決這一問題,中國科學院北京分院的研究團隊設(shè)計出一種“從局部到全局(local-to-global)”的“軟約束(soft constraint)”方法??偟膩碚f,這一方法基于一個深度學習框架,分為兩步進行。
首先,研究人員把簡筆畫輸入模型。模型依據(jù)簡筆畫,推理出人臉上各個器官的“布局”情況。這一步中,模型采用隱式建模(implicitly model)方法建立人臉圖像的形狀空間模型,并學習人臉關(guān)鍵部位的特征嵌入。
模型將人臉分成左眼、右眼、鼻子、嘴唇、臉型這5個關(guān)鍵“組件”。
然后,模型依據(jù)臉部的“布局”情況,從簡筆畫“倒推”出逼真的人臉圖像。這一步中,模型依據(jù)人臉組件樣本的特征向量,從輸入簡筆畫的相應(yīng)部分,推理出潛在的人臉組件流形(Manifold)。
對于每一個關(guān)鍵部位,模型隱式定義了一個潛在流形。研究人員假設(shè)底層組件的流形是局部線性的。模型運行經(jīng)典的局部性嵌入算法,將簡筆畫人臉特征的組件投影到其組件流形上。
為了改善信息流,研究人員應(yīng)用另一個深層神經(jīng)網(wǎng)絡(luò),使其在上述兩步之間輸出中間結(jié)果。這個深層神經(jīng)網(wǎng)絡(luò)通過多通道特征映射,學習從嵌入組件特征到逼真圖像的映射結(jié)果。
二、60位參與者打分1302次,證實模型輸出結(jié)果更逼真
模型搭建好后,研究人員使模型在一臺搭載了一個英特爾i7-7700CPU和一個NVIDIAGTX 1080Ti GPU、擁有16GB內(nèi)存的電腦上運行,用17000張簡筆畫和照片進行訓練。訓練結(jié)束后,研究人員對模型進行了評估。
研究人員首先用線條不同的簡筆畫作為輸入。結(jié)果顯示,不同的線條會導致輸出圖像擁有不同的細節(jié),但輸出圖像其他部分大體上沒有變化。
然后,研究人員選用現(xiàn)有的全局檢索(global retrieval)模型和組件級檢索(component-level retrieval)模型與本項研究中的“從局部到全局”模型進行了對比。結(jié)果顯示,“從局部到全局”模型返回的樣本最接近輸入組件草圖。
為了使評估結(jié)果更加精確,研究人員進行了一項用戶調(diào)查。研究人員選用22張抽象層次不同、粗糙度不同的簡筆畫作為輸入,分別用全局檢索模型、組件級檢索模型、“從局部到全局”模型輸出結(jié)果。
共有60名參與者(39男21女,年齡介乎18至32歲)參加了用戶調(diào)查。研究人員向每個參與者展示4張照片,其中1張為簡筆草圖、3張為模型輸出的合成圖像。
研究人員共得到1320個主觀評價。對這些評價結(jié)果的統(tǒng)計結(jié)果顯示,參與者普遍認為“從局部到全局”模型的輸出結(jié)果更加準確、圖像質(zhì)量也更高。
三、局限性:易出現(xiàn)不兼容問題,缺乏少數(shù)族裔樣本
評估結(jié)果顯示,“從局部到全局”模型能根據(jù)一張人臉簡筆畫,輸出仿真度較高的人臉圖像。但是,論文指出,這一模型還有一些局限性。
將人臉簡筆畫“分區(qū)”的方法優(yōu)勢在于靈活度較高,但也可能帶來各個組件不兼容的問題。這個問題對于眼睛來說尤其明顯。模型“分區(qū)”考慮左右眼的策略可能導致輸出圖像的眼睛不對稱。根據(jù)論文,引入對稱損失(symmetry loss)或明確規(guī)定輸出結(jié)果中的眼睛必須來自同一樣本可解決這一問題。
另外,在用于訓練的17000張簡筆畫和照片中,大部分是白種人、南美人的臉,缺乏少數(shù)族裔樣本。因此,模型對少數(shù)族裔樣本的畫像結(jié)果可能會出現(xiàn)失真等問題。
結(jié)語:人臉合成技術(shù)的價值超出預期
本項研究中,中國科學院北京分院的研究團隊采用“從局部到全局”的方法,設(shè)計出一個AI人像生成模型。該模型可以依據(jù)一張人臉簡筆畫,輸出逼真的人臉畫像。
根據(jù)論文,在未來,研究人員計劃引入側(cè)臉簡筆畫、在簡筆畫中增加隨機噪聲等,通過增加訓練數(shù)據(jù)的規(guī)模,使模型輸出圖像結(jié)果更準確。
另外,“從局部到全局”模型的官網(wǎng)信息指出,研究人員將很快推出該模型的代碼。這意味著在不久的將來,我們將能看到這個模型的實際應(yīng)用。
近些年來,基于生成對抗網(wǎng)絡(luò)(GAN)的Deepfake技術(shù)多次被曝出濫用丑聞,引起了很大爭議。學界和業(yè)界一度談Deepfake而“色變”,致力于找出能規(guī)避其風險的解決方案。比如,如臉書、亞馬遜網(wǎng)絡(luò)服務(wù)及其他機構(gòu)聯(lián)合發(fā)起了“Deepfake鑒別挑戰(zhàn)”項目。
同樣用到生成對抗網(wǎng)絡(luò),這次中科院團隊研發(fā)的模型可以利用簡筆畫生成逼真人像,這既顯示出了現(xiàn)在人臉合成技術(shù)的厲害之處,也啟示我們?nèi)四樅铣杉夹g(shù)的價值比想象的更加豐富和超出預期。