讓簡筆畫生成逼真人臉!未來或能用于警察破案

時間:2020-06-19

來源:中國傳動網(wǎng)

導語:在5G全面鋪展的新技術(shù)時代,隨著分身技術(shù)落地經(jīng)驗的不斷積累以及產(chǎn)品技術(shù)的突破創(chuàng)新,近日,中國科學院北京分院的研究團隊研發(fā)出一個AI人像生成模型。該模型可以依據(jù)簡筆畫生成逼真的人臉肖像。

  在5G全面鋪展的新技術(shù)時代,隨著分身技術(shù)落地經(jīng)驗的不斷積累以及產(chǎn)品技術(shù)的突破創(chuàng)新,5月21日,在全國矚目的兩會召開之際,搜狗聯(lián)合新華社推出的全球首個3D AI合成主播“新小微”正式亮相,為全國觀眾帶來最新的兩會新聞資訊報道。近日,中國科學院北京分院的研究團隊研發(fā)出一個AI人像生成模型。該模型可以依據(jù)簡筆畫生成逼真的人臉肖像。

  利用這一模型,沒有繪畫經(jīng)驗的人也可以很容易地得到逼真圖像。除了用于娛樂,在未來,這個模型或能幫助執(zhí)法人員進行嫌疑人畫像。

  這項研究發(fā)表在學術(shù)網(wǎng)站arXiv上,論文標題為《深度人臉畫像:從草圖深度生成人臉圖像(Deep Face Drawing:Deep Generation of FaceImages from Sketches)》。今年七月份,這項技術(shù)將在計算機圖形學頂會SIGGRAPH會議上展出。

  一、給人臉“分區(qū)”,逐塊推理出逼真圖像

  現(xiàn)有的“從圖像生成圖像”的技術(shù)已經(jīng)可以實現(xiàn)快速輸出結(jié)果。但是,現(xiàn)有解決方案對輸入圖像的要求較高,只有以專業(yè)素描畫像等逼真度較高的圖像作為輸入時,才能生成逼真的人臉肖像。

  在這種模型中,輸出結(jié)果的質(zhì)量直接受到輸入圖像的影響,即輸出結(jié)果受到輸入圖像的“硬約束”。

  為了解決這一問題,中國科學院北京分院的研究團隊設(shè)計出一種“從局部到全局(local-to-global)”的“軟約束(soft constraint)”方法??偟膩碚f,這一方法基于一個深度學習框架,分為兩步進行。

  首先,研究人員把簡筆畫輸入模型。模型依據(jù)簡筆畫,推理出人臉上各個器官的“布局”情況。這一步中,模型采用隱式建模(implicitly model)方法建立人臉圖像的形狀空間模型,并學習人臉關(guān)鍵部位的特征嵌入。

  模型將人臉分成左眼、右眼、鼻子、嘴唇、臉型這5個關(guān)鍵“組件”。

  然后,模型依據(jù)臉部的“布局”情況,從簡筆畫“倒推”出逼真的人臉圖像。這一步中,模型依據(jù)人臉組件樣本的特征向量,從輸入簡筆畫的相應(yīng)部分,推理出潛在的人臉組件流形(Manifold)。

  對于每一個關(guān)鍵部位,模型隱式定義了一個潛在流形。研究人員假設(shè)底層組件的流形是局部線性的。模型運行經(jīng)典的局部性嵌入算法,將簡筆畫人臉特征的組件投影到其組件流形上。

  為了改善信息流,研究人員應(yīng)用另一個深層神經(jīng)網(wǎng)絡(luò),使其在上述兩步之間輸出中間結(jié)果。這個深層神經(jīng)網(wǎng)絡(luò)通過多通道特征映射,學習從嵌入組件特征到逼真圖像的映射結(jié)果。

  二、60位參與者打分1302次,證實模型輸出結(jié)果更逼真

  模型搭建好后,研究人員使模型在一臺搭載了一個英特爾i7-7700CPU和一個NVIDIAGTX 1080Ti GPU、擁有16GB內(nèi)存的電腦上運行,用17000張簡筆畫和照片進行訓練。訓練結(jié)束后,研究人員對模型進行了評估。

  研究人員首先用線條不同的簡筆畫作為輸入。結(jié)果顯示,不同的線條會導致輸出圖像擁有不同的細節(jié),但輸出圖像其他部分大體上沒有變化。

  然后,研究人員選用現(xiàn)有的全局檢索(global retrieval)模型和組件級檢索(component-level retrieval)模型與本項研究中的“從局部到全局”模型進行了對比。結(jié)果顯示,“從局部到全局”模型返回的樣本最接近輸入組件草圖。

  為了使評估結(jié)果更加精確,研究人員進行了一項用戶調(diào)查。研究人員選用22張抽象層次不同、粗糙度不同的簡筆畫作為輸入,分別用全局檢索模型、組件級檢索模型、“從局部到全局”模型輸出結(jié)果。

  共有60名參與者(39男21女,年齡介乎18至32歲)參加了用戶調(diào)查。研究人員向每個參與者展示4張照片,其中1張為簡筆草圖、3張為模型輸出的合成圖像。

  研究人員共得到1320個主觀評價。對這些評價結(jié)果的統(tǒng)計結(jié)果顯示,參與者普遍認為“從局部到全局”模型的輸出結(jié)果更加準確、圖像質(zhì)量也更高。

  三、局限性:易出現(xiàn)不兼容問題,缺乏少數(shù)族裔樣本

  評估結(jié)果顯示,“從局部到全局”模型能根據(jù)一張人臉簡筆畫,輸出仿真度較高的人臉圖像。但是,論文指出,這一模型還有一些局限性。

  將人臉簡筆畫“分區(qū)”的方法優(yōu)勢在于靈活度較高,但也可能帶來各個組件不兼容的問題。這個問題對于眼睛來說尤其明顯。模型“分區(qū)”考慮左右眼的策略可能導致輸出圖像的眼睛不對稱。根據(jù)論文,引入對稱損失(symmetry loss)或明確規(guī)定輸出結(jié)果中的眼睛必須來自同一樣本可解決這一問題。

  另外,在用于訓練的17000張簡筆畫和照片中,大部分是白種人、南美人的臉,缺乏少數(shù)族裔樣本。因此,模型對少數(shù)族裔樣本的畫像結(jié)果可能會出現(xiàn)失真等問題。

  結(jié)語:人臉合成技術(shù)的價值超出預期

  本項研究中,中國科學院北京分院的研究團隊采用“從局部到全局”的方法,設(shè)計出一個AI人像生成模型。該模型可以依據(jù)一張人臉簡筆畫,輸出逼真的人臉畫像。

  根據(jù)論文,在未來,研究人員計劃引入側(cè)臉簡筆畫、在簡筆畫中增加隨機噪聲等,通過增加訓練數(shù)據(jù)的規(guī)模,使模型輸出圖像結(jié)果更準確。

  另外,“從局部到全局”模型的官網(wǎng)信息指出,研究人員將很快推出該模型的代碼。這意味著在不久的將來,我們將能看到這個模型的實際應(yīng)用。

  近些年來,基于生成對抗網(wǎng)絡(luò)(GAN)的Deepfake技術(shù)多次被曝出濫用丑聞,引起了很大爭議。學界和業(yè)界一度談Deepfake而“色變”,致力于找出能規(guī)避其風險的解決方案。比如,如臉書、亞馬遜網(wǎng)絡(luò)服務(wù)及其他機構(gòu)聯(lián)合發(fā)起了“Deepfake鑒別挑戰(zhàn)”項目。

  同樣用到生成對抗網(wǎng)絡(luò),這次中科院團隊研發(fā)的模型可以利用簡筆畫生成逼真人像,這既顯示出了現(xiàn)在人臉合成技術(shù)的厲害之處,也啟示我們?nèi)四樅铣杉夹g(shù)的價值比想象的更加豐富和超出預期。

中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.wangxinlc.cn)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0