人工智能在合成生物學(xué)的應(yīng)用
文:李敏 林子杰 廖文斌 陳廷柏 李堅(jiān)強(qiáng) 陳 杰 肖敏鳳2021年第5期
1 引 言
合成生物學(xué)以人為設(shè)計(jì)和構(gòu)建生命系統(tǒng)為目標(biāo),近年來在生物醫(yī)療技術(shù)和藥物的研發(fā)、蛋白質(zhì)和其他化合物的生產(chǎn)以及環(huán)境保護(hù)等領(lǐng)域展現(xiàn)出巨大的發(fā)展?jié)摿?。有別于傳統(tǒng)生命科學(xué), 合成生物學(xué)具備多學(xué)科交叉、多技術(shù)融合的特征,遵循工程學(xué)本質(zhì),在人工設(shè)計(jì)的指導(dǎo)下,基于特定底盤細(xì)胞,自下而上地對生物元件、線路模塊、代謝網(wǎng)絡(luò)和基因組等進(jìn)行標(biāo)準(zhǔn)化表征、通用化設(shè)計(jì)構(gòu)建、可控化運(yùn)行,并持續(xù)學(xué)習(xí)和優(yōu)化。
隨著合成生物學(xué)涉及的功能和潛在應(yīng)用的不斷拓展,運(yùn)用合成生物學(xué)的復(fù)雜性和跨學(xué)科知識需求也在迅速增長。然而,生命系統(tǒng)極其精密,包含大量不同的基因和調(diào)控元件,而元件之間又以海量不同的組合形成模塊、網(wǎng)絡(luò),難以精確描述和預(yù)測,因此即使設(shè)計(jì)小型的基因線路也需要反復(fù)調(diào)試。工程學(xué)思維和方法是克服這一難題的利器,即大規(guī)模測試不同元件、線路模塊、網(wǎng)絡(luò)和底盤的組合,積累海量實(shí)驗(yàn)數(shù)據(jù),從而指導(dǎo)合成生物系統(tǒng)的理性設(shè)計(jì)和優(yōu)化。合成生物自動化設(shè)施(Biofoundry) 是工程學(xué)平臺搭建的一大核心,依照“設(shè)計(jì)— 構(gòu)建—測試—學(xué)習(xí)”(Design-Build-Test-Learn,DBTL) 的閉環(huán)策略組織工藝流程,通過自動化、高通量生物學(xué)實(shí)驗(yàn)試錯(cuò)獲
得符合預(yù)期的合成生物系統(tǒng)。但當(dāng)前工程化試錯(cuò)存在海量的試錯(cuò)空間,實(shí)驗(yàn)成本極其高昂,并且缺乏標(biāo)準(zhǔn)化、定量的表征手段和智能化試錯(cuò)、優(yōu)化、學(xué)習(xí)理論與技術(shù)的系統(tǒng)性支撐,阻礙了工程化研究平臺指導(dǎo)合成生物系統(tǒng)的設(shè)計(jì)與改造的發(fā)展。因此,需要運(yùn)用一種方法將新知識和新技術(shù)流程很好地集成到合成生物學(xué)工程中,以提高試錯(cuò)效率、降低試錯(cuò)成本。
隨著人工智能 (Artificial Intelligence,AI) 技術(shù)的快速發(fā)展,在軟件、電子和機(jī)械系統(tǒng)等不同領(lǐng)域的工程設(shè)計(jì)中,使用人工智能技術(shù)來捕獲人類專家知識并將其嵌入輔助工具中是很常用的思路。人工智能技術(shù)基于海量數(shù)據(jù)的持續(xù)學(xué)習(xí)能力和在未知空間的智能探索能力,有效地契合了當(dāng)前合成生物學(xué)工程化試錯(cuò)平臺的需求。盡管生命體很復(fù)雜并且未被完全理解,但是人工智能技術(shù)可以找到很多突破口顯著改變合成生物學(xué)工程的效能。人工智能技術(shù)的核心是機(jī)器學(xué)習(xí)模型與算法,其本質(zhì)是基于一組數(shù)學(xué)規(guī)則或統(tǒng)計(jì)假設(shè),對機(jī)器進(jìn)行編程從而學(xué)習(xí)數(shù)據(jù)集中的模式與規(guī)律。通常說來,機(jī)器學(xué)習(xí)的目標(biāo)是從給定數(shù)據(jù)集中發(fā)現(xiàn)特征之間的聯(lián)系從而建立起預(yù)測模型,輸出值可以是二元響應(yīng)、多分類標(biāo)簽或連續(xù)值。其中,訓(xùn)練好的預(yù)測模型需要具有較好的泛化能力,即能較準(zhǔn)確地預(yù)測訓(xùn)練集外的樣本。
比較經(jīng)典的預(yù)測模型有邏輯回歸模型、決策樹模型、貝葉斯概率模型、支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network) 和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network) 等。在生物學(xué)和生物醫(yī)學(xué)研究的大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)模型與算法的一個(gè)關(guān)鍵優(yōu)勢是可自動挖掘數(shù)據(jù)中可能被忽略的模式,在發(fā)現(xiàn)復(fù)雜生命系統(tǒng)的內(nèi)在規(guī)律方面起關(guān)鍵作用。人工智能技術(shù)在生物學(xué)領(lǐng)域已經(jīng)具有廣泛的應(yīng)用,包括基因注釋、蛋白質(zhì)功能的預(yù)測、基因線路的預(yù)測、代謝網(wǎng)絡(luò)的預(yù)測和復(fù)雜微生物群落的表征等。然而,合成生物學(xué)實(shí)驗(yàn)通常時(shí)間跨度大、成本高以及 DBTL 迭代次數(shù)有限,導(dǎo)致預(yù)測模型的訓(xùn)練數(shù)據(jù)極度不足, 這也給人工智能技術(shù)帶來了新的挑戰(zhàn)。本文綜述了近年來人工智能技術(shù)在合成元件工程、線路工程、代謝工程及基因組工程領(lǐng)域的研究進(jìn)展,并在此基礎(chǔ)上提煉歸納人工智能與合成生物學(xué)兩大領(lǐng)域交叉融合所面臨的挑戰(zhàn),提出開發(fā)基于人工智能完成 DBTL 閉環(huán)的“類合成生物學(xué)家”見解。
2 人工智能應(yīng)用于合成生物學(xué)的國內(nèi)外研究現(xiàn)狀
21 世紀(jì)以來,人工智能與合成生物學(xué)交叉研究驅(qū)使元件工程、線路工程、代謝工程、基因組工程等領(lǐng)域取得了一些代表性的進(jìn)展,并使許多具備鮮明領(lǐng)域交叉特色的創(chuàng)新研究手段和理論得以成功運(yùn)用。其中,2005—2017 年為緩慢發(fā)展階段,研究主要集中在線路工程;2018—2021 年為相對高速發(fā)展階段,人工智能在元件工程、線路工程、代謝工程、基因組工程等領(lǐng)域均嶄露頭角。這意味著,人工智能開始有效地解決合成生物學(xué)各子領(lǐng)域的技術(shù)難題,開辟合成生物學(xué)發(fā)展的新道路 ( 圖 1)。
2.1 元件工程
生物元件是合成生物系統(tǒng)中最簡單、最基本的單元,通常指一小段具有特定功能的核酸和氨基酸序列。在大規(guī)模的生物智能設(shè)計(jì)中,生物元件像“搭積木”一樣被用于組裝具有特定生物學(xué)功能的裝置和系統(tǒng)。在傳統(tǒng)的生物信息學(xué)和基因組學(xué)研究中,聯(lián)合多組學(xué)與序列特征分析可以得到特定的生物功能元件,如啟動子、核糖體結(jié)合位點(diǎn)、蛋白編碼基因、終止子和操縱子等。然而,從核酸和氨基酸序列到生物元件的挖掘與功能解讀之間還存在巨大鴻溝。已有研究表明,人工智能技術(shù)可改善生物元件的鑒定和功能注釋效率。DeepRibo 利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)可有效注釋基因編碼區(qū)。ProLanGO 則是一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的神經(jīng)機(jī)器翻譯方法,其將蛋白質(zhì)功能預(yù)測問題轉(zhuǎn)化為語言翻譯問題。DeepEC 利用 3 個(gè)相互獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合同源分析工具 DIAMOND 預(yù)測蛋白質(zhì)EC(Enzyme Commission) 編碼以輔助理解酶的功能和總體細(xì)胞代謝。Kotopka 等構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型可實(shí)現(xiàn)對酵母啟動子序列活性的高精度預(yù)測與設(shè)計(jì)。
目前,已發(fā)掘的天然生物元件結(jié)構(gòu)及功能較為單一、保守,理性設(shè)計(jì)和定向進(jìn)化技術(shù)是優(yōu)化現(xiàn)有元件結(jié)構(gòu)、增強(qiáng)其功能特性的主要策略。但這兩種方法都耗時(shí)長且成本高,而機(jī)器學(xué)習(xí)通過學(xué)習(xí)序列中變異信息的特征來篩選出可能進(jìn)化方向的序列,從而加速理性設(shè)計(jì)和定向進(jìn)化。Romero 等使用高斯過程(Gaussian Process) 設(shè)計(jì)的細(xì)胞色素 P450 酶(Cytochrome P450) 比先前通過嵌合染色體、理性設(shè)計(jì)或定向進(jìn)化產(chǎn)生的酶具備更耐高溫的特性。Li 等利用高通量分子動力學(xué)仿真等計(jì)算機(jī)方法輔助重設(shè)計(jì)天冬氨酸酶,將其轉(zhuǎn)化為不對稱加氫反應(yīng)的酶,由此擴(kuò)大了這種酶的生產(chǎn),并獲得了可用于制藥和其他生物活性化合物的高純度元件。Yang 等利用偏最小二乘法回歸、貝葉斯優(yōu)化等算法指導(dǎo)蛋白質(zhì)定向進(jìn)化,從而提高氰化反應(yīng)中蛋白質(zhì)的催化效率。在蛋白質(zhì)的翻譯中,核糖體結(jié)合位點(diǎn)效率是決定蛋白質(zhì)表達(dá)量的重要因素之一。Bonde 等構(gòu)建了一種基于隨機(jī)森林的 EMOPEC(Empirical Model and Oligos for Protein Expression Changes) 工具,用于全面評估核糖體結(jié)合位點(diǎn)上的 SD 序列 (Shine-Dalgarno Sequence) 對蛋白質(zhì)表達(dá)的影響,并通過修改 SD 序列上的若干堿基,對大腸桿菌基因表達(dá)水平進(jìn)行精準(zhǔn)調(diào)節(jié)。
元件工程中更具挑戰(zhàn)意義的是設(shè)計(jì)合成自然界不存在的元件,而人工智能在其中扮演著十分重要的角色。在 DNA 元件設(shè)計(jì)上,Wang 等將生成對抗網(wǎng)絡(luò) (Generative Adversarial Network) 模型與支持向量機(jī)活性預(yù)測模型相結(jié)合來設(shè)計(jì)啟動子,其中約 70.8% 的啟動子兼具結(jié)構(gòu)新穎及功能穩(wěn)定的特性。該項(xiàng)工作為新型啟動子元件的從頭設(shè)計(jì)提供了端到端的方法, 表明深度學(xué)習(xí)方法具有從頭設(shè)計(jì)基因元件的潛力。在蛋白質(zhì)元件設(shè)計(jì)上,Repecka 等研究表明人工智能可輔助生成多樣化的功能蛋白,其提出的 ProteinGAN 從復(fù)雜的氨基酸序列空間中學(xué)習(xí)蛋白質(zhì)演化關(guān)系,并創(chuàng)建與天然蛋白的生物特性接近的新功能蛋白。Li 等利用隱馬爾可夫模型 (Hidden Markov Model) 對轉(zhuǎn)氨酶序列和結(jié)構(gòu)進(jìn)行組合分析,建立高效快速的
圖 1 2005—2021 年人工智能應(yīng)用于合成生物學(xué)的代表性進(jìn)展
計(jì)算方法來篩選不同家族的轉(zhuǎn)氨元件,最終建立了底物特異性互補(bǔ)的轉(zhuǎn)氨元件工具箱,實(shí)現(xiàn)對天然 L- 氨基酸的全覆蓋,打通了 L- 氨基酸到酮酸及相關(guān)高價(jià)值衍生物的綠色合成途徑。
2.2 線路工程
人工基因線路是利用元件工程中的各類元件針對多樣的需求依照電子工程中電路搭建的思維進(jìn)行設(shè)計(jì)及功能優(yōu)化,從而達(dá)到對生命的重編程?;陔p穩(wěn)態(tài)開關(guān) (Toggle Switch)、振蕩器 (Oscillator) 和細(xì)胞通訊模塊等最簡單的小型功能模塊, 研究人員根據(jù)目標(biāo)重新組合或優(yōu)化調(diào)整,設(shè)計(jì)出能夠執(zhí)行復(fù)雜邏輯功能的新穎基因線路,從而對細(xì)胞行為進(jìn)行精準(zhǔn)的時(shí)空控制,以應(yīng)對復(fù)雜的生物環(huán)境。
但是,合成基因線路的設(shè)計(jì)和構(gòu)建遠(yuǎn)非易事。早期設(shè)計(jì)的基因線路通常需要進(jìn)行多次、長時(shí)間的調(diào)試才能正常運(yùn)行,且無法確定其對底盤細(xì)胞的其他影響。Hasnain 等利用Koopman 算子理論構(gòu)建數(shù)據(jù)驅(qū)動的模型用于計(jì)算合成生物線路對大腸桿菌底盤的影響。Myers 等開發(fā)了一種工具—— iBioSim 利用多種仿真方法對基因線路模型進(jìn)行高效分析和設(shè)計(jì),可用于維護(hù)基因線路模型以及實(shí)驗(yàn)和仿真數(shù)據(jù)記錄。盡管取得了以上進(jìn)展,但在大型復(fù)雜的合成網(wǎng)絡(luò)中,生物元件可能相互交互造成串?dāng)_,可用的生物回路元件的數(shù)量和正交性帶來的限制阻礙了在活細(xì)胞中構(gòu)建穩(wěn)定運(yùn)行的復(fù)雜回路。Green 等利用線性交互機(jī)制從頭設(shè)計(jì)在大腸桿菌中調(diào)控基因表達(dá)的核糖開關(guān)——Toehold Switch。Toehold Switch 不僅可以感應(yīng)同源 RNA 從而激活基因表達(dá),而且實(shí)現(xiàn)了較高的正交性、較低的系統(tǒng)串?dāng)_、可編程性以及較廣的動態(tài)范圍,但仍面臨一定的設(shè)計(jì)瓶頸,譬如篩選有用的 Toehold Switch 通常需要開展大量實(shí)驗(yàn),消耗很高的時(shí)間和經(jīng)濟(jì)成本。于是,Valeri 等 將 STORM(Sequencebased Toehold Optimization and Redesign Model) 和 NuSpeak(Nucleic-Acid Speech) 循 環(huán)神經(jīng)網(wǎng)絡(luò) - 卷積神經(jīng)網(wǎng)絡(luò)混合模型用于表征和優(yōu)化 ToeholdSwitch。在深度學(xué)習(xí)架構(gòu)中使用卷積過濾器、注意力機(jī)制和遷移學(xué)習(xí)對模型進(jìn)行優(yōu)化,進(jìn)一步改進(jìn)了面對稀疏的訓(xùn)練數(shù)據(jù)的性能,為調(diào)節(jié)開關(guān)的選擇和設(shè)計(jì)提供了從序列到功能的深度學(xué)習(xí)框架,并增強(qiáng)了構(gòu)建有效的生物電路和精確診斷的能力。
一個(gè)基因線路的設(shè)計(jì)被提出后,計(jì)算機(jī)仿真策略可確定該線路可以執(zhí)行哪些任務(wù),并通過修改參數(shù)以實(shí)現(xiàn)所需的功能。逆向工程策略利用計(jì)算模型從基因表達(dá)數(shù)據(jù)中提取基因線路的調(diào)控結(jié)構(gòu)和動力學(xué),探索可能的基因調(diào)控線路的配置庫 ( 如基因激活或抑制強(qiáng)度),以找到可以執(zhí)行該功能的配置條件。但是,由于基因線路配置的數(shù)量隨基因數(shù)量的增加而迅速增加,因此這種方法的計(jì)算量巨大,需要用更高效的算法來克服這一挑戰(zhàn)。蒙特卡洛方法提供了一種可行的替代解決方案,即反復(fù)選擇最佳基因線路后對其配置進(jìn)行隨機(jī)更改的進(jìn)化算法可成功開發(fā)出高性能的基因線路。Noman 等提出一種基于蒙特卡洛的進(jìn)化算法,即利用計(jì)算機(jī)對自然進(jìn)化過程進(jìn)行仿真,從而快速查找對噪音信息具有魯棒性的網(wǎng)絡(luò)拓?fù)?(Network Topology), 這對于設(shè)計(jì)高魯棒性的生命系統(tǒng)具有較高的價(jià)值。而 Hiscock 等提出將機(jī)器學(xué)習(xí)中的梯度下降優(yōu)化算法應(yīng)用到基因線路的快速篩選和一系列不同功能的線路設(shè)計(jì)中。2021 年,Seak 等嘗試?yán)媚M人工神經(jīng)網(wǎng)絡(luò)的方法設(shè)計(jì)基因線路,進(jìn)一步提升生物計(jì)算算法的潛力。
2.3 代謝工程
代謝工程最早由美國學(xué)者 Bailey 于 1991 年提出,是指用重組 DNA 技術(shù)有目的地改造中間代謝途徑及網(wǎng)絡(luò),從而提高菌體生物量或代謝物產(chǎn)量。鑒于細(xì)胞代謝網(wǎng)絡(luò)的復(fù)雜性,傳統(tǒng)的設(shè)計(jì)通常整合了文獻(xiàn)檢索、代謝建模和啟發(fā)式分析(Heuristic Analysis) 等方法,但因?yàn)橥掏铝坑邢?,從?shù)千個(gè)代謝反應(yīng)及其調(diào)控網(wǎng)絡(luò)等海量信息中找到合適的改造靶點(diǎn)非常困難。人工智能的集成建模方法有助于在代謝網(wǎng)絡(luò)建模時(shí)兼顧動力學(xué)、調(diào)節(jié)作用、替代模型結(jié)構(gòu)和參數(shù)集合等因素。例如, 魯棒性分析集成建模 (Ensemble Modeling For Robustness Analysis,EMRA) 將動態(tài)動力學(xué)模型與集成建模法結(jié)合以設(shè)計(jì)非天然代謝路徑,可在選擇代謝流改造靶點(diǎn)時(shí)既考慮模型性能又兼顧魯棒性。在大規(guī)模的代謝數(shù)據(jù)篩選中,機(jī)器學(xué)習(xí)平臺作為高通量分析工具在促進(jìn)數(shù)據(jù)驅(qū)動的目標(biāo)生物合成途徑優(yōu)化和微生物產(chǎn)能提高方面得到了更廣泛的應(yīng)用。EcoSynther 平臺使用反應(yīng)數(shù)據(jù)庫 Rhea 中約 10 000 條質(zhì)量和電荷平衡的反應(yīng)為外源反應(yīng)數(shù)據(jù)源,并整合野生型大腸桿菌代謝網(wǎng)絡(luò)模型中內(nèi)源反應(yīng),利用途徑搜索的概率分析算法模擬生產(chǎn)目標(biāo)化合物的大腸桿菌菌株在不同生長條件下的整體代謝、目標(biāo)化合物合成途徑以及量化合成情況。將支持向量回歸和前饋神經(jīng)網(wǎng)絡(luò)用于優(yōu)化預(yù)測生產(chǎn)中核糖體結(jié)合位點(diǎn)和表型的關(guān)聯(lián),可將大腸桿菌中檸檬烯產(chǎn)量提高 60% 以上。而將集成學(xué)習(xí)算法應(yīng)用于DBTL 循環(huán)數(shù)據(jù)可輔助提高大腸桿菌生產(chǎn)十二烷醇的效能 ( 效價(jià)提高 21% )。
合成生物學(xué) DBTL 循環(huán)通常需要大規(guī)模采集和分析數(shù)據(jù), 且循環(huán)中往往受到實(shí)驗(yàn)成本高昂、可變性高、采樣偏差以及傳統(tǒng)數(shù)據(jù)分析方法局限性的限制。而自動化 DBTL 流程在微生物底盤生化途徑的快速原型設(shè)計(jì)和優(yōu)化應(yīng)用中,集成了一系列獨(dú)特的新技術(shù)組合,能大大降低實(shí)驗(yàn)成本和噪聲,并且不依賴于研究人員對生物學(xué)機(jī)制的理解。Pablo 等開發(fā)的 DBTL 平臺使用計(jì)算機(jī)仿真選擇候選酶,通過自動化元件設(shè)計(jì),融合機(jī)器學(xué)習(xí)算法集優(yōu)化技術(shù)指導(dǎo)和機(jī)器人輔助組裝生化途徑,隨后進(jìn)行快速測試和理性重設(shè)計(jì),僅用兩個(gè) DBTL 循環(huán)就能大規(guī)模壓縮可能的參數(shù)和變數(shù)組態(tài) (Configuration) 數(shù)目,將大腸桿菌的類黃酮產(chǎn)量較以往報(bào)道的水平提高了 500 倍。Hamedirad 等開發(fā)了一個(gè)耦合貝葉斯優(yōu)化等機(jī)器學(xué)習(xí)算法的集成機(jī)器人平臺——BioAutoMata,并用于 DBTL 循環(huán)優(yōu)化番茄紅素的生物合成途徑。實(shí)驗(yàn)證明,僅測試不到 1% 的可能變異體就能發(fā)掘高產(chǎn)菌株,其產(chǎn)量超出隨機(jī)篩選法選出的最優(yōu)菌株產(chǎn)量的77%。
由于不同微生物之間的差異,目標(biāo)化合物的產(chǎn)量和合成途徑也可能因底盤的不同而異。除了上述以大腸桿菌作為底盤, Zhou 等基于人工神經(jīng)網(wǎng)絡(luò)和 YeastFab 組裝技術(shù)組合在釀酒酵母中優(yōu)化外源代謝途徑來提高目標(biāo)代謝物的產(chǎn)量。此外, 一種基于貝葉斯優(yōu)化的自動推薦工具—— ART(Automated Recommendation Tool) 使得酵母中色氨酸的效價(jià)和生產(chǎn)率提升比例分別高達(dá) 74% 和 43%。該工具利用機(jī)器學(xué)習(xí)和概率建模技術(shù)以系統(tǒng)的方式指導(dǎo)合成生物學(xué),而無需對生命系統(tǒng)有完整的理解 [59]。Ding 等開發(fā)的生物學(xué)推理系統(tǒng) CF- Targeter 基于已有代謝反應(yīng)庫,利用途徑搜索算法(Pathway- Searching Algorithm) 對每個(gè)目標(biāo)化合物執(zhí)行 1400 000 次搜索,可為指定的目標(biāo)化合物選擇合適的底盤。
2.4 基因組工程
圖 2 人工智能應(yīng)用于合成生物學(xué)的挑戰(zhàn)
隨著基因測序、DNA 合成和基因編輯等技術(shù)的發(fā)展,合成生物學(xué)能對生物體的整個(gè)基因組甚至細(xì)胞進(jìn)行工程改造,從而為直接探測基因型和表型之間的關(guān)系提供新工具,并為了解生物體基因組復(fù)雜功能體系提供一種全新的方式。在基因組工程領(lǐng)域,合成生物學(xué)與計(jì)算機(jī)技術(shù)的最早交互是通過一系列 Perl 腳本設(shè)計(jì)需改造的染色體序列及實(shí)現(xiàn)分層組裝策略。2018 年,Wang 等提出使用計(jì)算機(jī)仿真自上而下地合成最小化基因組,利用混合整數(shù)線性規(guī)劃 (Mixed-Integer Linear Programming) 標(biāo)記已知的必需基因或?qū)е嘛@著適應(yīng)性損失的基因,避免合成致死缺失,并在大腸桿菌中成功驗(yàn)證。
除了基因組合成外, 基因組編輯、微生物組或群落的設(shè)計(jì)也涉及合成生物學(xué)與人工智能技術(shù)的交互。2018 年, DeepCRISPR 通過深度學(xué)習(xí)實(shí)現(xiàn)對 sgRNA 的靶點(diǎn)和靶點(diǎn)外預(yù)測,超越了其他軟件工具的準(zhǔn)確性,這將有助于實(shí)現(xiàn)高靈敏度和高特異性的 sgRNA 優(yōu)化設(shè)計(jì)并應(yīng)用于精準(zhǔn)編輯基因組。人工智能輔助合成生物學(xué)技術(shù)在調(diào)節(jié)腸道益生菌的治療和營養(yǎng)方面也展現(xiàn)出一定價(jià)值。例如,將來自健康人群和腸道疾病患者的腸道微生物組的元基因組數(shù)據(jù)與機(jī)器學(xué)習(xí)算法( 如邏輯回歸、隨機(jī)森林和支持向量機(jī)等 ) 協(xié)同建模,可以更好地促進(jìn)健康、免疫、消化、大腦功能等方面的研究。2021 年,Karkaria 等以合成生物學(xué)中的計(jì)算環(huán)路設(shè)計(jì)為基礎(chǔ),借助近似貝葉斯計(jì)算(Approximate Bayesian Computation) 和蒙特卡洛采樣法的模型選擇和參數(shù)優(yōu)化算法,提出了自動化合成微生物共生系統(tǒng)設(shè)計(jì)器,并構(gòu)建穩(wěn)定的雙菌和三菌共生系統(tǒng)。該方法不但能給出構(gòu)建穩(wěn)定共生系統(tǒng)的基本設(shè)計(jì)原則,而且能揭示控制共生系統(tǒng)組成的關(guān)鍵參數(shù)。
3 人工智能與合成生物學(xué)交叉研究的關(guān)鍵瓶頸及未來方向
人工智能作為一門快速發(fā)展的新興學(xué)科,其數(shù)學(xué)模型的訓(xùn)練主要基于數(shù)據(jù)驅(qū)動。然而,當(dāng)前合成生物學(xué)研究存在數(shù)據(jù)來源廣、數(shù)據(jù)形式異構(gòu)、高質(zhì)量訓(xùn)練數(shù)據(jù)不足等問題,這導(dǎo)致小數(shù)據(jù)稀疏監(jiān)督下人工智能模型難以得到有效訓(xùn)練。鑒于生命系統(tǒng)極其復(fù)雜,很難用傳統(tǒng)數(shù)學(xué)模型精確描述,當(dāng)前技術(shù)仍無法有效預(yù)測復(fù)雜的基因線路。構(gòu)建工程化平臺是合成生物系統(tǒng)的重要研究手段,但當(dāng)前工程化試錯(cuò)存在標(biāo)準(zhǔn)化的數(shù)據(jù)缺乏、海量的試錯(cuò)空間、定量的表征手段較少等問題,且智能化試錯(cuò)、優(yōu)化、學(xué)習(xí)的理論支撐不足,工程化平臺仍無法有效指導(dǎo)合成生物系統(tǒng)的設(shè)計(jì)與改造 ( 圖 2)。本小節(jié)將介紹人工智能技術(shù)與合成生物學(xué)的交叉研究在數(shù)據(jù)標(biāo)準(zhǔn)化、試錯(cuò)智能化、實(shí)驗(yàn)自動化、預(yù)測精準(zhǔn)化方面存在的挑戰(zhàn)。
3.1 數(shù)據(jù)標(biāo)準(zhǔn)化
合成生物工程自動化水平低,很大程度上受限于復(fù)雜的生命系統(tǒng)下用于人工智能模型訓(xùn)練的標(biāo)準(zhǔn)化數(shù)據(jù)。例如,在生物信息系統(tǒng)中,轉(zhuǎn)錄調(diào)控和免疫信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)數(shù)據(jù)通常存在類型不統(tǒng)一、有效數(shù)據(jù)缺乏和數(shù)據(jù)層次多等問題,且現(xiàn)有的KEGG、GO 等公共數(shù)據(jù)庫、公開文獻(xiàn)數(shù)據(jù)及實(shí)驗(yàn)結(jié)果反饋的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,這需要研發(fā)構(gòu)建多源融合的標(biāo)準(zhǔn)合成生物元件信息庫的方法和技術(shù),提供智能化查詢、檢索和推薦等功能。高效利用公開數(shù)據(jù)庫也是為機(jī)器學(xué)習(xí)算法提供訓(xùn)練數(shù)據(jù)的有效手段。在標(biāo)準(zhǔn)化數(shù)據(jù)的支持下,機(jī)器學(xué)習(xí)算法具有挖掘更多生物元件的潛力——采用生物信息學(xué)以及基因數(shù)據(jù)挖掘技術(shù),從已有的元件庫和未知微生物中挖掘更多的生物元件:結(jié)合生物學(xué)實(shí)驗(yàn),將已有的生物元件作為輸入,設(shè)計(jì)并訓(xùn)練機(jī)器學(xué)習(xí)模型,挖掘已有元件的模式,用于指導(dǎo)相應(yīng)元件進(jìn)行修飾、重組和改造,從而生成新的生物元件信息資源。然而,現(xiàn)實(shí)中存在著海量的還未發(fā)現(xiàn)的自然元件數(shù)據(jù),這需要我們研發(fā)用于未知元件數(shù)據(jù)的自動化注釋與標(biāo)注的機(jī)器學(xué)習(xí)方法。
3.2 試錯(cuò)智能化
智能試錯(cuò)利用 DBTL 閉環(huán)中產(chǎn)生的數(shù)據(jù),選擇下一個(gè)迭代的實(shí)驗(yàn)設(shè)計(jì),可以提高實(shí)驗(yàn)數(shù)據(jù)質(zhì)量,減少估計(jì)誤差。上述過程適合利用強(qiáng)化學(xué)習(xí)等優(yōu)化決策理論框架進(jìn)行建模,目標(biāo)是輸出累積獎(jiǎng)勵(lì)最高的實(shí)驗(yàn)設(shè)計(jì)序列。然而,由于合成生物實(shí)驗(yàn)通常時(shí)間跨度大、成本高,DBTL 迭代次數(shù)有限,可用于訓(xùn)練強(qiáng)化學(xué)習(xí)決策模型的數(shù)據(jù)極度不足。因此,解決小數(shù)據(jù)與增量數(shù)據(jù)條件下的方案優(yōu)化問題是合成生物系統(tǒng)設(shè)計(jì)、試錯(cuò)智能化的瓶頸問題。機(jī)器學(xué)習(xí)領(lǐng)域中一些小數(shù)據(jù)集下模型訓(xùn)練的理論框架具有應(yīng)對上述挑戰(zhàn)的潛力:分級強(qiáng)化的理念可減輕由于合成生物系統(tǒng)狀態(tài)和可用改造手段的數(shù)量巨大,導(dǎo)致實(shí)驗(yàn)軌跡數(shù)據(jù)相對稀疏問題;生成對抗學(xué)習(xí)框架產(chǎn)生高質(zhì)量的實(shí)驗(yàn)軌跡可解決稀疏實(shí)驗(yàn)軌跡數(shù)據(jù)帶來訓(xùn)練不足的問題;遷移學(xué)習(xí)框架也可復(fù)用已有相近源域的實(shí)驗(yàn)數(shù)據(jù) / 模型,解決目標(biāo)域由于稀疏實(shí)驗(yàn)軌跡數(shù)據(jù)無法有效訓(xùn)練設(shè)計(jì)策略模型的問題。將上述通用理論框架與合成生物領(lǐng)域場景相結(jié)合,可發(fā)展出一系列服務(wù)于試錯(cuò)智能化的新型機(jī)器學(xué)習(xí)算法。
3.3 實(shí)驗(yàn)自動化
實(shí)驗(yàn)自動化旨在設(shè)計(jì)專用的人工智能技術(shù)以提高 DBTL 閉環(huán)中構(gòu)建和測試兩個(gè)環(huán)節(jié)的構(gòu)建效率和測試質(zhì)量。構(gòu)建環(huán)節(jié)主要依賴于高靈活度的協(xié)議,優(yōu)化構(gòu)建規(guī)劃與資源調(diào)度和提高自動化執(zhí)行的能力。研究機(jī)器人、不確定性環(huán)境下的優(yōu)化規(guī)劃等人工智能技術(shù)可減少人工干預(yù)、提高構(gòu)建的效率。測試環(huán)節(jié)主要檢驗(yàn)基因改造后細(xì)胞的行為是否符合預(yù)期。其中,最大的挑戰(zhàn)是如何準(zhǔn)確建立起基因型與表型之間的聯(lián)系。例如,定量地建立代表性真核細(xì)胞、原生生物、病毒基因型和表型 ( 基因轉(zhuǎn)錄水平、蛋白表達(dá)量、小分子生成量、個(gè)體生存和功能水平 ) 之間的關(guān)系。面向多場景的合成生物自動化設(shè)施的升級、改造和集成等給實(shí)驗(yàn)自動化帶來了巨大的技術(shù)挑戰(zhàn)。實(shí)現(xiàn)實(shí)驗(yàn)自動化可確保高通量的實(shí)驗(yàn)數(shù)據(jù)源源不斷地進(jìn)入 DBTL 閉環(huán)中,驅(qū)動循環(huán),從而促使各個(gè)環(huán)節(jié)中機(jī)器學(xué)習(xí)方法提高性能。
3.4 預(yù)測精準(zhǔn)化
由于合成生物系統(tǒng)復(fù)雜度高 ( 可獲取的數(shù)據(jù)極其復(fù)雜,通常具有數(shù)以萬計(jì)的變量 ),數(shù)據(jù)總量卻嚴(yán)重不足,所以難以訓(xùn)練出一個(gè)高精度的機(jī)器學(xué)習(xí)模型。遷移學(xué)習(xí)是在少量數(shù)據(jù)條件下通過遷移相關(guān)的兩個(gè)或多個(gè)領(lǐng)域之間的知識結(jié)構(gòu)進(jìn)行模型有效訓(xùn)練的一種思路。例如,描述不同合成生物系統(tǒng)生物元件的基因水平上的調(diào)控信息、蛋白質(zhì)水平上的相互作用和翻譯后修飾信息等,可在稀疏數(shù)據(jù)條件下提高預(yù)測準(zhǔn)確性。此外,許多預(yù)測能力強(qiáng)的機(jī)器學(xué)習(xí)模型 ( 圖卷積神經(jīng)網(wǎng)絡(luò)等 ) 存在“黑盒問題”,難以從生物學(xué)角度對模型輸出進(jìn)行解釋,這阻礙了機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)生物學(xué)內(nèi)在機(jī)制的能力。合成生物應(yīng)用存在大量的領(lǐng)域知識,通過融合機(jī)器學(xué)習(xí)模型與領(lǐng)域內(nèi)知識可以更好地理解內(nèi)部機(jī)制,提高預(yù)測的精準(zhǔn)度。而通過對生物內(nèi)部機(jī)制的理解也可為建立全新的人工智能算法帶來啟發(fā),如對進(jìn)化生物學(xué)、腦科學(xué)和行為科學(xué)的研究啟發(fā)了進(jìn)化計(jì)算、人工神經(jīng)網(wǎng)絡(luò)以及強(qiáng)化學(xué)習(xí)等機(jī)器學(xué)習(xí)理論。合成生物系統(tǒng)中通過基因間的精密相互交互,動態(tài)形成調(diào)控網(wǎng)絡(luò),從而產(chǎn)出目標(biāo)因子的工作方式,揭示了粗放型的傳統(tǒng)機(jī)器學(xué)習(xí)模型——依賴大量數(shù)據(jù)、學(xué)習(xí)內(nèi)在模式的方式已無法滿足需求,亟需研究可精確融合領(lǐng)域知識的新型通用機(jī)器學(xué)習(xí)算法框架。
圖 3 基于人工智能的“類合成生物學(xué)家”概念
3.5 四大挑戰(zhàn)間的聯(lián)系
解決數(shù)據(jù)標(biāo)準(zhǔn)化、試錯(cuò)智能化、實(shí)驗(yàn)自動化、預(yù)測精準(zhǔn)化四大挑戰(zhàn)是相輔相成的。解決數(shù)據(jù)標(biāo)準(zhǔn)化挑戰(zhàn),建立起動態(tài)融合的知識庫,可以作為其他三個(gè)方面開展的基礎(chǔ)。其中,高通量實(shí)驗(yàn)數(shù)據(jù)的采集及智能試錯(cuò)技術(shù)進(jìn)行優(yōu)化,可為預(yù)測模型提供數(shù)據(jù)標(biāo)準(zhǔn)。而解決試錯(cuò)智能化的挑戰(zhàn)則可在小數(shù)據(jù)稀疏監(jiān)督下利用人工智能有效指導(dǎo)實(shí)驗(yàn)設(shè)計(jì),提高元件庫中新元件的挖掘效率以及標(biāo)準(zhǔn)化建庫的質(zhì)量;海量設(shè)計(jì)方案空間的優(yōu)化探索,也可提高構(gòu)建合成生物系統(tǒng)預(yù)測模型的效率。解決實(shí)驗(yàn)自動化挑戰(zhàn),實(shí)現(xiàn)高通量實(shí)驗(yàn)來增加訓(xùn)練數(shù)據(jù)總量,從源頭上為智能試錯(cuò)算法和預(yù)測模型緩解小數(shù)據(jù)與稀疏監(jiān)督的問題。解決預(yù)測精準(zhǔn)化挑戰(zhàn),可根據(jù)基因型對合成生物系統(tǒng)表現(xiàn)型進(jìn)行精準(zhǔn)預(yù)測,以此顯著提升強(qiáng)化學(xué)習(xí)模型策略效率,從而減少對真實(shí)實(shí)驗(yàn)數(shù)據(jù)的依賴。解決上述挑戰(zhàn)可助力構(gòu)建基于人工智能完成 DBTL 閉環(huán)的“類合成生物學(xué)家”智能體 ( 圖 3),不斷在循環(huán)過程中進(jìn)行學(xué)習(xí)與試錯(cuò)優(yōu)化,從而在數(shù)據(jù)標(biāo)準(zhǔn)化、實(shí)驗(yàn)自動化、預(yù)測精準(zhǔn)化方面大大降低真實(shí)生物學(xué)實(shí)驗(yàn)的試錯(cuò)空間和成本。
4 總結(jié)與展望
人工智能與合成生物學(xué)交叉融合的研究工作仍處于發(fā)軔之始階段:(1) 常用于實(shí)現(xiàn)智能化元件工程、線路工程、代謝工程和基因組工程的底盤生物仍局限于大腸桿菌和釀酒酵母;(2)全基因組、微生物組或群落水平的智能化設(shè)計(jì)和合成仍寥寥無幾;(3) 人工智能與合成生物學(xué)的融合多發(fā)生于 DBTL 循環(huán)的個(gè)別步驟,而 DBTL 全循環(huán)實(shí)現(xiàn)智能化的研究仍屈指可數(shù)。可喜的是,2020 年國家重點(diǎn)研發(fā)計(jì)劃“合成生物學(xué)”專項(xiàng)立項(xiàng)名單中涌現(xiàn)了一批合成生物學(xué)與智能算法融合的項(xiàng)目,包括“基于合成生物學(xué)的新型活疫苗設(shè)計(jì)與開發(fā)”、“面向合成生物系統(tǒng)海量工程試錯(cuò)優(yōu)化的人工智能算法研究與應(yīng)用”、“數(shù)字細(xì)胞建模與人工模擬”、“新蛋白質(zhì)元件人工設(shè)計(jì)合成及應(yīng)用”、“正交化蛋白質(zhì)復(fù)合物元件的人工設(shè)計(jì)構(gòu)建與應(yīng)用”等。值得關(guān)注的是,“面向合成生物系統(tǒng)海量工程試錯(cuò)優(yōu)化的人工智能算法研究與應(yīng)用”項(xiàng)目通過開發(fā)具有持續(xù)學(xué)習(xí)能力的自動化海量試錯(cuò)優(yōu)化平臺實(shí)現(xiàn) DBTL 全循環(huán)智能化,利用人工智能的優(yōu)勢給工業(yè)合成生物學(xué)和醫(yī)學(xué)合成生物學(xué)領(lǐng)域研究帶來新的思路,并結(jié)合合成生物學(xué)的特色在微藻油脂細(xì)胞工廠、固有免疫細(xì)胞、人造噬菌體三大生物學(xué)應(yīng)用場景下開展人工智能的算法研究。受限于生命系統(tǒng)內(nèi)部機(jī)理復(fù)雜以及合成生物實(shí)驗(yàn)周期長、成本高,以及適合訓(xùn)練人工智能方法的數(shù)據(jù)量極度不足,現(xiàn)有的機(jī)器學(xué)習(xí)方法均不足以支持高精度預(yù)測和實(shí)驗(yàn)設(shè)計(jì)優(yōu)化。因此,研究小數(shù)據(jù) / 零數(shù)據(jù)下的服務(wù)于海量工程試錯(cuò)的強(qiáng)化學(xué)習(xí)模型、具有生物可解釋性的機(jī)器學(xué)習(xí)預(yù)測模型,可同時(shí)促進(jìn)人工智能和合成生物學(xué)兩大領(lǐng)域的發(fā)展。通過數(shù)據(jù)驅(qū)動及持續(xù)學(xué)習(xí),“類合成生物學(xué)家”依照 DBTL 循環(huán)策略,部署多種基于人工智能的工具進(jìn)行工程化的海量試錯(cuò),可在快速合成具備目標(biāo)功能的生命系統(tǒng)的同時(shí)孵化智能技術(shù)的革新。
李敏 1,2# 林子杰 3# 廖文斌 3 陳廷柏 3 李堅(jiān)強(qiáng) 3* 陳 杰 3* 肖敏鳳 1,4*
1 深圳華大生命科學(xué)研究院
2 中國科學(xué)院大學(xué)生命科學(xué)學(xué)院
3 深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院
4 深圳市未知病原體應(yīng)急檢測重點(diǎn)實(shí)驗(yàn)室轉(zhuǎn)載自《集成技術(shù)》
中傳動網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

掃碼關(guān)注小程序
時(shí)刻關(guān)注行業(yè)動態(tài)



填寫郵件地址,訂閱更多資訊:
撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動控制
- 伺服系統(tǒng)
- 機(jī)器視覺
- 機(jī)械傳動
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜