繼2021年9月聯(lián)合華為云發(fā)布蛋白質(zhì)多序列比對(duì)開(kāi)源數(shù)據(jù)集后,北京大學(xué)化學(xué)與分子工程學(xué)院、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、昌平實(shí)驗(yàn)室、深圳灣實(shí)驗(yàn)室高毅勤課題組在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域再次取得突破性進(jìn)展。近日,他們聯(lián)合華為昇思MindSpore團(tuán)隊(duì)推出了基于AlphaFold2算法的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)推理工具,相關(guān)模型代碼依托于華為全場(chǎng)景AI計(jì)算框架MindSpore進(jìn)行開(kāi)源開(kāi)放、定期擴(kuò)展與維護(hù),旨在為全世界相關(guān)的產(chǎn)、學(xué)、研團(tuán)隊(duì)提供優(yōu)質(zhì)的國(guó)產(chǎn)軟硬件解決方案。
蛋白質(zhì)在分子生物學(xué)的中心法則中具有重要地位,在各種生命過(guò)程中不可或缺,但是傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)解析實(shí)驗(yàn)難度大,而計(jì)算機(jī)預(yù)測(cè)方法則一直存在計(jì)算精度不足的缺陷。2020年谷歌DeepMind團(tuán)隊(duì)發(fā)布了人工智能蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型AlphaFold2【1】,使得計(jì)算機(jī)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具精度可與實(shí)驗(yàn)方法相媲美,被Nature等雜志喻為“前所未有的進(jìn)步”。本次高毅勤課題組推出的蛋白結(jié)構(gòu)預(yù)測(cè)工具依托華為昇思MindSpore,可對(duì)氨基酸序列長(zhǎng)度2000+的蛋白質(zhì)結(jié)構(gòu)進(jìn)行解析,能覆蓋約99%以上的蛋白序列【2】。同時(shí),借助異構(gòu)計(jì)算架構(gòu)CANN(Compute Architecture for Neural Network)釋放昇騰AI處理器的澎湃算力,通過(guò)軟硬件協(xié)同優(yōu)化大大提高了蛋白質(zhì)預(yù)測(cè)的計(jì)算效率。參考DeepMind于2021年7月份開(kāi)源的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型AlphaFold2【3】,本次開(kāi)源的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)推理工具模型部分與其相同,在多序列比對(duì)階段則采用了MMseqs2進(jìn)行序列檢索【4】,相比于原版算法端到端運(yùn)算速度有2-3倍的提升。準(zhǔn)確、快速的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)不僅可以在學(xué)術(shù)研究領(lǐng)域幫助科學(xué)家快速獲得或驗(yàn)證關(guān)鍵蛋白結(jié)構(gòu),從而促進(jìn)人們對(duì)重要生命過(guò)程分子機(jī)理的理解,而且在醫(yī)療健康和生物工程領(lǐng)域也將作為有力的工具,引發(fā)藥物靶點(diǎn)發(fā)現(xiàn)、功能蛋白設(shè)計(jì)(如抗體和人工酶)以及大分子(蛋白)或小分子藥物高通量虛擬篩選的革命。

圖1 昇思MindSpore模型與AlphaFold2精度對(duì)比

圖2 通過(guò)昇思MindSpore預(yù)測(cè)的T1079(綠色代表實(shí)驗(yàn)結(jié)構(gòu),紅色代表預(yù)測(cè)結(jié)構(gòu))
針對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)及折疊問(wèn)題,聯(lián)合團(tuán)隊(duì)未來(lái)還會(huì)發(fā)布創(chuàng)新的全棧(算法+軟件+硬件)國(guó)產(chǎn)自主可控技術(shù),同時(shí)也會(huì)牽手更多的學(xué)術(shù)科研界合作伙伴,在計(jì)算生物、計(jì)算材料、工業(yè)仿真等更廣泛的科學(xué)計(jì)算領(lǐng)域深耕,促進(jìn)國(guó)內(nèi)相關(guān)基礎(chǔ)研究的發(fā)展。
【1】Jumper J, Evans R, Pritzel A, et al. Applying and improving AlphaFold at CASP14[J]. Proteins: Structure, Function, and Bioinformatics, 2021.
【2】https://ftp.uniprot.org/pub/databases/uniprot/previous_releases/release-2021_02/knowledgebase/UniProtKB_TrEMBL-relstat.html
【3】Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596(7873): 583-589.
【4】Mirdita M, Ovchinnikov S, Steinegger M. ColabFold-Making protein folding accessible to all[J]. BioRxiv, 2021.
代碼開(kāi)源路徑:
https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/mindsponge/fold
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點(diǎn)或證實(shí)其描述。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn