国产女人喷潮视频在线观看,国产精品欧美成人片,91九色国产成人久久精品,成在线人免费无码高潮喷水,亚洲日韩成人无码不卡网站,久久久久国产一级毛片高清板,国产一二视频,丰满少妇av无码区,久久永久免费人妻精品我不卡 ,国产伦子系列沙发午睡

歡迎來到合成化學(xué)產(chǎn)業(yè)資源聚合服務(wù)平臺化學(xué)加!客服熱線 020-29116151、29116152

北大與華為云聯(lián)合發(fā)布蛋白質(zhì)多序列比對開源數(shù)據(jù)集

來源:北京大學(xué)化學(xué)與分子工程學(xué)院      2021-09-16
導(dǎo)讀:近日,北京大學(xué)化學(xué)與分子工程學(xué)院、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、深圳灣實驗室高毅勤教授課題組與華為聯(lián)合推出蛋白質(zhì)多序列比對(Protein MSA)數(shù)據(jù)集

近日,北京大學(xué)化學(xué)與分子工程學(xué)院、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、深圳灣實驗室高毅勤教授課題組與華為聯(lián)合推出蛋白質(zhì)多序列比對(Protein MSA)數(shù)據(jù)集,希望在標準化的數(shù)據(jù)集基礎(chǔ)上,支撐研究人員開發(fā)先進的AI模型,加深對蛋白質(zhì)結(jié)構(gòu)、功能和進化的認知,并進行蛋白設(shè)計與改造。此數(shù)據(jù)集將發(fā)布于華為云AI Gallery平臺,相關(guān)代碼及數(shù)據(jù)集說明將依托于華為全場景AI計算框架MindSpore進行開源開放、定期擴展與維護,旨在為全世界相關(guān)的產(chǎn)、學(xué)、研團隊提供優(yōu)質(zhì)的數(shù)據(jù)共享解決方案。

本次開源的Protein MSA數(shù)據(jù)集完全覆蓋最新版本(2021年2月發(fā)布)的UniRef50數(shù)據(jù)庫中的蛋白質(zhì)序列,采用學(xué)術(shù)界的“金標準”搜索方法,對約0.5億條蛋白序列進行了充分的MSA搜索與比對(MSA平均深度大于1000),是目前世界范圍內(nèi)規(guī)模最大、參考數(shù)據(jù)集最新、覆蓋度最廣的開源蛋白質(zhì)MSA數(shù)據(jù)集(之前最大的開源MSA數(shù)據(jù)集包含10萬個蛋白MSA)【1】。

人類已知的蛋白質(zhì)序列已經(jīng)超過4.4億條,但僅憑這些蛋白質(zhì)單序列數(shù)據(jù)庫,很難了解蛋白之間的關(guān)系。Protein MSA數(shù)據(jù)庫是一個對不同蛋白質(zhì)序列之間的關(guān)系進行了標記的大規(guī)模“關(guān)系型”數(shù)據(jù)庫,被標記為關(guān)聯(lián)的蛋白質(zhì)序列之間的相似度、進化關(guān)系、突變所在位點的分布等信息對蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測極為重要。

   為了更好地服務(wù)于跨領(lǐng)域的研究人員,Protein MSA數(shù)據(jù)集將被組織成具有多重形態(tài)的數(shù)據(jù)格式。原始數(shù)據(jù)集(近30T)將以UniRef系列數(shù)據(jù)庫【2】和UniClust數(shù)據(jù)庫【3】的標準文本形式存儲,并按照序列長度進行分割與壓縮。為了便于AI領(lǐng)域的研究人員直接使用,Protein MSA數(shù)據(jù)集還會將文本格式的數(shù)據(jù)集轉(zhuǎn)化為浮點數(shù)張量類型壓縮存儲,并對已有的AI框架如MindSpore進行數(shù)據(jù)接口的支持。

高毅勤教授表示:“我們鼓勵并期待來自生物信息學(xué)、數(shù)據(jù)科學(xué)和AI研究等領(lǐng)域的專家和人才充分碰撞與合作,引入、改進或設(shè)計全新的AI模型,來充分地挖掘Protein MSA數(shù)據(jù)集中所隱藏的‘自然的秘密’”。

從科學(xué)的角度看,MSA的數(shù)量和質(zhì)量很大程度上影響了目前最先進結(jié)構(gòu)模型的預(yù)測速度和精度,而且產(chǎn)生MSA的非參數(shù)化算法仍是諸多蛋白預(yù)測方法中決定速度的主要步驟之一。因此,Protein MSA數(shù)據(jù)庫本身可以作為這些結(jié)構(gòu)預(yù)測模型的預(yù)訓(xùn)練材料,用來挖掘序列信息甚至快速生成新的序列特征,這對解決研究、設(shè)計蛋白質(zhì)中所面臨的高變異序列和孤兒序列等問題具有巨大的潛在價值。

此次數(shù)據(jù)庫的發(fā)布,依托于華為云AI Gallery平臺,能夠充分保障國內(nèi)外用戶對于數(shù)據(jù)集的訪問和下載,并提供可持續(xù)更新與擴充的先進數(shù)據(jù)維護方案以及下游AI應(yīng)用與部署的相關(guān)支持,融合了產(chǎn)、學(xué)、研相結(jié)合的研究模式的優(yōu)勢。此外,高毅勤課題組也與華為聯(lián)合開發(fā)并開源了首個國產(chǎn)分子動力學(xué)軟件MindSponge,希望未來該軟件能在材料、生物、醫(yī)藥等領(lǐng)域得到廣泛的應(yīng)用。

附:

數(shù)據(jù)集開源說明:

https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/protein_msa


數(shù)據(jù)集下載地址:

https://marketplace.huaweicloud.com/markets/aihub/datasets/detail/?content_id=5802def2-5fbd-40da-85d8-a4541d1c6f1e


【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.

【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., S?ding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.


聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn

国产一级r片内射免费视频| 欧洲免费精品视频在线| 亚洲大尺度无码无码专线| аⅴ天堂中文在线网| 亚洲欧洲日产国码久在线| 中文字幕中国女同互慰视频| 十八禁国产一区二区三区| 无遮挡一级毛片视频| 日产乱码一区二区三区在线| 亚洲 欧美 综合 在线 精品| 亚洲中文字幕久久精品蜜桃| 国内精品手机在线观看视频| 久久久久国产一级毛片高清板| 国产普通话一级毛片| 色欲AV无码一区二区人妻| 国内精品伊人久久久久AV一坑| 久久不见久久见免费视频观看| 国产成人免费午夜在线观看| 亚洲成av人片在线观看| 国产精品小蝌蚪福利| 蜜桃一区二区三区自拍视频| 国产中文一区a级毛片视频| 美女张开腿让男生桶出水| 亚洲午夜免费福利视频| 嫩草研究院久久久精品| 亚洲欧洲中文日韩久久av乱码 | 国产精品毛片一区二区| 美女视频黄频大全视频| 99精品人妻少妇一区| 最新国产成人在线| 国产你懂得| 国产美女精品自在线拍免费| 少妇办公室好紧好爽再浪一点| 狠狠躁夜夜躁人人爽天天bl| 精品视频一区二区| 亚洲中文字幕久久无码精品| 亚洲国产精品成人天堂| 国产精品久久国产三级国不卡顿| 免费啪视频观在线视频浴室| 欧美成a人片在线观看| 成人午夜免费无码视频在线观看|