藥明康德AI/報告
就在幾個月前,DeepMind推出了AlphaFold系統,在生物學上被稱為“AlphaGo”,可以預測并生成蛋白質的3D結構。最近,來自麻省理工學院的研究人員開發了一種新的研究模型,可以直接預測氨基酸鏈片段如何決定蛋白質的功能。這一發現可以幫助研究人員設計和測試新的蛋白質,這些蛋白質可以用于藥物開發和生物學研究。
眾所周知,蛋白質是維持我們生命所必需的巨大而復雜的物質。蛋白質能完成什么樣的功能,主要取決于其獨特的三維結構。因此,了解蛋白質的結構是預測其對某些藥物反應的一個非常重要的環節。
然而,盡管經過幾十年的研究和各種成像技術的輔助,我們仍然只知道眾多蛋白質結構中的一小部分,許多未知結構的蛋白質功能尚未揭示。針對這種情況,麻省理工學院的研究人員開發了一種方法來“學習”蛋白質序列中每個氨基酸位置的簡單計算表示。隨后,研究人員將這些表示輸入到機器學習模型中,使得模型可以在沒有任何蛋白質結構數據的情況下,直接預測單個氨基酸片段的功能。
首先,研究人員使用了蛋白質結構分類數據庫(SCOP)中約22000種蛋白質,根據結構和氨基酸序列的相似性對這些蛋白質進行分類,并訓練機器學習模型。對于每對蛋白質,研究人員將根據其SCOP類別計算結構相似性得分。然后,研究人員將隨機的蛋白質結構對及其氨基酸序列輸入到機器學習模型中,通過編碼器轉換成數值,這就是所謂的嵌入。每個插入包含一對氨基酸序列的相似性信息。
該模型將兩個嵌入物對齊,然后計算相似性得分來預測蛋白質三維結構的相似性。然后,計算機將這個分數與真實SCOP相似性分數進行比較,并向編碼器發送反饋信號。如果模型的預測得分與真實得分相差甚遠,就會進行一些調整。
同時,該模型預測每個嵌入的接觸圖,即蛋白質中每個氨基酸與其他氨基酸之間的距離,將預測的接觸圖與來自SCOP的已知接觸圖進行比較,然后向編碼器發送反饋信號。這一步有助于模型更好地定義氨基酸在蛋白質結構中的確切位置,從而進一步了解每個氨基酸的功能。
對于氨基酸鏈,該模型可以為三維結構中的每個氨基酸位置生成嵌入。然后,機器學習模型可以利用這些序列,根據其預測的三維結構聯系圖,嵌入并準確預測每個氨基酸的功能。在一個應用實例中,研究人員利用該模型預測哪種蛋白質可以穿過細胞膜,預測結果比現有的高級模型更加準確。
接下來,研究人員計劃將該模型應用于更多的預測任務,例如計算出哪些序列片段可以與小分子結合,這對藥物研發至關重要。研究人員表示,這項研究最終將應用于人類健康和藥物基因組學,因為它有助于檢測破壞蛋白質結構的有害突變。
參考資料:
[1]貝普勒等,(2019)。利用結構信息學習蛋白質序列嵌入。ICLR 2019,arXiv:1902.08661
[2]麻省理工學院CSAIL的人工智能通過氨基酸鏈預測蛋白質的功能。檢索于2019年3月26日,來自
[3]模型了解單個氨基酸如何決定蛋白質功能。檢索于2019年3月26日,來自
原標題:從氨基酸鏈片段可以直接預測蛋白質功能!生物學上有沒有比“AlphaGo”更強大的模型?