推薦一篇發布在Science上的文章,文章標題“Scalable emulation of protein equilibrium ensembles with generative deep learning“,文章的通訊作者是來自微軟研究院AI4Science的Frank Noé。

在不同構象狀態之間轉變是蛋白質功能的一個關鍵決定因素,然而定量檢測這種構象轉變是一個艱巨的任務。目前已有的實驗方法,如用于測量分子內距離的單分子實驗、用于解析復合物結構多種構象狀態及其概率的冷凍電鏡實驗等等,既耗時又費財。分子動力學模擬(MD)原則上能夠以全原子分辨率研究蛋白質的結構分布,然而其計算成本依然過高。本文作者基于生成式深度學習模型開發了BioEmu,以實現在蛋白質平衡態構象分布的近似采樣。
開發此類模型的一個主要挑戰是缺乏用于描述蛋白質平衡態分布的高質量數據集。為此,作者整合不同來源的數據庫用于訓練。具體而言,首先通過序列聚類和結構聚類將AFDB縮減為具有多樣化結構的50 K簇用于預訓練;隨后提供數千種中小型蛋白的MD全原子模擬數據(超過200毫秒的模擬);最后在MEGAscale數據集進行微調。值得一提的是,MEGAscale數據集是一個包含約500 K個蛋白的、體外測量蛋白質穩定性的實驗數據集。通過微調技術,有望將實驗測量值納入擴散模型訓練中。

隨后,作者測試了BioEmu能否預測已知的構象變化,以及能否模擬長時間尺度的MD分布。對于前者,作者在包含約100個蛋白的數據集上測試得到BioEmu能夠較高的準確率預測蛋白質結構域的運動、發現蛋白質中隱藏的口袋。對于后者,作者使用Anton超級計算機生成了12種蛋白的MD軌跡;使用“留一交叉驗證法”對BioEmu進行微調和評估。結果表明,模型以4到5個數量級的加速預測得到了相似于MD模擬的自由能景觀。

總的來說,本文作者開發了一個基于深度學習的方法BioEmu以模擬蛋白平衡態的構象系綜。該方法可能為后續識別藥物結合口袋、解析蛋白質功能的結構機制提供幫助。
本文作者:ZF
責任編輯:MB
DOI:10.1126/science.adv9817
原文鏈接:https://doi.org/10.1126/science.adv9817







