推薦一篇發表在 ACS Synthetic Biology 上的文章,文章標題是“Deep-Learning-Guided Mining and Clustering of Remote Amino Acid Residues for the Simultaneous Engineering of the Catalytic Activity and Thermostability of a Processive Endoglucanase”。其通訊作者是來自南京工業大學的吳斌研究員。在這項研究中采用了多種深度學習模型,通過聚類分析和貪婪算法的結合優化了氨基酸取代的組合最終鑒定出完全由取代殘基組成的精英變體 M8(R23Q/E43Q/K91I/K191P/A198T/Q237D/V240P/S245A)。與野生型酶相比,M8 對可溶性底物羧甲基纖維素-Na(CMC)和不溶性底物磷酸溶脹纖維素(PASC)的催化效率(kcat/Km)分別提高了 10 倍和 5 倍,同時增強了最佳溫度和熱穩定性。分子機制分析表明,所有遠端取代殘基都增強了動態耦合和配位,主要影響底物袋附近三個環的構象。這些結構變化調節了底物結合和產物釋放,從而有助于提高催化效率(kcat/Km)。

目前對過程性內源葡聚糖酶的研究主要集中在兩個方向上,即通過調節碳水化合物結合模塊(CBM)來增強酶的底物加工能力,和活性位點區域周圍的結構優化(例如,通過調節底物結合袋內的氨基酸組成或重塑底物通道結構)。然而,仍然缺乏有效和通用的方法來識別和修改活性位點區域之外的關鍵調控殘基。在此背景下,機器學習輔助定向進化 (MLDE) 提供了應對蛋白質工程挑戰的新方法,該方法利用機器學習(ML)模型來預測攜帶側鏈取代的變體的適應性,通過理論上重建適應度景觀,能夠在復雜序列空間中識別出更有希望的變體,從而有效指導實驗室進化。來自枯草芽孢桿菌 BS-5 的 GH5 家族內切葡聚糖酶 EG5C-1,它在許多研究的過程性內源葡聚糖酶中表現出高催化活性。本文根據纖維素酶的特點對 DeepSequence 模型進行了再訓練,并結合 MutCompute 和 ESM-1v 對酶進行了綜合分析,構建了一個基于適應度評分的由 101 個突變點組成的小型變體庫。通過結合氨基酸取代信息并使用分層聚類,識別了潛在的協同替代組合,并進一步應用貪婪算法來指導突變堆疊過程。最終,獲得了克服傳統方法中常見的活性和穩定性之間權衡的變體 M8,同時提高了對可溶性和不溶性底物的催化效率和熱穩定性。此外,本文還對蛋白質結構進行了比較分析,并將其與分子動力學(MD)模擬相結合,以闡明催化效率提高的分子機制。 圖 1 用于變異預測和組合篩選的綜合工作流程
考慮到內源葡聚糖酶通常具有多結構域結構,并且本研究側重于其催化結構域(CD),作者使用 HMM 工具注釋了 8,638 個 GH5 家族內切葡聚糖酶序列的結構,去除了碳水化合物結合模塊(CBM)等非催化區域,僅保留催化結構域部分。隨后,作者根據序列長度分布過濾掉異常序列(240-275aa)。重新訓練了 DeepSequence 模型同時還引入了兩個互補模型:基于原子微環境的 MutCompute 和基于蛋白質語言模型的 ESM-1v。這三種方法從不同的角度處理問題,即共同進化、局部結構環境和序列語言表示, 最終分別確定了 47 個、30 個和 45 個候選替換位點。總體而言,本文構建了一個包含 101 個獨特變體的文庫,并進行了定點誘變。經過多輪迭代篩選,得到最佳組合 M8(R23Q/E43Q/K91I/K191P/A198T/Q237D/V240P/S245A),其對 CMC 的特異性酶活性提高了 7 倍,對 Avicel 的水解活性提高了 4 倍。
圖 2 EG5C-1 三維結構上所有變體的分布及野生型 EG5C-1 和變體 M8 單體內原子對的 DCCM 圖譜。
為了闡明變體 M8 催化效率提高的分子機制,使用 Alphafold2 算法構建了 EG5C-1 的三維結構。然后使用 AutoDock 1.5.7 將纖維己糖 (PDB ID: 5CVY) 對接到活性位點,然后進行 100 ns 分子動力學 (MD) 模擬。所有取代位點都位于活性位點袋之外,R23Q 取代位于距底物 30?以上的地方。事實上,動態互相關矩陣(DCCM)分析證實,遠端替換顯著增加了與活性位點口袋的這三個關鍵環區域的相關性。
圖 3 MD 模擬中環 1(殘基 230-241)構象的演變
從模擬軌跡中選擇 0、30、50、70 和 100 ns 的采樣點,分析環 1 的構象變化,比較野生型和變異型 M8 在各時間點的構象差異。在變體 M8 中,環 1 經歷了向內旋轉并靠近基板。此外,在變體 M8 中,環路 1 和基板之間的距離分布變得更加集中,振蕩幅度顯著降低。這種變化可能歸因于脯氨酸取代了位置 240 的纈氨酸,這引入了更大的剛性并限制了主鏈的運動,從而減少了環和基板之間的相對振蕩。
圖 4 構象分析
進一步分析表明,在變體 M8 中,質子供體殘基 E140 與 G(+1)位點(d1)處的 O 原子之間的距離明顯更短,這可能促進更有效的質子轉移。同時,親核試劑 E228 與 G(?1)吡喃糖單元(d2)的 C1 原子之間的距離也比野生型 EG5C-1 短,可能有助于形成催化更有利的構象,從而提高親核攻擊的效率,從而提高反應速率。此外,變體 M8 表現出 E140 和 E228 與底物之間的相互作用頻率顯著增加,這也與其觀察到的提高催化效率一致。
圖 5 MD 模擬中環 2 和環 3 構象的演變
在 0、30、50、70 和 100 ns 處對構象進行采樣。正如預期的那樣,在循環 2 和循環 3 中觀察到顯著的動態波動。對環和糖環之間的距離變化的分析表明,變體中的環多次遠離糖環。增加的構象柔韌性和增強的振蕩的組合有利于產物釋放,這一假設得到了變體 M8 中底物的環和葡萄糖環之間較低的相互作用能的進一步支持。因此,提高產物釋放效率可能是觀察到的變體 M8 催化效率提高的主要因素之一。
圖 6 在元動力學模擬期間,每 10 ns 采樣一次活性位點口袋內底物滑動的快照
采用元動力學系統分析了野生型 EG5C-1 與其變體 M8 之間纖維素鏈過程滑動行為的差異。根據 Knott 等人提出的“預滑模式”,產物結合位點(-1 至 -3)為空位,而非產物結合位點(+1 至 +3)被底物糖鏈占據。基于該模型,構建了 EG5C-1 和 M8 的預滑構象。在每個系統經過 100 ns 的分子動力學模擬以達到構象穩定性后,最終結構被用作元動力學模擬的起點。如圖 6 所示,在 30 ns 的模擬過程中,M8 中的底物鏈向前滑動了四個糖環,達到了 -1 至 +1 個子位點,而野生型 EG5C-1 僅滑動了兩個糖環,表明 M8 表現出更高的過程滑動效率。遠端氨基酸取代調節活性位點袋的構象,有效地引導底物進入反應性更強且更適合過程催化的構象。 在這項研究中,通過基于深度學習的遠程氨基酸取代挖掘和聚類,成功地提高了過程內切葡聚糖酶 EG5C-1 的催化效率和合成能力。遠端氨基酸取代通過遠程相互作用調節活性口袋區的構象,從而提高催化效率。使用這種方法,獲得了高性能變體 M8 (R23Q/E43Q/K91I/K191P/A198T/Q237D/V240P/S245A)。與野生型 EG5C-1 相比,變體 M8 的催化效率顯著提高,可溶性底物 CMC 和底物 PASC 的催化效率分別提高了 10 倍和 5 倍。使用野生型 EG5C-1 和變體 M8 的分子動力學(MD)模擬表明,遠端氨基酸的變化會影響活性口袋附近三個環區域的構象,導致口袋的重塑。這種構象改變進一步調節了底物的結合模式,誘導底物采用有利于催化的 V 形構型,同時減小了催化殘基與底物之間的攻擊距離,從而顯著提高了催化效率。 本文作者:WSJ 原文鏈接: https://pubs.acs.org/doi/10.1021/acssynbio.5c00454







