分享一篇最近發表在Biomacromolecules上的文章,題目為Understanding Biases in Liquid?Liquid Phase Separation: Investigating Amino Acid Enrichments in Phase-Separating Proteins toward Peptide Design。這篇文章的通訊作者是來自葡萄牙新里斯本大學的Ana S. Pina教授。
液液相分離(LLPS) 是細胞內形成無膜細胞器的關鍵機制,主要由固有無序蛋白/區域 (IDPs/IDRs) 驅動。為了解釋IDPs/IDRs如何驅動LLPS,學界提出了 “stickers-and-spacers” 模型,其中stickers是介導關鍵相互作用的氨基酸殘基,spacers是小側鏈的氨基酸來保證構象柔性,該模型強調,多價相互作用和序列模式(stickers與spacers的排列方式)是決定相分離行為的關鍵。
盡管“stickers-and-spacers” 模型非常成功,但其主要在朊病毒樣RNA 結合蛋白中得到驗證,這種研究對象的局限性導致該模型普適性仍然存疑,也限制了人們對LLPS的理解。在本文中,作者系統地分析了來自不同功能類別的178個相分離蛋白,旨在揭示超越RNA結合蛋白的、更普適的LLPS序列規律,并通過設計合成來驗證規律的可靠性(圖1)。

圖1. 本文工作示意圖。(1) 對相分離蛋白進行分析,以識別和表征重要肽基序;(2) 數據驅動LLPS肽的設計;(3) 濕實驗驗證
作者首先使用LLPSDB 和 PhaSePro 數據庫,篩選出 178個已驗證的相分離蛋白 (PhSePs),并按功能分類,包括RNA 結合、DNA 結合、染色質結合、調控、水解酶和結構蛋白。為了確保有效性,作者還創建了一個負對照數據庫,包含 208 種發生相分離概率低于 20%的蛋白質 (non-PhSePs)。作者使用 FuzDrop 工具對PhSePs中的促液滴生成區域 (DPRs) 和非促液滴生成區域 (NODPRs) 進行了分析。相比于Full protein和NODPRs,DPRs中Gly、Ser、Pro和Ala都明顯增多,并且DPRs中極性氨基酸的比例增多,而疏水性和芳香性殘基的比例減少(圖2)。作者還用CIDER server分析了序列的參數,這些參數包括FCR(帶電氨基酸比例)、NCPR(平均殘基靜電荷)、κ(電荷分布情況)、hydropathy(疏水性)和促無序殘基比例。其中FCR、NCPR在DPR和NODPR中無差異,但κ有明顯差異,DPR中的κ值更高,與固有無序蛋白(IDPs) 數據集類似,表面電荷傾向于形成聚集 (cluster)。另外,疏水性和促無序殘基比例DPR和NODPR也有較大差異,DPR的參數與IDP的參數更類似。

圖2. 氨基酸富集情況。Full protein:包含PhSePs和 non-PhSePs數據庫;DPR和NODPRs:PhSePs數據庫
作者隨后分析了基序頻率,NODPR 區域的殘基呈現出顯著的隨機分布,相比之下,DPR 區域則傾向于表現出明顯更一致和豐富的模式。作者計算了長度為3至6個氨基酸的全部肽基序列 (Motif),并計算了它們在DPR中的出現次數 (Presence) 和出現頻率 (總出現次數);同時作者也在負對照數據集中重復了同樣的過程。作者通過一個組合評分 (CF, 0<CF<1) 來評估Motif相關性,包含了同等權重的PF(presence in DPRs of PhSePs/presence in non-PhSePs)和FF(frequency in DPRs of PhSePs/frequency in non-PhSePs)值。CF值大于0.2的Motif被認為是相關性高的Motif,作者一共發現了129個(圖3C)。
129 個Motif中,三肽占 2%,四肽占 54%,五肽占 31%,六肽占 13%(圖 3B),表明四肽可能為LLPS的最基本單元。根據平均 PF 和 FF 值,四肽出現的頻率最高,其次是三肽和五肽。六肽Motif的Presence較低,但是Frequency較高,表面在某些序列中出現了多次重復(圖3F)。從Motif中可以發現,其中存在著許多同源重復氨基酸如QQQQ、PPPP和GGGG,這些都是IDP內低復雜度區域的特征,表明它們在增強相分離所需的靈活性和動態性方面起著關鍵作用。其他的特點例如,Arg總是與Gly相伴出現,如RGGF、GGRS、GRGGY 和 GGGRGG;His總是與Gln和Pro一起出現如HHP、HQQQ;也存在純負電Motif如DDED、DEDD。這些反復出現的組合可能在促進蛋白質間相互作用起到了關鍵作用。雖然大多數Motif在前人工作中有報道,本文章發現了一些新的Motif包括HHP, QPN, PAPA, AAPA, SAPA, GAPG, GPGS, QQPP, QGPG, PSGP, PPQG, PPSS, SSDS, SSAP, DSSS, DDED, 和 DEDD。

圖3. A) Presence和Frequency的示意圖;B) 129個發現的肽基序的長度分布;C) 129個肽基序;D) 基序在PhSePs中存在(Presence)的比例;E) 肽基序CF值的分布;F) 肽基序Presence和Highest frequency分布
作者隨后探究了LLPS相關基序是否具有蛋白家族特異性。不同家族對基序長度的偏好不同。例如,RNA/DNA結合蛋白偏好更長的五/六肽,染色質結合蛋白則更偏好三/四肽,而調節蛋白則傾向于中等長度的四肽和五肽(圖4A)。并且不同家族的基序在存在性和頻率上展現出獨特的模式,例如RNA結合蛋白富含 RG/RGG Motif 和 YGG/FGG Motif;DNA結合蛋白富含 YSPTSPSY衍生Motif和 Ser/Gly-rich Motif;染色質結合蛋白富含帶正電的殘基Motif,利于與帶負電的DNA/組蛋白相互作用;調控蛋白富含 Gln-rich、Gly-rich 和 Pro-rich Motif,與轉錄激活域相關;水解酶Motif中含有催化殘基,暗示LLPS與酶活性的潛在關聯;結構蛋白中則富含 Val/Pro-rich Motif,與彈性蛋白樣多肽高度相似,負責彈性和相變。

圖4. 不同蛋白家族的motif情況
相分離是由蛋白中多個LLPS-prone Motif協同工作導致的,因此作者設想將那些在天然蛋白中經常一起出現的基序組合起來,設計成短肽,應該也能賦予其LLPS能力。作者首先從129個Motif中,選出所有可能的3個一組的組合,例如組合(Motif A, Motif B, Motif C),隨后計算它們共同出現的頻率,最終分數FS越高表明三者越容易共同出現。最后排列組合,生成了平均長度為12個氨基酸的短肽序列庫。隨后再用CIDER工具計算這些設計肽的物理化學參數,進一步篩選出序列特征最接近天然IDRs的肽段,形成最終的候選肽庫(圖5,表1)。

圖5. LLPS肽設計示意圖
表1. 設計得到的短肽序列

隨后作者實驗上合成了這些短肽,并驗證了它們形成液滴的能力,結果表明所有設計的肽段在1-10 mg/mL濃度下均能形成液滴;FRAP實驗表明所有液滴均具有液體特性(圖6),但恢復百分比差異顯著:高FS分數肽段恢復較慢,表明液滴內部相互作用更強,網絡更穩定。低FS分數肽段恢復更快,表明液滴流動性更好,分子交換更迅速。含Pro的肽段恢復率普遍更高,提示Pro可能通過引入扭結結構增強液滴流動性。

圖6. LLPS肽FRAP實驗
總的來說,這篇文章揭示了與LLPS 相關的序列具有復雜的結構,其中包括已知的和之前未被識別的模式,并提出了一種可推廣的肽設計框架,可實現LLPS肽的設計。
作者:ZHS
DOI: 10.1021/acs.biomac.4c00224
Link: https://doi.org/10.1021/acs.biomac.4c00224







