分享一篇發(fā)表在Nature Methods上的文章,文章標(biāo)題為“ A universal language for finding mass spectrometry data patterns”,文章通訊作者是來自于加州大學(xué)河濱分校的Wang Mingxun老師,也是Ometa Labs的創(chuàng)始人。其課題組的主要研究方向是質(zhì)譜數(shù)據(jù)的深度處理并將其應(yīng)用于新型化合物的發(fā)現(xiàn)以及質(zhì)譜數(shù)據(jù)可視化分析。

質(zhì)譜由于能夠多功能的捕獲化學(xué)結(jié)構(gòu)中的眾多的獨(dú)特特征(同位素模式、碎裂離子診斷、中性丟失等)而成為一種強(qiáng)大的分析工具,但是龐大的信息量和極高的復(fù)雜度也為如何有效解釋或充分利用質(zhì)譜數(shù)據(jù)帶來了挑戰(zhàn)。雖然目前已經(jīng)有各種方法對質(zhì)譜結(jié)果中的同位素特征、特征質(zhì)量數(shù)差異(MS1)、串聯(lián)MS數(shù)據(jù)(MS2)中的相關(guān)碎裂模式、色譜保留時(shí)間、碰撞截面以及他們的組合作為特征進(jìn)行檢索。但是通常這些方法要么依賴緩慢且容易出錯的手動檢查,要么依賴為特定化合物或特定類別的MS模式而開發(fā)的專業(yè)軟件。這些定制化的腳本和數(shù)據(jù)檢索方法雖然能夠提供質(zhì)譜數(shù)據(jù)處理時(shí)的靈活性;但是需要編程語言和計(jì)算工具的開發(fā),大大限制了研究人員在質(zhì)譜數(shù)據(jù)集中進(jìn)行數(shù)據(jù)檢索的能力。因此本文介紹一種質(zhì)譜查詢語言(Mass Spectrometry Query Language,MassQL)——這一開源語言通過簡潔而富有表現(xiàn)力的語法,可以在幾乎所有質(zhì)譜數(shù)據(jù)中對任意具有特定特征的化學(xué)分子進(jìn)行檢索;為缺乏軟件開發(fā)和計(jì)算編程背景的用戶提供了查詢復(fù)雜MS的工具,降低了MS數(shù)據(jù)查詢的門檻。

MassQL的第一個(gè)應(yīng)用實(shí)例是Fe載體的發(fā)現(xiàn)。作者通過在天然代謝組中外加Fe,再通過Fe結(jié)合化合物特征的質(zhì)量偏差作為特征在代謝組數(shù)據(jù)中進(jìn)行檢索和鑒定,最終發(fā)現(xiàn)了離子同一性分子網(wǎng)絡(luò)(IIMN)鑒定得到8個(gè)假定鐵載體中的7個(gè)。
進(jìn)一步,作者將數(shù)據(jù)庫范圍擴(kuò)展到GSNP/MassIVE上提供的所有公開高分辨Thermo Fisher Q Exactive數(shù)據(jù),并對檢索得到的MS2使用MS-Cluster去冗余。最終產(chǎn)生7,504張一致性MS2譜圖。通過創(chuàng)建了分子網(wǎng)絡(luò)和與GNPS中的已知譜庫搜索,最終鑒定出441個(gè)(5%)的共有譜圖。作者指出,分子網(wǎng)絡(luò)中的絕大部分(>95%)分析物無法注釋到已知物質(zhì),因此這個(gè)分子網(wǎng)絡(luò)可能是發(fā)現(xiàn)新鐵載體的豐富資源。

另一個(gè)應(yīng)用是環(huán)境中有機(jī)磷酸酯(Organophosphateesters,OPE)的鑒定,作者利用特征的磷酸鹽子離子制定了一個(gè)MassQL查詢流程,搜索m/z 98.9847處的MS2峰,要求該峰具有50 ppm的質(zhì)量數(shù)容差且峰強(qiáng)度 > 基峰的50%。為了識別公共數(shù)據(jù)中的OPE,作者將MassQL查詢擴(kuò)展到GNPS/MassIVE中的所有QExactive數(shù)據(jù),最終發(fā)現(xiàn)338,439個(gè)MS2譜圖與查詢條件匹配。研究人員通過使用Falcon-MS創(chuàng)建了一致性MS2譜圖并利用這些一致性MS2譜圖創(chuàng)建了分子網(wǎng)絡(luò),最終找到了2,777潛在的OPE。作者強(qiáng)調(diào)MassQL在搜索實(shí)際上并非專門尋找OPE,而是更普遍地尋找含有輸入特征的分子。利用分子網(wǎng)絡(luò)的策略將大大補(bǔ)充MassQL結(jié)果對于特定分子類別的分析能力,能夠幫助研究人員更專注于特定的OPE分子家族。
作者團(tuán)隊(duì)提供了MassQL文檔手冊(https://mwang87.github.io/MassQueryLanguage_Documentation/)、教學(xué)視頻(https://www.youtube.com/playlist?list=PLkDps_-pcYZ5D3rhas208dsMg66lCGmcs)、交互式MassQL沙盒(https://massql.gnps2.org/)、大型語言模型驅(qū)動的對話助手(https://massql-analysis.gnps2.org/MassQL_Chatbot)、社區(qū)Wiki綱要(https://massql.gnps2.org/compendium/),用于幫助研究人員使用這一工具。
總的來說,本文介紹了一種質(zhì)譜查詢語言(Mass Spectrometry Query Language,MassQL),可以在幾乎所有質(zhì)譜數(shù)據(jù)中對任意具有特定特征的化學(xué)分子進(jìn)行檢索,其利用簡潔而富有表現(xiàn)力的語言降低了MS數(shù)據(jù)查詢的門檻。
本文作者:YSB
責(zé)任編輯:TZS
DOI:10.1038/s41592-025-02660-z
原文鏈接:https://doi.org/10.1038/s41592-025-02660-z







