上期內(nèi)容詳細(xì)介紹了基于質(zhì)譜的蛋白質(zhì)實(shí)驗(yàn)流程的樣本準(zhǔn)備及LC-MS/MS分析(長(zhǎng)篇綜述|基于質(zhì)譜的蛋白質(zhì)組學(xué)簡(jiǎn)介(上)),本期將進(jìn)一步介紹數(shù)據(jù)分析及蛋白質(zhì)組學(xué)的前沿發(fā)展。
英文標(biāo)題:An Introduction to Mass Spectrometry-Based Proteomics
期刊:Journal of proteome research
發(fā)表時(shí)間:2023年7月7日
圖1. 基于質(zhì)譜的蛋白質(zhì)組學(xué)概述(圖源:Shuken, J Proteome Res, 2023)
01.數(shù)據(jù)分析:多肽鑒定
單次LC-MS/MS運(yùn)行產(chǎn)生的原始數(shù)據(jù)集是一個(gè)大的光譜集合,每個(gè)光譜都有保留時(shí)間、m/z值、強(qiáng)度和元數(shù)據(jù)。采用MaxQuant或Proteome Discoverer(Thermo Fisher Scientific)等軟件包處理這些數(shù)據(jù),生成肽和/或蛋白質(zhì)列表,每個(gè)識(shí)別都有一個(gè)分?jǐn)?shù)。大多數(shù)非靶向的自下而上的DDA蛋白質(zhì)組學(xué)實(shí)驗(yàn)中使用的最常見(jiàn)的肽鑒定方法為數(shù)據(jù)庫(kù)搜索(圖2)。
圖2. 數(shù)據(jù)庫(kù)搜索的簡(jiǎn)化概述(圖源:Shuken, J Proteome Res, 2023)
數(shù)據(jù)庫(kù)搜索開(kāi)始于用戶(hù)將原始數(shù)據(jù)文件連同已知參考蛋白質(zhì)組/數(shù)據(jù)庫(kù)作為文本文件加載到軟件中,通常采用FASTA格式。Uniprot.org擁有許多物種的參考蛋白質(zhì)組,廣泛用于人類(lèi)和小鼠;某些物種可選用其它數(shù)據(jù)庫(kù)。通過(guò)數(shù)據(jù)庫(kù)搜索,數(shù)據(jù)處理軟件預(yù)測(cè)通過(guò)酶切(最常見(jiàn)的是胰蛋白酶和LysC)從數(shù)據(jù)庫(kù)中的蛋白質(zhì)中產(chǎn)生的所有肽,并預(yù)測(cè)相應(yīng)的電荷特異性肽離子(前體)的MS2光譜,作為肽的“指紋”。將這些預(yù)測(cè)肽及其預(yù)測(cè)光譜與實(shí)驗(yàn)光譜進(jìn)行比較,得出肽譜匹配(psm)(圖2)。在控制錯(cuò)誤發(fā)現(xiàn)率(FDR)后,完成肽鑒定。
例如,小鼠己糖激酶1(Hexokinase-1)的氨基酸序列如圖3所示,其中胰酶和LysC可能靶向的切割位點(diǎn)用橙色星號(hào)突出顯示。下劃線綠色區(qū)域由在小鼠腦組織LC-MS/MS分析中鑒定的肽序列組成。請(qǐng)注意,所有帶下劃線的區(qū)域都以精氨酸(R)或賴(lài)氨酸(K)殘基結(jié)尾。圖3中突出顯示的肽(NILIDFTK)的MS2譜在圖4中進(jìn)行了注釋。與預(yù)測(cè)片段離子相匹配的峰用藍(lán)色“b”或紅色“y”標(biāo)記,并用整數(shù)表示片段的氨基酸長(zhǎng)度。
圖3. 小鼠Hexokinase-1的氨基酸序列(圖源:Shuken, J Proteome Res, 2023)
圖4. 片段m/z值、帶注釋的MS2譜,以及圖3中突出顯示的片段序列(NILIDFTK)
1.1 數(shù)據(jù)庫(kù)搜索算法示例:SEQUEST的簡(jiǎn)化描述
SEQUEST是1994年出版的首個(gè)全自動(dòng)肽識(shí)別軟件。圖5演示了SEQUEST算法的簡(jiǎn)化概念。首先,對(duì)參考蛋白質(zhì)組預(yù)測(cè)的肽進(jìn)行過(guò)濾,以便只考慮與分離的斷裂離子的m/z值相似的前體(即電荷狀態(tài)特異性肽離子),然后生成理論光譜(圖5,頂部)。通過(guò)將實(shí)驗(yàn)光譜與預(yù)測(cè)片段的m/z值進(jìn)行粗略比較,理論光譜被快速過(guò)濾,匹配片段的數(shù)量、MS2強(qiáng)度和其它相關(guān)特征組合成一個(gè)分?jǐn)?shù),僅保留基于該分?jǐn)?shù)的前500個(gè)理論光譜(圖5,步驟1)。通過(guò)消除前體峰,將光譜劃分為十個(gè)相等的區(qū)域,并將每個(gè)區(qū)域的強(qiáng)度歸一化為相同的值來(lái)調(diào)整實(shí)驗(yàn)光譜(圖5,步驟2),這一步使實(shí)驗(yàn)光譜更接近理論光譜,減少了構(gòu)建理論光譜時(shí)忽略的可變碎片化效率的。通過(guò)將每個(gè)m/z值處的強(qiáng)度相乘并將乘積相加,計(jì)算實(shí)驗(yàn)光譜與每個(gè)理論光譜之間的相互關(guān)系(圖5,步驟3)。
圖5. 簡(jiǎn)化了原SEQUEST數(shù)據(jù)庫(kù)搜索算法的方案(圖源:Shuken, J Proteome Res, 2023)
1.2 肽鑒定中的FDR控制
我們?nèi)绾螞Q定哪些分?jǐn)?shù)足夠高來(lái)表示真實(shí)的ID?目前為止,最流行的方法是 Target-decoy搜索(圖6)。該過(guò)程控制全局錯(cuò)誤發(fā)現(xiàn)率(FDR),即被接受的PSM錯(cuò)誤的平均比例。為了在控制FDR的同時(shí)最大限度地檢測(cè)真肽,可以使用搜索分?jǐn)?shù)和PSM的其它特征的線性組合(圖6)。線性組合中使用的系數(shù){a, b,…}被優(yōu)化以最大限度地檢測(cè)真肽,通常使用percolator使用的機(jī)器學(xué)習(xí)算法。在此優(yōu)化完成后,所有超過(guò)所需FDR對(duì)應(yīng)閾值的目標(biāo)匹配(例如,1%)被保留。這個(gè)過(guò)濾數(shù)據(jù)集的FDR稱(chēng)為“全局”FDR。
圖6. Target-decoy搜索。PSM=肽譜匹配;FDR =錯(cuò)誤發(fā)現(xiàn)率(圖源:Shuken, J Proteome
02.肽段定量
高效液相色譜在整個(gè)運(yùn)行過(guò)程中連續(xù)地將多肽噴霧到質(zhì)譜儀中。每個(gè)掃描周期一次,通常需要3 s或更少,光譜儀產(chǎn)生MS1光譜;因此,在高效液相色譜柱洗脫過(guò)程中,前體的MS1峰經(jīng)常被觀察到多次,這些MS1數(shù)據(jù)點(diǎn)一起形成色譜峰(圖7A)。給定特定的肽,其色譜峰的特征,如其高度或曲線下面積(AUC),可用于測(cè)量肽的相對(duì)豐度,這被稱(chēng)為非標(biāo)記定量(LFQ),該方法可用于不同樣品中的數(shù)量比較。
為了提高定量重現(xiàn)性、樣品通量和/或數(shù)據(jù)完整性,標(biāo)記試劑可用于定量同一質(zhì)譜中的多個(gè)生物樣品。在這些方法中,除了不同的同位素導(dǎo)致肽或其片段的m/z值不同外,肽被標(biāo)記為相同的原子群,同時(shí)保留化學(xué)性質(zhì),如保留時(shí)間、電離性和片段模式。在代謝標(biāo)記方法中,如細(xì)胞培養(yǎng)氨基酸穩(wěn)定同位素標(biāo)記(SILAC),利用生物系統(tǒng)將含有重同位素的氨基酸標(biāo)記整個(gè)蛋白質(zhì)組。在樣品制備開(kāi)始時(shí),將天然“輕”蛋白與重蛋白結(jié)合,然后與MS1光譜進(jìn)行比較(圖7B)。在等壓法(即質(zhì)量相等,因?yàn)椴煌臉?biāo)簽具有相同的總質(zhì)量)標(biāo)記方法中,如串聯(lián)質(zhì)量標(biāo)簽(TMT),肽段在消化后被標(biāo)記,然后在LC-MS/MS前組合。高能CID(HCD)為每個(gè)生物樣品釋放不同的報(bào)告離子;通過(guò)MS2或MS3掃描測(cè)量報(bào)告離子強(qiáng)度,可以推斷出相對(duì)豐度(圖7C)。使用LFQ,每次運(yùn)行分析一個(gè)生物樣本;使用SILAC,每次運(yùn)行通常分析兩到三個(gè)生物樣本;使用TMT,一次可以分析多達(dá)18種不同的生物樣本。
圖7. 多肽定量方法。A.在MS1水平進(jìn)行非標(biāo)記定量;B. 細(xì)胞培養(yǎng)中氨基酸穩(wěn)定同位素標(biāo)記(SILAC);C. 等壓標(biāo)記
03.“蛋白質(zhì)水平”:推斷蛋白質(zhì)的特性和豐度
3.1 蛋白質(zhì)推斷與分組
盡管一些使用自下而上蛋白質(zhì)組學(xué)提到了“蛋白質(zhì)”的身份和數(shù)量,但它們通常是鑒定和/或量化蛋白質(zhì)群,其起源的蛋白質(zhì)或基因可能是不明確的。對(duì)于這種歧義,最常見(jiàn)的解決方案是使用每個(gè)PSM作為樣品中存在相應(yīng)蛋白質(zhì)的證據(jù)。如果一組蛋白質(zhì)之間有相等的證據(jù)(即蛋白質(zhì)序列與同一組鑒定的肽序列匹配,如圖8中的蛋白質(zhì)V和VI),則將這些蛋白質(zhì)組合為一個(gè)蛋白質(zhì)組(PG)。如果一個(gè)蛋白質(zhì)的匹配肽是另一個(gè)蛋白質(zhì)的子集,則該蛋白質(zhì)通常被排除在報(bào)告之外,而缺乏該蛋白質(zhì)特有肽但其肽不是子集的蛋白質(zhì)稱(chēng)為可包含蛋白質(zhì)。
圖8. 蛋白質(zhì)推斷和分組策略(圖源:Shuken, J Proteome Res, 2023)
3.2 蛋白水平FDR控制
大多數(shù)執(zhí)行蛋白質(zhì)分組的流行軟件包,如MaxQuant和Proteome Discoverer,也可以計(jì)算蛋白質(zhì)水平鑒定FDR的估計(jì),并將其重新調(diào)整到可接受的水平。有多種方法可以控制蛋白質(zhì)水平的FDR。一種直接的策略是利用誘餌PGs,即完全由誘餌PSM組成的PG,它們被自動(dòng)保留并受到與目標(biāo)PSM相同的蛋白質(zhì)推斷過(guò)程。為每個(gè)目標(biāo)和誘餌PG構(gòu)建一個(gè)分?jǐn)?shù),允許以與PSM FDR類(lèi)似的方式控制蛋白質(zhì)水平FDR(圖6)。
3.3蛋白組定量
多肽和蛋白質(zhì)之間關(guān)系的多方面因素使這一過(guò)程復(fù)雜化。PG內(nèi)的肽可能在它們匹配的蛋白質(zhì)中彼此不同,這可能會(huì)影響它們的豐度(圖8)。如果PG中的肽是該P(yáng)G所獨(dú)有的,這是有幫助的,允許對(duì)單個(gè)蛋白質(zhì)進(jìn)行量化。然而,復(fù)雜的是肽可能產(chǎn)生于含有翻譯后修飾的蛋白質(zhì),其豐度影響肽的強(qiáng)度,此外,由于DDA固有的隨機(jī)性,一些肽可能在一個(gè)樣品中觀察到而在另一個(gè)樣品中觀察不到。流行的數(shù)據(jù)處理軟件包為用戶(hù)提供了解決這些問(wèn)題的選項(xiàng)。大多數(shù)軟件(包括MaxQuant)只允許對(duì)PG-unique肽進(jìn)行定量。一些(如Spectronaut ,Biognosys)允許更多的規(guī)格,如限制定量到蛋白質(zhì)特異性肽,或選擇是否使用肽強(qiáng)度的中位數(shù)、和、算術(shù)平均值或幾何平均值來(lái)計(jì)算PG數(shù)量。對(duì)于LFQ,值得注意的是MaxQuant中實(shí)現(xiàn)的流行的MaxLFQ算法。當(dāng)在不同的樣本中識(shí)別出不同的前體集時(shí),MaxLFQ通過(guò)采用可用的兩兩比較和使用中位數(shù)比率來(lái)比較PG來(lái)處理缺失值。等壓標(biāo)記和數(shù)據(jù)獨(dú)立采集(DIA)是減少或消除缺失值的其它方法。
3.4 統(tǒng)計(jì)分析和生物學(xué)解釋
一旦計(jì)算出PG的相對(duì)數(shù)量,根據(jù)實(shí)驗(yàn)的生物學(xué)特性,可以使用各種工具對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)分析和解釋。Perseus和MSStats是設(shè)計(jì)用于蛋白質(zhì)組數(shù)量處理和統(tǒng)計(jì)分析的流行軟件包。數(shù)據(jù)也可以使用編程語(yǔ)言(如python或R)手動(dòng)分析。在一般比較蛋白質(zhì)組學(xué)實(shí)驗(yàn)中,包括從列表中去除污染物或誘餌,使用對(duì)數(shù)使數(shù)量近似正態(tài)分布,將數(shù)據(jù)歸一化以糾正運(yùn)行間的技術(shù)變異性,使用統(tǒng)計(jì)檢驗(yàn)(如t檢驗(yàn)/方差分析/線性回歸)檢驗(yàn)變化,并對(duì)結(jié)果p值進(jìn)行多假設(shè)檢驗(yàn)。
統(tǒng)計(jì)分析完成后,結(jié)果可以進(jìn)行生物學(xué)解釋。Gene Ontology是研究在實(shí)驗(yàn)中發(fā)生改變的生物途徑的一個(gè)流行數(shù)據(jù)庫(kù)。STRING提供了有關(guān)感興趣的蛋白質(zhì)之間已知關(guān)系或相互作用的信息。相關(guān)分析,如加權(quán)基因相關(guān)網(wǎng)絡(luò)分析(WGCNA),根據(jù)實(shí)驗(yàn)中蛋白質(zhì)豐度變化的相似程度構(gòu)建蛋白質(zhì)網(wǎng)絡(luò),這可以進(jìn)一步了解實(shí)驗(yàn)中蛋白質(zhì)之間的關(guān)系。通過(guò)綜合解釋這些分析的結(jié)果,生物學(xué)假設(shè)可以得到支持或反駁,并且可以產(chǎn)生新的假設(shè)。
04.拜譜生物總結(jié):質(zhì)譜工作流程
總的來(lái)說(shuō),非標(biāo)記的自下而上的工作流程如下:
(1)分離組織/植物、溶解細(xì)胞;用尿素和/或去垢劑使蛋白質(zhì)變性。
(2)用DTT或TCEP等方法減少二硫化物;用IAA烷基化半胱氨酸。
(3)用冷丙酮、氯仿-甲醇沉淀法或磁珠沉淀法部分純化蛋白質(zhì)(有些工作流程不使用有害的去垢劑如SDS,可跳過(guò)這一步)。
(4)用胰蛋白酶或LysC組合蛋白酶消化蛋白質(zhì)。
(5)用C18包被的過(guò)濾吸管頭離心清洗/脫鹽多肽;用真空離心機(jī)等蒸發(fā)溶劑。
(6)將肽重懸于LC-MS兼容的溶劑中,例如0.1%甲酸水溶液;采用相應(yīng)的儀器方法進(jìn)行LC-MS/MS分析;在運(yùn)行完成后檢索原始數(shù)據(jù)。
(7)使用合適的軟件包處理原始數(shù)據(jù),如MaxQuant或Proteome Discoverer,或軟件包的組合,執(zhí)行數(shù)據(jù)庫(kù)搜索、FDR控制、相對(duì)定量和蛋白質(zhì)推斷。
(8)使用編程語(yǔ)言(如python或R)或軟件包(如Perseus或MSStats)執(zhí)行統(tǒng)計(jì)分析。
(9)根據(jù)實(shí)驗(yàn)的生物學(xué)原理來(lái)解釋結(jié)果;這可以通過(guò)路徑或網(wǎng)絡(luò)級(jí)分析資源(如Gene Ontology、STRING或WGCNA)來(lái)輔助。
05
前沿主題
除了DDA進(jìn)行的非靶向自下而上的無(wú)標(biāo)記蛋白質(zhì)組,還有更多的基于質(zhì)譜的方法來(lái)研究蛋白質(zhì)組(圖9)。儀器和算法均在與時(shí)俱進(jìn)的更新,完整蛋白質(zhì)、自上而下和天然質(zhì)譜法也用于分析低復(fù)雜性的樣本;蛋白的翻譯后修飾因其至關(guān)重要的調(diào)控作用擁有廣闊的研究天地。結(jié)構(gòu)蛋白質(zhì)組學(xué)、化學(xué)蛋白質(zhì)組學(xué)和接近標(biāo)記等技術(shù)使用化學(xué)、酶或熱技術(shù)來(lái)探測(cè)蛋白質(zhì),為研究蛋白質(zhì)結(jié)構(gòu)、化學(xué)、定位、蛋白質(zhì)-配體相互作用或蛋白質(zhì)-蛋白質(zhì)相互作用開(kāi)辟了大量的機(jī)會(huì)。相比DDA,數(shù)據(jù)獨(dú)立采集(DIA)是一種越來(lái)越受歡迎的采集方法,最流行的DIA方法是基于SWATH-MS,其中整個(gè)MS1范圍內(nèi)的所有m/z值在每個(gè)掃描周期內(nèi)都包含在碎片中,這大大提高了數(shù)據(jù)完整性,增加了蛋白質(zhì)組學(xué)深度。在靶向蛋白質(zhì)組學(xué)中,一種特定的蛋白質(zhì)或一組蛋白質(zhì)被作為分析的目標(biāo),其目標(biāo)是確保每次方法運(yùn)行時(shí)都能檢測(cè)到目標(biāo)蛋白質(zhì)(數(shù)據(jù)完整性高),最大限度地提高靈敏度和動(dòng)態(tài)范圍,以及定量準(zhǔn)確性和精密度。
對(duì)于大規(guī)模的蛋白質(zhì)鑒定和定量,質(zhì)譜法是目前最流行的方法,在未來(lái),質(zhì)譜與其它非質(zhì)譜技術(shù)的結(jié)合使用可以更深入地了解整個(gè)生物學(xué)中的蛋白質(zhì)組。
圖9. 基于質(zhì)譜的蛋白質(zhì)組學(xué)的子領(lǐng)域(圖源:Shuken, J Proteome Res, 2023)
參考文獻(xiàn):
Shuken SR. An Introduction to Mass Spectrometry-Based Proteomics. J Proteome Res. 2023; 22(7):2151-2171. doi: 10.1021/acs.jproteome.2c00838.