基于生物質譜的蛋白質組學數據處理及檢索質量控制研究.pdf_第1頁
已閱讀1頁,還剩113頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、本論文的主要貢獻:1.建立了復旦大學蛋白質組研究中心實驗平臺的數據模板,并應用于人類肝臟蛋白質組計劃(Human Liver Proteome aroject,HLPP)的數據交流和管理,為大規(guī)模實驗數據管理和交流的標準化提供了實際經驗和實現思路;2.基于2-DE(二維電泳)-MALDI-TOF/TOF(基質輔助激光解析飛行時間質譜)及類似的以蛋白質為最終分離單元的組學實驗,提出了一種優(yōu)化的搜索策略,避免了因共享質荷比所產生的假陽性結果

2、,同時采用迭代搜索全面反映單元內的蛋白存在;3.針對MALDI-TOF/TOF的相關數據,通過圖譜特征變量的提取和線性判別分析(Linear Discriminant Analysis,LDA),建立了PMF(PeptideMass Fingerprint)和PFF(Peptide Fragment Fingerprint)圖譜的評價模型,并應用于檢索質量控制研究中;4.為配合人類肝臟蛋白質組的數據分析,構建了四個參考數據集:人類及小鼠

3、肝臟蛋白質組數據集、健康人血漿蛋白質組數據集、健康人心臟蛋白質組學數據集以及肝病相關基因及蛋白質數據集;5.應用液相等電聚焦預富集方法(Liquid-phase Isoelectric Focusing,LIEF)對小鼠肝臟蛋白質組進行分析,證明了LIEF和多實驗路線結合的策略在復雜樣本蛋白質組學研究中的優(yōu)勢。
   在復雜的生命過程中,蛋白質是各種生命活動的具體實現者。1994年Williams正式提出了蛋白質組的概念,199

4、5年Willkins正式提出了“Proteome(蛋白質組)”的專業(yè)術語及其定義。十余年來,蛋白質組學蓬勃發(fā)展,已成為生命科學、化學、信息科學等領域研究的重點與交叉的熱點,被廣泛地應用于各類模式生物和人類的探索之中。隨著生物質譜技術的成熟,尤其是電噴霧(ESI)和基質輔助激光解吸(MALDI)等接口技術在20世紀后期的突破性發(fā)展,質譜檢測滿足了高通量、高分辨率的要求,逐漸替代了先前的Edman測序等生物化學手段進而成為蛋白質組鑒定的首選

5、平臺。但從蛋白質組學的發(fā)展現況來看,由于分離和檢測過程還存在諸多的不完善,實驗結果往往受蛋白質分離效果、豐度、化學特性等因素的影響;而各類檢索算法也或多或少的存在缺陷。它們導致檢索結果中常伴隨有假陽性(False Positive)和假陰性(False Negative)的問題。而其解決需要實驗科學和信息科學雙方面的努力,其中除實驗技術不斷改進和發(fā)展外,數據處理流程的優(yōu)化及檢索質量的控制至關重要,但至今仍缺乏公認的理想數據處理范本。本文

6、基于復旦大學蛋白質組研究中心的生物質譜平臺,對目前蛋白質組數據處理流程中所涉及的數據標準化管理、檢索策略的優(yōu)化和質量控制等重要方面,進行了系列嘗試,為進一步提高蛋白質鑒定的可靠性,以及更精確地展示生物樣本的蛋白質組提供了理論依據和實現思路。
   論文共分六章,內容摘要如下:
   第一章:前言。概述了蛋白質組學的發(fā)展歷程,對目前主要的技術體系和發(fā)展方向進行了評述。其中對蛋白質組學研究中所涉及的數據處理方法,進行了詳細的

7、綜述,主要包括:數據處理流程、數據檢索軟件的分類及簡介、數據處理所面臨的挑戰(zhàn)和目前研究的熱點等?;谶@些總結和評述,提出了本文的研究方向和思路。
   第二章:蛋白質組實驗流程及數據標準化管理初探。針對HLPP中復旦大學相關儀器設備與產出數據的特點,基于PSI(The Proteomics Standards Initiative)原則,對實驗流程和數據產出進行了信息抽提,并建立了相關的數據模板。其中,所涉及的實驗流程包含了目前

8、主流的實驗平臺,數字化地反映了雙向凝膠電泳(2-DE)、多維液相(MDLC)等分離技術及MALDI、ESI質譜的實驗參數和數據參數。模板已應用于HLPP實際的數據交流和管理中,并為標準化管理大規(guī)模實驗數據提供了實際經驗。
   第三章:大規(guī)模質譜數據分析中的非同質荷比迭代檢索規(guī)則。由于目前分離過程尚無法保證每一分離單元只含一種蛋白質,因而常影響到后續(xù)的搜索過程,并產生假陽性或假陰性的匹配結果。在本章工作中,通過數據庫統(tǒng)計和對實驗

9、數據的模擬匹配,發(fā)現檢索結果之間質荷比的共享是產生假陽性的重要原因。因此,本文提出了一種優(yōu)化的檢索策略,首先以改進的半小數規(guī)則和頻度限制對質譜進行去噪處理,然后以匹配分數高低及是否包含共享質荷比作為可信結果的評判標準,再將質譜文件中己匹配的質荷比進行過濾,產生新的質譜搜索文件并進行迭代搜索,直到沒有可信結果產出為止。為進一步保證結果的可信度,反轉數據庫方法也被用于其中。在標準蛋白實驗和法國人肝蛋白質組實驗中的應用顯示,非同質荷比迭代規(guī)則

10、和反轉數據庫方法的結合可以更全面地反映蛋白質組的組分,同時賦予了檢索結果更好的可信度。至此,為2-DE—MALDI TOF/TOF及類似實驗平臺,提供了一套系統(tǒng)可信的數據分析方法。
   第四章:MALDI TOF/TOF質譜圖譜的質量評價及其在檢索質量控制研究中的應用。作為生物質譜數據分析的根本,質譜圖譜的質量與檢索結果之間息息相關,但目前相關研究所涉及的數據基本來源于離子阱質譜(主要為LTQ,LCQ)的串級數據,對于PMF圖

11、譜及基于MALDI TOF/TOF的串級數據的評價則非常少見。本文基于MALDI TOF/TOF所產生的大規(guī)模數據,通過圖譜特征變量的提取和線性判別分析,建立了相應的PMF和PFF數據的評價模型。在評價模型的基礎上,通過反轉庫分析方法,進一步討論了PMF圖譜與相關PFF圖譜質量之間的影響關系、圖譜質量與蛋白質檢索鑒定之間的關系,最終定義了WellQuality指數,對源于同一分離單元的PMF和PFF的質量進行了統(tǒng)一的評價。結果顯示,質譜

12、質量是決定蛋白質匹配是否成功的決定性因素,好的圖譜往往是高質量匹配的先決條件。Well Quality指數可以很好地反映分離單元質譜檢測的優(yōu)劣,其指數與鑒定成功率和得分之間存在著明顯的線性關系。此外,對于質量較好的圖譜,隨機匹配的可能性也在增加,因此本文同時采用了一種新的分數背景扣除方式進行質量控制,取得了良好的效果。MALDI TOF/TOF圖譜的質量評價為蛋白質鑒定的質量控制提供了新的思路,同時也對蛋白質組學實驗優(yōu)化和機理研究提供了

13、新的途徑。
   第五章:肝臟蛋白質組參考數據集的建立及初步分析。對于組織樣本的大規(guī)模蛋白質組研究方興未艾,所產生的數據量極其可觀。本章針對肝臟、血漿、心臟的蛋白質組和肝病相關基因及蛋白質的研究,建立了相關的參考數據集,并進行了初步分析。為保證數據的完備性和可靠性,基于NCBI PubMed醫(yī)學文獻數據庫,采用人工搜索和判讀的方式,對近年發(fā)表在國際知名雜志上的相關研究成果進行了遍歷查詢,并盡可能提取蛋白質組研究的相關參數。最終構

14、建成四個參考數據集:人及小鼠肝臟蛋白質組數據集、健康人血漿蛋白質組數據集、健康人心臟蛋白質組學數據集以及肝病相關基因及蛋白質數據集。數據集的初步分析表明:各數據集的蛋白質存在一定的交互,而HLPP數據集對各參考數據集的覆蓋均非常大。這樣的重疊很可能反映了機體內各組織器官間的一些共性。同時作為機體最為重要的代謝器官,肝臟合成了很大部分的血漿蛋白,數據集間的高度交蓋暗示了肝臟對于人體的重要性。這些數據的收集和整理對相關科學研究提供了系統(tǒng)可信

15、的數據參考,有助于相關研究的深入和發(fā)展。
   第六章基于液相等電聚焦預富集方法(LIEF)的小鼠肝臟蛋白質組研究及數據分析。預分離技術已被證明可大大促進蛋白質的鑒定效果,對低豐度蛋白尤其明顯。本章通過LIEF技術對小鼠肝臟中的蛋白質進行了預富集,并結合二維凝膠電泳(2-DE)和一維反相色譜(SDS-PAGE RPLC)分析策略對富集的蛋白質進行了分析。結果表明:LIEF技術可大大增加后續(xù)2-DE分析中蛋白質斑點的數目,同時大幅

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論