跳到主要內容區塊

當生物醫學遇上大數據

「當生物醫學遇上大數據」

生物醫學系 助理教授 黃柏榕

大數據(Big Data)這個詞,以往經常出現在天文學、物理學領域,但從未出現在生物學領域。因此,10年前根本難以預料生物醫學也會有遇上大數據的一天,更無從推測它將為這個領域帶來何種衝擊、挑戰或新契機。1990年啟動人類基因體計畫(Human Genome Project, HGP),期間以級數般的成長速度累積了可觀的生物數據與資訊。2003年完成人類基因體序列解碼,隨後更帶動了基因體學研究的蓬勃發展,並將生物醫學研究推向一個全新的世代。然而,2007年左右「高通量定序技術」的出現,才是將「大數據」導入生物醫學研究領域的開端。 過去10年間,隨著高通量定序技術的快速發展與價格的親民化,所謂的生物大數據正開始逐漸地衝擊著生物醫學相關領域。

舉凡美國癌症基因體圖譜TCGA 計畫(The Cancer Genome Atlas), 國際癌症基因體聯盟ICGC計畫( International Cancer Genome Consortium ), 千人基因體計畫 (1000 Genomes Project)、ESP計畫 (NHLBI Grand Opportunity Exome Sequencing Project) …等,都是運用高通量定序技術,因此也為生物醫學領域挹注了龐大的生物大數據。有別於以往定序技術侷限於單基因研究,這些透過高通量定序技術產生的生物大數據,除了能提供單基因致病的快速定位外,更蘊含著能用來探討多基因、多位點變異等複雜疾病的寶貴資訊。這些資訊透過生物資訊分析,可發現與疾病相關的致病候選基因與突變位點,再經由實驗驗證與確效後,將有機會應用於臨床診斷與藥物開發。

除了基因體大數據以外,隨著近年質譜技術快速發展所累積的蛋白質體與代謝體數據,同樣地也為生物醫學領域挹注了可觀的生物大數據。撇開數據本身的容量與複雜度不談,單看這些生物數據的來源,早已暗示著我們跨體學(基因體、轉錄體、蛋白體、代謝體)研究時代已降臨。随著這股數據洪流,研究學者也被迫跳脫單基因、單體學的思維,必須開始從多體學、多維度來思考與解釋生物醫學問題。這股趨勢也可從近年由多國攜手合作的癌症登月計畫(National Cancer Moonshot)看出端倪(https://cptac-data-portal.georgetown.edu/cptacPublic/)。很榮幸的,長庚大學在2016年與美國癌症研究所(NCI)簽署合作備忘錄成為其中一員,期望運用嶄新的蛋白質因體學(Proteogenomics)策略,探討疾病發生機制,尋找檢測與治療的線索,進而終結癌症,造福人群。

然而,龐大的生物數據若無法有效歸類並加以分析與整合,會落入空有資料卻毫無價值的窘境。此時,生物資訊(Bioinformatics)就扮演著極為重要角色。生物資訊是一門集合資訊科學、統計學、分子生物學的整合應用學門,曾經伴隨著「人類基因體計畫」大量核酸序列的產生而興起,商業化的應用以提供生物資訊資料庫服務為主,也曾結合結構生物學、計算化學等發展出電腦輔助藥物設計,透過電腦高速運算能力進行結構模擬與虛擬化篩選,縮短新藥開發時間,增加營收。但在往後幾年,生物資訊終究在沒有合適的商業模式下,在業界與學界間熱潮消退且發展趨緩。有趣的是,随著生物大數據時代的降臨,特別是2007年「高通量定序技術」出現後所衍生的各種商業應用模式,如:客制化生物資訊分析、雲端運算平台建置、個人化精準醫療資料庫建立,均突顯出產業界與學界對生物資訊人才的高度需求,也暗示著生物資訊的熱潮將再起。

為順應此熱潮並讓同仁有機會體驗各種體學所產生的生物大數據,學校各研究中心之核心實驗室(如:分子醫學中心健康老化中心)也陸續提供專業化服務,項目涵蓋基因體定序、蛋白質體分析、代謝體分析與生物資訊分析。在生物資訊人才培育方面,106學年度也重新規畫醫學院生物資訊學程,陸續增加生物資訊程式設計、生物資料庫設計、數據統計分析…等課程,融入生醫所、生醫系、生技系現有課程與學程中,期望能培育出更多具備生物資訊分析專長人員,未來能投入相應的學界或產業界。

瀏覽數: