聚焦unknome蛋白質加速研究:我們幾乎一無所知的人類基因數據庫
英國研究人員開發了一個新的可公開訪問的數據庫,他們希望看到這個數據庫隨著時間的推移不斷縮小。這是因為該數據庫匯集了人類基因組中基因編碼的數千種未被充分研究的蛋白質,這些蛋白質的存在是已知的,但其功能大多不為人知。
這個數據庫被稱為”unknome”,是英國牛津大學鄧恩病理學學院的馬修-弗里曼(Matthew Freeman)和英國劍橋MRC 分子生物學實驗室的肖恩-芒羅(Sean Munro)及其同事的研究成果。他們對數據庫中的部分蛋白質進行了研究,發現其中大部分蛋白質對重要的細胞功能做出了貢獻,包括發育和抗壓能力。
人類基因組測序清楚地表明,人類基因組編碼了數以千計的可能蛋白質序列,而這些蛋白質序列的身份和功能至今仍不為人知。造成這種情況的原因是多方面的,包括人們傾向於將稀缺的研究經費集中用於已知的目標,以及缺乏包括抗體在內的工具來研究細胞中這些蛋白質的功能。
但作者認為,忽視這些蛋白質的風險很大,因為很可能有些蛋白質,也許是很多蛋白質,在關鍵的細胞過程中發揮著重要作用,既能提供洞察力,又能成為治療干預的靶點。
為了促進對這類蛋白質進行更快速的探索,作者創建了unknome數據庫,為每種蛋白質分配一個”已知度”分數,反映科學文獻中有關功能、跨物種保護、亞細胞區隔和其他要素的資訊.
根據這一系統,有數千種蛋白質的”已知度”接近於零。其中包括來自模式生物的蛋白質,以及來自人類基因組的蛋白質。該數據庫對所有人開放,並可定制,允許用戶為不同的元素提供自己的權重,從而生成自己的已知度分數集,以確定自己研究的優先次序。
為了測試該數據庫的實用性,作者選擇了人類中的260 個基因,這些基因在蒼蠅中也有類似的基因,而且在兩個物種中的已知度分數都是1 或更低,這表明人們對它們幾乎一無所知。其中許多基因的完全敲除與蒼蠅的生活不相容;部分敲除或組織特異性敲除後發現,大部分基因對影響生育、發育、組織生長、蛋白質質量控製或抗逆性的重要功能做出了貢獻。
研究結果表明,儘管進行了數十年的詳細研究,但仍有成千上萬的蒼蠅基因甚至在最基本的水平上仍有待了解,人類基因組的情況顯然也是如此。芒羅說:”這些未被表徵的基因不應該被忽視。”我們的數據庫提供了一個功能強大、用途廣泛的高效平台,可用於識別和選擇功能未知的重要基因進行分析,從而加快縮小未知基因組所代表的生物學知識差距。”
芒羅補充說:”成千上萬種人類蛋白質的作用仍然不清楚,但研究往往集中在那些已經很清楚的蛋白質上。為了幫助解決這個問題,我們創建了一個’未知組’(Unknome)數據庫,該數據庫根據人們對蛋白質的了解程度對蛋白質進行排序,然後對這些神秘蛋白質中的一部分進行功能篩選,以展示無知是如何推動生物學發現的。”