當基因編輯插上人工智能的翅膀“大禮包”來了
給基因編輯插上人工智能的翅膀會發生什麼?中國科學院遺傳與發育生物學研究所(以下簡稱遺傳發育所)研究員高彩霞和團隊進行了一次試水,意外為基因編輯新“利器”的挖掘開闢了一片嶄新的天地。基因編輯技術自2012年誕生以來就被喻為“上帝的手術刀”,打開了人類改寫生命基因密碼的大門。
2020年,這項對生命科學領域產生顛覆性影響的工具眾望所歸地獲得了諾貝爾化學獎。為了讓這這把“手術刀”更精準、高效,科學家們還在不斷向前推動著這一技術的研究邊界。
近期,高彩霞和團隊開創性地運用AlphaFold2輔助蛋白結構預測,並對不同蛋白基於結構進行分類,開發出一系列鹼基編輯新利器,它們在醫學和農業方面具有廣泛的應用潛力。相關研究6月27日在線發表於《細胞》。
“這項研究在多個方面都令人興奮。”該刊一位國際審稿人說。
新研究部分共同作者。(從左至右分別為林秋鵬、賀子欣、黃佳穎、高彩霞、費宏源、李運嘉)受訪者供圖
一次試水
高彩霞團隊是中國農業基因編輯領域的一張名片。
2013年,高彩霞帶領團隊發表了世界上第一篇CRISPR基因編輯植物的研究論文。十年來,他們不斷完善著這把生命科學的“手術刀”,獲得的基因編輯技術專利可佔據國內半壁江山,並探索了這些工具在水稻、小麥、玉米和番茄等農作物在育種方面的潛力。
“當一項技術具有顛覆性時,科學家總會考慮它的缺點,然後讓它更完善。”高彩霞對《中國科學報》說。
十餘年來,基因編輯技術不斷迭代並迅猛發展。高彩霞將現有基因編輯技術劃分為兩個階段。
1.0時代的基因編輯,以“基因剪刀”CRISPR-Cas9技術為代表,它能在基因組特定位置產生DNA雙鏈斷裂,繼而通過細胞內源修復機制產生隨機小片段進行插入或刪除,但產生的突變存在不可控性。
2.0時代的基因編輯,以鹼基編輯和引導編輯技術為代表,其特點是“精準”。所有生物的DNA都由A、T、C、G四個字母所代表的鹼基組成,鹼基編輯可不依賴DNA雙鏈斷裂實現部分特定鹼基(如字母AT、CG、AG)的高效精準替換,但仍無法實現所有字母的任意轉換。在此基礎上,2.0+版的引導編輯系統,則可實現4個字母任意編輯,以及小片段DNA的精準插入和刪除。
不過,這樣的基因編輯技術仍非完美無缺。
現有鹼基編輯系統的核心元件——脫氨酶來源於單一家族,在基因編輯過程中存在效率不夠高、序列有偏好性以及潛在的脫靶風險等問題。
“比如在實現字母CT的轉變過程中,如果C的前面是G,C字母就很難被改變。”高彩霞舉例,此外,這些脫氨酶在一些重要作物如大豆中效果較差,這也是長期影響作物鹼基編輯育種的一個關鍵問題。
同時,作為疾病治療、農業育種以及科學研究的基礎性、戰略性工具,目前鹼基編輯系統的底層專利由美國持有,我國亟需打破鹼基編輯底層專利壟斷。
能否挖掘出新的脫氨酶,解決鹼基編輯現有挑戰,同時打破我國所面臨的底層專利困境?
2021年,在實驗室的一次例行組會上,高彩霞與年輕的組員們就不同期刊的前沿進展做分享交流時,人工智能“明星”AlphaFold2在蛋白質結構預測中的突出表現讓他們產生了一個想法:何不將它與現有鹼基編輯技術結合起來看看會發生什麼?
一直以來,科學家主要通過基因序列來定向改進現有脫氨酶。“脫氨酶的結構與其功能存在緊密關聯,這意味著科學家需要花費大量的時間用實驗解析相關的序列從而拿到一個蛋白的結構。所以我們就想能不能通過人工智能找一些跟現有脫氨酶在結構上相似度更高的蛋白。”高彩霞研究組博士生費宏源對《中國科學報》說。
“比如AlphaFold2讓我們一天就能高通量地構建300多個蛋白的結構,是傳統方法的很多倍。”費宏源補充說,經過一段時間的摸索,聚焦生物信息學的她成為研究組的“人工智能擔當”。
研究團隊首先通過AlphaFold2對代表性的283個具有脫氨潛力的蛋白質序列進行了結構預測,進一步創新性地基於蛋白質結構的多重比對,拓展了脫氨酶家族基於結構的系統發育分析,將其劃分為20個潛在的蛋白質家族。進一步對每個家族中多個代表性成員進行活性檢測,他們發現其中6個家族具有活性,5個是全新的脫氨酶家族。
“現有rAPOBEC1脫氨酶家族成員都來自於真核生物(主要包括人、哺乳動物或魚類)。我們的研究挖掘出一系列全新的脫氨酶,是目前唯一全部來自於原核生物(細菌)的脫氨酶。”高彩霞研究組博士後黃佳穎說,她參與了該研究的構思與設計。
“小試牛刀”
基於蛋白結構分類,研究者成功開發了一系列具有中國自主知識產權的鹼基編輯新“利器”。
讓他們驚喜的是,在對具有活性的新脫氨酶家族進行功能驗證時,他們發現此前被認為具有雙鏈DNA脫氨功能的SCP1.201蛋白家族中的大部分蛋白其實只具有單鏈DNA脫氨的活性。這一顛覆性的認知讓他們判斷:這個家族可能存在更精準、高效的基因編輯工具。
他們對這個蛋白家族的所有成員一一進行了分析,得到了一個“大禮包”。
研究者發現,其中一些脫氨酶(如雙鏈鹼基編輯系統中的Ddd9)可實現常規系統難以靶向的GC偏好鹼基的編輯;一些脫氨酶(如單鏈鹼基編輯系統中Sdd7和Sdd3)展現出非常高的編輯活性和明顯的GC序列偏好性;還有一些脫氨酶(Sdd6)在測試的位點中幾乎檢測不到脫靶事件。
他們還打造了這些鹼基編輯工具的“迷你版”。“通過AI輔助截短原有蛋白,把它包裹在單個腺病毒中可以增強遞送的靈活性,同時保留它原有基因組編輯效率。”黃佳穎介紹。
他們同時在動物和植物中對這些鹼基編輯工具“小試牛刀”,發現“新工具包”在醫學和農業領域展現出廣泛的使用潛力。其中,通過腺病毒轉染小鼠細胞,新型鹼基編輯器可成功獲得高達43.1%的編輯效率,這說明基於新脫氨酶開發的鹼基編輯藥物可以裝載到單個病毒顆粒並高效矯正遺傳病突變位點,為基因治療提供了全新的技術方案。
更重要的是,研究者新開發的Sdd7-CBE系統,克服了大豆中長期存在的鹼基編輯效率低下的問題,他們在154株基因組編輯大豆中獲得了34株具有抗除草劑表型的穩定編輯植株,相比之下,常規的基因組編輯技術獲得編輯植株的效率為零。
“這項研究展示了多個令人興奮的前景。”該文章的一位國際審稿人說,首先,研究利用AlphaFold2進行的蛋白質結構分析是一種具有普適性的新概念和方法;其次,許多新的脫氨酶結構域的鑑定為鹼基編輯領域增加了有價值的工具;此外,鹼基編輯技術在大豆植株中的應用為該方法的有效性提供了有力的例證。
“從源頭上探索自己的工具”
“這項研究太漂亮了!是一個非常完美的工作!”新成果發表後,領域內的老朋友、美國科學院院士Dan Voytas通過郵件向高彩霞道賀。
對此,高彩霞表示:“當前越來越多的研究成果都是相互站在巨人肩膀上,才能實現“1+1>2的效果。這項研究也不例外。”
據介紹,這些全新工具已申請相關發明專利。高彩霞希望能夠從源頭上探索自己的基因組編輯工具,夯實我國基因組編輯生物育種的技術專利池。
“目前,基因組編輯技術已經發展到3.0時代,其中最關鍵的問題就是解決大片段編輯的’短板’,實現Kb(千字節)級的大片段DNA甚至是染色體水平的精準編輯。”高彩霞說。
今年4月,高彩霞和團隊將引導編輯和位點特異性重組酶結合開發了PrimeRoot系統,在水稻和玉米中實現了長達11.1 Kb的大片段DNA的高效精准定點插入,相關成果發表於《自然—生物技術》。這一成果表明高彩霞團隊在全球率先邁入基因組編輯3.0時代的門檻,為植物分子育種提供了更為有力的技術支撐。
科學無極限。為讓基因組編輯這把改造遺傳密碼的利器更加得心應手,他們仍在繼續探索。
相關論文信息:
DOI:10.1016/j.cell.2023.05.041