MIT/哈佛的細胞重編程創新技術可找到有效的癌症剋星和再生療法
麻省理工學院和哈佛大學的研究人員開發出了一種新穎的計算技術,可以利用更少的實驗有效地確定細胞重編程的最佳基因介入。他們的獨特方法利用了系統內的因果關係,為每一輪測試優先選擇最有效的干預措施。
在應用於真實生物數據時,他們的演算法始終優於標準方法,為細胞重編程提供了更有效的途徑,並有可能應用於其他領域。新的人工智慧方法可以幫助科學家確定新的免疫療法技術或再生療法。
細胞重編程策略包括使用有針對性的基因幹預,將細胞工程改造成一種新的狀態。這種技術在免疫療法中大有可為,例如,研究人員可以對患者的T 細胞進行重編程,使其成為更強大的癌症殺手。有朝一日,這種方法還能幫助確定拯救生命的癌症治療方法或修復疾病摧殘器官的再生療法。
然而,人體約有2 萬個基因,基因擾動可能發生在多個基因的組合上,也可能發生在調控基因的1,000 多個轉錄因子中的任何一個上。由於搜尋空間龐大,而基因實驗成本高昂,科學家往往難以找到適合其特定應用的理想擾動。
麻省理工學院和哈佛大學的計算創新
麻省理工學院和哈佛大學的研究人員開發了一種新的計算方法,與傳統方法相比,這種方法只需進行數量少得多的實驗,就能有效地確定最佳遺傳擾動。
他們的演算法技術利用基因組調控等複雜系統中各因素之間的因果關係,在每一輪連續實驗中優先選擇最佳幹預措施。
研究人員進行了嚴格的理論分析,以確定他們的技術確實能找出最佳幹預措施。有了這個理論框架,他們將演算法應用於模擬細胞重編程實驗的真實生物數據。他們的演算法效率最高,效果最好。
麻省理工學院和哈佛大學的研究人員開發了一種新的計算方法,與傳統方法相比,這種方法可以根據數量少得多的實驗有效地確定最佳遺傳擾動。電子工程與電腦科學系(EECS)教授卡洛琳-烏勒(Caroline Uhler)是這篇論文的共同第一作者。圖片來源:亞當-格蘭茲曼
大規模實驗往往是根據經驗設計的。論文的共同第一作者卡羅琳-烏勒(Caroline Uhler)說:”一個謹慎的順序實驗因果框架可能會讓我們用更少的試驗確定最佳幹預措施,從而降低實驗成本,”她是電氣工程與電腦科學系(EECS)教授,同時也是麻省理工學院和哈佛大學布羅德研究所埃里克和溫蒂-施密特中心(Eric and Wendy Schmidt Center)的共同主任,以及麻省理工學院資訊與決策系統實驗室(LIDS)和數據、系統與社會研究所(IDSS)的研究員。
這篇論文於10月2日發表在《自然-機器智能》(Nature Machine Intelligence)雜誌上,與烏勒共同完成論文的還有論文的第一作者、研究生張佳琪(Eric and Wendy Schmidt Center Fellow),共同第一作者、麻省理工學院機械與海洋工程系教授、IDSS成員Themistoklis P. Sapsis,以及哈佛大學和麻省理工學院的其他研究人員。
基因研究中的主動學習
當科學家試圖為一個複雜的系統設計有效的干預措施時,例如在細胞重編程中,他們通常會按順序進行實驗。這種情況非常適合使用一種名為主動學習的機器學習方法。收集資料樣本後,利用這些樣本學習系統模型,該模型包含了迄今為止收集到的知識。根據這個模型,設計出一個獲取函數–一個評估所有潛在幹預措施並選出最佳幹預措施在下一次試驗中進行測試的等式。
這個過程不斷重複,直到找到最佳幹預措施(或用於資助後續試驗的資源耗盡)。
薩普西斯解釋說:”雖然有幾種通用的獲取函數可以按順序設計實驗,但這些函數對於如此複雜的問題並不有效,導致收斂速度非常緩慢。”
獲取函數通常會考慮因素之間的相關性,例如哪些基因共同表現。然而,只關注相關性會忽略系統的調控關係或因果結構。例如,基因介入只能影響下游基因的表達,但基於相關性的方法無法區分上游或下游基因。
張解釋說:”可以從數據中學到一些因果知識,並利用這些知識更有效地設計幹預措施。”
麻省理工學院和哈佛大學的研究人員在他們的技術中利用了這種潛在的因果結構。首先,他們精心建構了一種演算法,使其只能學習說明因果關係的系統模型。然後,研究人員設計了獲取功能,使其能夠利用這些因果關係資訊自動評估幹預措施。他們精心設計了這項功能,使其優先考慮資訊量最大的干預措施,即那些最有可能在後續實驗中產生最佳幹預措施的措施。
“透過考慮因果模型而不是基於相關性的模型,我們已經可以排除某些幹預措施。然後,每當獲得新數據時,就可以學習更準確的因果模型,從而進一步縮小幹預空間,”Uhler 解釋說。
這種較小的搜尋空間,加上獲取函數特別關注資訊量最大的干預措施,使得他們的方法如此有效率。
受複雜系統中極端事件研究的啟發,研究人員使用一種稱為輸出加權的技術進一步改進了他們的獲取函數。這種方法會仔細強調那些可能更接近最優幹預的干預措施。
薩普西斯說:”從本質上講,我們將最優幹預視為所有可能的次優幹預空間中的’極端事件’,並使用我們針對這些問題開發的一些想法。”
提高效率和未來應用
他們在模擬細胞重編程實驗中使用真實生物數據測試了他們的演算法。在這項測試中,他們尋找一種能使平均基因表現發生預期變化的基因擾動。在多階段實驗的每一個步驟中,他們的獲取功能都能比基線方法辨識出更好的介入措施。
“即便在任何階段中斷實驗,我們的方法仍然比基線方法更有效。這意味著可以進行更少的實驗,卻能得到相同或更好的結果,”張說。
研究人員目前正與實驗人員合作,將他們的技術應用於實驗室中的細胞重編程。他們的方法也可應用於基因組學以外的問題,例如確定消費品的最優價格或在流體力學應用中實現最佳反饋控制。
未來,他們計劃加強他們的優化技術,使其超越那些尋求與期望均值相符的優化。此外,他們的方法假定科學家已經理解了系統中的因果關係,但未來的工作還可以探索如何利用人工智慧來學習這些資訊。