AI強大算法幫助研究癌症和阿爾茨海默氏症等神經退行性疾病的生物語言
科學家發現,Netflix、亞馬遜和Facebook使用的強大算法可以”預測”癌症和阿爾茨海默氏症等神經退行性疾病的生物語言。科學家將數十年研究過程中產生的大數據被輸入到一個計算機語言模型中,看看人工智能是否能比人類做出更先進的發現。位於劍橋大學聖約翰學院的學者們發現,機器學習技術可以解讀癌症、阿爾茨海默氏症和其他神經退行性疾病的”生物語言”。
們的突破性研究已於2021年4月8日發表在科學雜誌《PNAS》上,未來可用於糾正細胞內部導致疾病的語法錯誤。論文的主要作者、聖約翰學院的研究員Tuomas Knowles教授表示:”將機器學習技術引入到神經退行性疾病和癌症的研究中,絕對是一個遊戲規則的改變。最終,我們的目標將是利用人工智能開發出有針對性的藥物,以極大地緩解症狀或根本防止癡呆症的發生。”
每當Netflix推薦觀看一部連續劇,或者Facebook推薦某個人做朋友時,這些平台都在使用強大的機器學習算法,對人們下一步會做什麼進行高度猜測。像Alexa和Siri這樣的語音助手甚至可以識別出個別的人,並立即與你”對話”。
論文第一作者、聖約翰學院研究員卡迪-利斯-薩爾博士使用類似的機器學習技術訓練了一個大規模的語言模型,來研究當人體內的蛋白質出現問題導致疾病時,會發生什麼。人體是成千上萬種蛋白質的家園,科學家們還不知道其中許多蛋白質的功能。研究人員要求一個基於神經網絡的語言模型來學習蛋白質的語言。他們特別要求該程序學習形變生物分子凝結物的語言,即在細胞中發現的蛋白質液滴,科學家們真正需要了解這些語言,才能破解導致癌症和阿爾茨海默氏症等神經退行性疾病的生物功能和故障。
蛋白質是大而復雜的分子,在體內發揮著許多關鍵作用。它們在細胞中做著大部分的工作,是人體組織和器官的結構、功能和調節所必需的,比如抗體就是一種蛋白質,其功能是保護身體。阿爾茨海默氏症、帕金森氏症和亨廷頓氏症是最常見的三種神經退行性疾病,但科學家認為有幾百種。
在影響全球5000萬人的阿爾茨海默病中,蛋白質會變質,形成團塊,殺死健康的神經細胞。健康的大腦有一個質量控制系統,可以有效地處理這些潛在危險的大量蛋白質,即所謂的聚合體。科學家們現在認為,一些無序的蛋白質也會形成液體狀的蛋白液滴,稱為聚結物,它們沒有膜,相互之間自由融合。蛋白質凝結物最近引起了科學界的廣泛關注,因為它們控制著細胞中的關鍵事件,如基因表達。
任何與這些蛋白滴相關的缺陷都可能導致癌症等疾病。這就是為什麼將自然語言處理技術引入到蛋白質功能失常的分子起源研究中是至關重。研究人員給算法輸入了所有已知蛋白質上持有的數據,這樣它就能夠學習和預測蛋白質的語言,就像這些模型學習人類語言一樣,WhatsApp知道如何為你推薦詞語。然後,研究人員能夠向它詢問有關特定語法的問題,這些語法只導致一些蛋白質在細胞內形成凝結物。這是一個非常具有挑戰性的問題,解開它將幫助研究人員學習疾病語言的規則。
機器學習的進一步使用可以改變未來的癌症和神經退行性疾病研究。如果沒有機器學習的幫助,發現可能會超出目前科學家對疾病的了解和推測,甚至可能會超出人類大腦所能理解的範圍。機器學習可以擺脫研究人員認為的科學探索目標的限制,它將意味著會發現我們甚至還沒有設想過的新的聯繫。