追溯到巴甫洛夫:結構簡單的蠕蟲帶來了行為關聯理論的新轉折
物理學家開發了一個動物行為的動態模型,可以揭示聯想學習的長期神秘性,這可以追溯到巴甫洛夫的著名犬類實驗。這項研究是在廣泛使用的實驗室生物C. elegans上進行的,發表在《美國國家科學院院刊》(PNAS)上。
“我們展示了學習性聯想如何不只是由聯想的強度所介導,而是由多個幾乎獨立的途徑所介導–至少在蠕蟲中是這樣,”埃默里大學物理學和生物學教授Ilya Nemenman說,他的實驗室領導了該論文的理論分析工作。”我們預計類似的結果也將適用於更大的動物,包括也許在人類中。”
“我們的模型是動態的和多維的,”多倫多大學唐納利中心的物理學副教授William Ryu補充說。”它解釋了為什麼這個聯想學習的例子並不像形成一個單一的積極記憶那樣簡單。相反,它是一個同時發生的積極和消極聯想之間的連續相互作用”。
該論文的第一作者是艾哈邁德-羅曼,他作為埃默里大學的研究生參與了該項目,現在是布羅德研究所的博士後研究員。多倫多大學的前研究生Konstaintine Palanski也是作者之一。
條件反射
100多年前,伊万-巴甫洛夫通過對狗的實驗發現了動物的”條件反射”。例如,在訓練狗將一種聲音與隨後到來的食物聯繫起來後,狗在聽到這種聲音時就會開始流口水,甚至在食物出現之前。
大約70年後,心理學家在巴甫洛夫的見解的基礎上,發展了古典條件反射的雷斯科拉-瓦格納模型。這個數學模型通過隨時間變化的強度來描述條件反射。當條件刺激(在巴甫洛夫的狗的例子中是聲音)可以被動物用來減少無條件反應(食物)到來時的驚喜時,這種強度就會增加。
這樣的見解有助於為現代的動物強化學習理論奠定基礎,這反過來又使人工智能係統中的強化學習算法得以實現。但許多謎團仍然存在,包括一些與巴甫洛夫的原始實驗有關的謎團。
在巴甫洛夫訓練狗將鈴鐺的聲音與食物聯繫起來後,他將反复讓狗在沒有食物的情況下接觸鈴鐺。在最初幾次沒有食物的試驗中,當鈴聲響起時狗繼續流口水。如果試驗持續足夠長的時間,狗就會不再因鈴聲而流口水。這種關聯被稱為”熄滅”。
然而,巴甫洛夫發現,如果他等待一段時間,然後重新測試狗,它們會再次對鈴聲做出反應,即使沒有食物。無論是巴甫洛夫還是最近的聯想學習理論,都無法準確地解釋或用數學方法模擬這種已熄滅的聯想的自發恢復。
揭開謎底
研究人員通過對秀麗隱桿線蟲的實驗探索了這種奧秘。這種一毫米長的蠕蟲只有大約1000個細胞,其中300個是神經元。這種簡單性為科學家提供了一個簡單的系統來測試動物如何學習。同時,秀麗隱桿線蟲的神經迴路剛好足夠複雜,可以將研究其行為所獲得的一些見解與更複雜的系統聯繫起來。
早期的實驗已經確定,通過用食物調節它在某一溫度下的狀態,可以訓練秀麗隱桿線蟲喜歡更冷或更暖的溫度。在一個典型的實驗中,蠕蟲被放在一個有溫度梯度的培養皿中,但沒有食物。那些被訓練成喜歡較低溫度的蟲子會移到皿中較低的一側,而被訓練成喜歡較高溫度的蟲子則會移到較高的一側。
但是這些結果到底意味著什麼?一些人認為,蠕蟲爬向一個特定的溫度是為了期待食物。其他人則認為,蠕蟲只是習慣了那個溫度,所以即使沒有食物獎勵,它們也喜歡在那裡逗留。
由於許多這類實驗的一個主要局限性–蠕蟲穿越9厘米長的培養皿以尋找首選溫度所需的漫長時間,這個謎題無法得到解決。
測量學習如何隨時間變化
Nemenman和Ryu試圖克服這一限制。他們想開發一種實用的方法來精確測量學習的動態,或學習如何隨時間變化。
Ryu的實驗室使用了一個微流控設備,將9厘米的培養皿的實驗模型縮小為4毫米的液滴。研究人員可以迅速對數百隻蠕蟲進行實驗,每隻蠕蟲都被包裹在其單獨的液滴中。
“我們可以實時觀察蠕蟲如何在溫度的線性梯度上移動,”Ryu說。”與其等它爬行30分鐘或一個小時,我們可以更快地看到蟲子喜歡液滴的哪一面,冷的一面或暖的一面。而且我們還可以跟踪它的偏好是如何隨時間變化的。
他們的實驗證實,如果一隻蠕蟲被訓練成將食物與較低的溫度聯繫起來,它就會移動到液滴的較低一側。然而,隨著時間的推移,在沒有食物存在的情況下,這種記憶的偏好似乎會衰減。
“我們發現,突然間,蠕蟲想在液滴的溫暖一側花費更多時間,”Ryu說。”這很令人驚訝,因為為什麼蠕蟲會發展出不同的偏好,甚至迴避它們已經與食物相關聯的溫度?”
最終,蠕蟲開始在較冷和較熱的溫度之間來回移動。
研究人員假設,蠕蟲不會簡單地忘記與較低溫度相關的食物的積極記憶,而是開始消極地將溫度較低的一邊與沒有食物聯繫起來。這刺激了它向溫暖的一面前進。然後,隨著時間的推移,它開始形成沒有食物與較溫暖的溫度之間的消極聯繫,再加上對寒冷的殘餘積極聯繫,使它重新遷移到較冷的一邊。
“蠕蟲總是在學習,一直都在學習,”Ryu解釋說。”在積極的關聯和消極的關聯的驅動力之間存在著一種相互作用,導致它開始在冷和暖之間搖擺。”
“這就像你丟失了鑰匙”
Nemenman團隊開發了理論方程來描述兩個獨立變量之間隨著時間的推移而產生的相互作用–驅動蠕蟲走向一個溫度的積極的,或興奮的關聯,以及驅動它遠離該溫度的消極的,或抑制的關聯。他解釋說:”蠕蟲所傾向的一方取決於你究竟何時進行測量。這就像當你丟失鑰匙時,你可能會先檢查你通常存放鑰匙的桌子。如果你沒有馬上看到它們,你就在不同的地方尋找它們。如果你還是沒有找到,你就回到原來的桌子上,認為你只是沒有認真找。”
研究人員在不同的條件下重複實驗。他們在不同的起始溫度下訓練蠕蟲,並在測試它們的溫度偏好之前將它們餓了不同的時間長度,蠕蟲的行為被方程式正確預測。
他們還通過對蠕蟲進行基因改造來測試他們的假設,敲除了已知作為負關聯途徑的胰島素樣信號通路。
“我們以特定的方式擾亂了生物學,當我們進行實驗時,蠕蟲的行為發生了變化,正如我們的理論模型所預測的那樣,”Nemenman說。”這讓我們更有信心,該模型反映了學習的基本生物學,至少在優雅動物中是這樣。”
研究人員希望其他人能在跨物種的大型動物研究中測試他們的模型。
“我們的模型提供了一個多維度的學習的替代定量模型,”Ryu說。”它解釋了其他古典條件理論難以解釋的結果,或者在某些情況下不可能解釋的結果”。