最新研究揭示了大腦中的多巴胺如何引導動物識別和改進行為
最新研究揭示了大腦中的多巴胺如何引導動物識別和改進行為,從而獲得獎勵。這項研究將特定行為與多巴胺釋放聯繫起來,對改善教育和人工智慧領域的學習過程具有重要意義。
獎勵不僅能強化特定行為,還能迅速改變我們行為的整體模式。
想像一下,你正在教一隻狗玩撿球遊戲。你丟出一個球,你的狗在後面衝刺,撿起球,然後跑回來。然後,你給氣喘吁籲的小狗一個獎賞。但現在對你的狗狗來說,真正的訣竅來了:找出是哪個環節獲得了獎賞。科學家將此稱為大腦中的”信用分配問題”。這是一個根本性的問題,它關係到我們能否理解哪些行為會帶來正面的結果。
多巴胺是大腦中關鍵的化學信使,在這過程中扮演著至關重要的角色。但大腦究竟是如何將特定行為與多巴胺的釋放連結起來的,至今仍不清楚。
12月13日,艾倫研究所、哥倫比亞大學祖克曼心智腦行為研究所、尚巴利莫德未知中心和西雅圖兒童研究所的科學家在《自然》雜誌上發表了一項研究,揭開了這一謎團。該研究揭示了多巴胺如何不僅發出獎勵訊號,而且還引導動物透過不斷嘗試和犯錯,找到獲得獎勵的特定行為。
耐人尋味的是,研究還表明,大腦的獎勵系統可以迅速、動態地改變動物的所有動作和行為。這項研究的資深作者、醫學博士魯伊-科斯塔(Rui Costa)說,這凸顯了一種複雜的學習策略,在這種策略中,行為不僅僅是被強化的,而且是透過經驗積極塑造和微調的。
艾倫研究所(Allen Institute)總裁兼執行長科斯塔說:「當你強化行為時,我們通常認為這只是一個動作,但事實上是你正在改變整個行為結構。而真正令人驚訝的是,這種改變是如此迅速。”
解碼多巴胺如何影響學習
為了揭示這些見解,研究小組與香巴里莫德未知中心的工程師和神經科學家合作,開發出一種新型”閉環”系統,可以將小鼠的特定行為與多巴胺的即時釋放聯繫起來。研究人員為小鼠安裝了無線感測器,以追蹤它們在一個簡單可控空間內的行動。然後,他們將這些資料輸入機器學習演算法,該演算法將這些動作分成不同的組別。然後,研究人員使用光遺傳學(一種用光控制神經元的方法),在小鼠執行預先定義的”目標動作”時刺激多巴胺神經元。
他們發現,小鼠在多巴胺釋放後迅速改變了自己的行為。起初,它們不僅增加了目標動作的頻率,還增加了類似動作和多巴胺釋放前幾秒鐘發生的動作的頻率。同時,與目標不相似的動作則迅速減少。隨著時間的推移,這種細化變得越來越精確,小鼠越來越專注於導致多巴胺釋放的確切動作。
研究還考察了小鼠是如何學習一系列動作的,揭示了一個類似於時間倒退的關鍵過程,以了解是什麼導致了獎勵。當觸發多巴胺的動作間隔較長時,小鼠的學習速度較慢。這表明,動作之間的等待時間越長,小鼠就越難將動作序列與獎勵聯繫起來。從本質上講,獎勵前的動作會很快被掌握和改進,而先前的動作則會逐漸完善。這種”倒帶”過程強化了小鼠的行為,並幫助它們逐步確定哪些精確的動作和序列能產生獎勵。
對教育和人工智慧的更廣泛影響
這項研究的主要作者、華盛頓大學醫學-兒科、西雅圖兒童研究所助理教授喬納森-唐(Jonathan Tang)博士說,這些發現可能會對教育和人工智慧(AI)等不同領域產生影響。例如,在課堂上允許探索、犯錯和逐步改進可能更符合我們大腦與生俱來的學習過程。
在人工智慧領域,這些見解可能會帶來更複雜、更有效率的學習系統。透過更好地複製生物學習過程,我們可以創造出更善於適應新數據和新情況的人工智慧。
這項研究讓我們更深入地了解了我們的大腦是如何透過試驗和錯誤來學習和適應的——無論你是科學家還是幼崽。
唐說:『對於事物如何運作,我們認為很多東西都是理所當然的,包括學分分配。但當你真正開始深入研究時,你才會意識到其中的複雜性。這就是人們從事科學研究的原因:探索事物的真相。”
編譯來源:ScitechDaily