意想不到的勝利如何影響我們的風險決策
當結果不確定時,人類如何做出決定?一種可能的方法是通過將每個可能的結果數量乘以其概率來計算每個選項的期望值,然後選擇具有最高期望值的選項。雖然這種策略會最大化預期收益,但這並不是人們傾向於做的。特別是,人們在做出後續選擇時似乎會受到過去決策結果的非理性影響。
筑波大學的研究人員開發並驗證了一個模型(“動態前景理論”),該模型整合了行為經濟學中最流行的模型來描述不確定性下的決策——前景理論,以及一個成熟的神經科學學習模型—— 強化學習理論。與單獨的前景理論或強化學習理論相比,該模型更準確地描述了人和猴子在面臨風險時做出的決定。
具體來說,研究人員要求70 人在兩張彩票中反複選擇他們能以一定概率獲得某種獎勵的彩票。彩票的獎勵大小、中獎概率以及所涉及的風險大小各不相同。結果表明,在經歷了大於所選選項的預期值的結果後,參與者立即表現得好像在下一次彩票中獲勝的可能性增加了。
該研究的資深作者助理教授Hiroshi Yamada 說:“這種行為令人驚訝,因為向參與者清楚地描述了獲勝概率(參與者不必從經驗中學習),而且這些概率也完全獨立於以前的結果。”
使用他們的動態前景理論模型,研究人員能夠確定行為的變化是由概率感知的變化驅動的,而不是由獎勵估值的變化驅動的。
Yamada 還說:“這種從意外事件中學習的方法是強化學習理論的基礎,是一種眾所周知的算法,當人們需要從經驗中學習獎勵時就會出現這種算法。 有趣的是,即使不需要學習,它也會發生。”
在對大腦與人類大腦非常相似的獼猴進行的類似實驗中,觀察到的結果基本相同。研究人員評論說,在這項研究中,人類和猴子的行為非常相似。
根據這項研究的結果,預計對猴子大腦的調查將有助於了解我們所有人在做出風險決定時所使用的獎賞和概率感知所涉及的大腦機制,以及快樂當我們成功時,我們會感覺到。