2020-03-25 09:48:22 brainnews

對他人的刺激和行為的價值進行學習稱之為社會（社交）學習

，社會學習有助於提高個體生存率，對文化演化至關重要。該綜述對不同物種之間，針對厭惡和喜好的不同情緒效價的社交學習和其中的神經細算系統進行了回顧。

社會學習通常基於自身經驗、價值學習、誤差預測計算，在跨腦區的神經環路以及處理社交信息的不同腦區中實現。文章對社會學習相關的神經學和計算學觀點與對各種複雜行為的理解相結合，從最基本的迴避危險行為到複雜的社會學習策略。

在過去幾十年中，學習理論，認知科學和人工智能的想法都聚集在一個統一的框架，那就是強化學習。其目的是來學習如何回報最大化，並儘量減少懲罰。基於該理論提出的Rescorla–Wagner學習法則，強調了預測誤差的概念，即對先天刺激的經驗值與可區分的線索的期望值的差值，強化學習則是一直更新並縮小該差值。

日後許多工作都將涉及到神經和計算估值系統，包含決策的學習分成兩類，分別是巴普洛夫式經典條件反射學習系統與操作式條件反射學習系統。二者具有相似的預測和糾錯系統，但學習預測與行為的關係不盡相同。接下來，文章將針對兩個學習系統進行細緻的討論。

在討論社會相關學習之前，我們需要先關注一下非社會式的通過直接經驗的學習，即直接感知環境中危險或者獎賞。我們進而可以分為直接式巴普洛夫學習和直接式操作式學習。

在巴普洛夫式危險學習中，在齧齒類動物模型試驗中發現前額皮層、海馬(HPC)、杏仁核、中腦等多腦區對巴普洛夫式危險學習的不同階段有響應。在基於人的臨床實驗中，顯示杏仁核、海馬、前額皮層的廣泛連接，島葉皮層、扣帶皮層（ACC）、杏仁核的相互連接都對巴普洛夫式危險學習有響應。而在巴普洛夫式獎勵學習中，VTA-NAcc環路，杏仁核/海馬/前額皮層-NAcc環路，包括眶額葉皮層作用於獎勵信息或獎勵線索等行為中。

對於直接操作式學習，其本質是學習新行為來避免危險或得到獎勵，利用個人經驗評估行為和結果之間的關係來避免危險或者獲得食物和安全。BLA/HPC/PFC三個不同的腦區分別對紋狀體的投射對操作式行為中價值的編碼起到不同的作用。而多巴胺皮質紋狀體環路對於獎勵相關的強化學習中誤差預測至關重要。

接下來文章著重討論社會學習，同樣，我們可以分為巴普洛夫式社會學習和操作式社會學習。

對於巴普洛夫式社會學習，ACC-BLA, ACC-HPC環路編碼社會危險學習；而在社會獎勵學習中，NAcc、VTA 和杏仁核於直接經驗式巴普洛夫獎勵學習一樣，共用同一套正負價值編碼系統。

對於操作式社會學習中的危險學習，該行為的優勢是使個體學習成本降低，從其他個體的危險學習中得到經驗，避免自身的危險因素，增強了迴避反應的社交式學習能力。其中，內側前額皮層（mPFC）在操作式的社會危險學習中起到重要作用；對於社交式操作獎勵學習，mPFC、腹側紋狀體、NAcc都參與其中。紋狀體、扣帶皮層有可能參與到對誤差信號的預測中。

可以看出，無論是直接經驗還是間接式社會經驗，巴普洛夫式學習抑或是操作式學習，在很大程度上共用一套神經環路系統，但在細微的功能上存在差別。

在未來的研究中，將計算系統的社會學習功能與基礎神經網絡進行結合，利用更多的動物模型探究社交行為的細胞分子機制，底層神經環路基礎。

聯繫小編，留言：思維導圖，獲取高清版導圖

參考文獻：

Olsson, A., Knapska, E. & Lindström, B. The neural and computational systems of social learning. Nat. Rev. Neurosci. 1–16 (2020) doi:10.1038/s41583-020-0276-4.