操作性學習的兩個階段:目標導向行為和習慣行為

想要了解目標導向行為和習慣行為,首先要理解什麼是操作性條件學習。

操作性條件學習

例如,大鼠身處斯金納箱。科學家為了讓大鼠按壓控制桿,會在大鼠無意中踩中控制桿後,給與大鼠食物獎勵。食物獎勵是一種強化刺激,會增強大鼠壓桿的概率。換一種說法,獎勵會強化刺激和行為之間的聯結。經過一段時間學習後,大鼠會主動按壓控制桿,以獲取食物。

操作性學習的兩個階段:目標導向行為和習慣行為

斯金納箱中的老鼠正在進行操作性學習

這就是操作性條件學習。面對刺激(控制桿),大鼠學習出一套動作(按壓),以此來獲取獎勵。

習慣行為和目標導向行為均脫胎於操作性條件學習,是操作性學習的兩個時間階段。

我們先來看熟悉的習慣行為。

什麼是習慣行為(Habitual behavior)?

習慣行為是一種經過長期重複形成固定動作,不需經大腦思考,自動執行。

從行為學角度來說,習慣行為的本質是刺激到行為的強連接。以斯金納箱裡的大鼠為例,如果大鼠的行為是習慣行為,腳踏板的出現足以引發大鼠踩踏行為。

為了更清晰地理解其含義,來看一個生活中的例子。

例如,每次走到家門口,你都會去摸口袋裡的鑰匙,這是經年累月的習慣動作。家門是習慣行為中的視覺刺激,摸口袋則是視覺刺激引發的行為動作。

操作性學習的兩個階段:目標導向行為和習慣行為

即使某一天,家門升級成密碼鎖,你可能在接下來的一兩個星期內,每次走到家門口,仍然會去摸口袋找鑰匙。這就是習慣的力量。

操作性學習的兩個階段:目標導向行為和習慣行為

習慣行為比較難改變,這在某些情況下是有害的。比如,一些壞習慣,如酗酒、吸菸、濫用藥物等,一旦形成,很難改變。在這些壞習慣的支配下,人們即使已經知道行為的壞結果,也很難改變自己的行為。

但,習慣有其進化上顯著的優點。

面對一個刺激,如果我們經常要執行固定模式的動作,習慣行為的形成可以使行為更迅速、更有效率,同時也能節省許多認知資源。習慣行為執行時,人們不需要思考,因此可以將寶貴的腦資源,例如注意力、工作記憶等,分配給其他任務。

什麼是目標導向行為(Goal-directed behavior)?

跟習慣行為的自動化相反,人們在執行目標導向行為時,會思考每一種行為,每一個選擇帶來的結果,然後做出收益最大的行為。目標導向行為本質上是行為到結果的聯結,不同於習慣行為的刺激到行為的聯結。

例如,女朋友給你送來了兩樣東西:蘋果和礦泉水。

操作性學習的兩個階段:目標導向行為和習慣行為

如果你剛踢完足球,口渴難耐,你會選擇礦泉水,因為礦泉水能以最快的速度緩解口渴。如果是一個陽光明媚的下午,剛睡完午覺,你則會選擇女朋友手中的蘋果,因為你現在不渴,而蘋果的味道會讓春日的午後更加明媚。你會根據自身狀態,做一個收益最大的選擇。

操作性學習的兩個階段:目標導向行為和習慣行為

在做目標導向行為之前,大腦裡會思索每一個選擇帶來的價值。大腦裡存在一個關於外界的模型,模型裡有每種選擇和對應結果。大腦會模擬每種行為帶來的價值,然後選擇價值最大的行為。因此,目標導向行為也被一些科學家稱之為基於模型的行為(model-based behavior)。

目標導向行為雖然會消耗大量認知資源,但它賦予了生命體靈活的行為能力,使生命能在複雜的環境中,做出最佳選擇。

目標導向行為和習慣行為是操作性學習的兩個階段

在操作性條件學習的初期,外部環境是陌生的,人們不知道某一種行為會帶來什麼樣的結果,也不清楚哪一種選擇會帶來最大收益。因此,此時的行為是目標導向行為,人們會根據結果隨時調整自己的行為。

而在操作性條件學習後期,人們已經摸索出了一套最佳行為方案。只要執行這一套方案,就能獲取最大的利益。人們不需要在為此耗費腦力。這時,習慣行為就形成了。

操作性學習的兩個階段:目標導向行為和習慣行為

操作性條件學習早期,動物行為是目標導向行為。學習晚期轉變習慣行為

科學家在大鼠實驗中證實了這一點。

來自大鼠的實驗證據

目標導向行為會根據行為結果隨時調整行為模式。而對於習慣行為,即使結果改變了,習慣動作在短期內也很難改變。

兩者的區別在於此。

科學家據此設計了結果貶值實驗來鑑別習慣行為和目標導向行為。

大鼠身處T字迷宮的長臂。當“嘀嘀”聲響起時,大鼠向左拐,進入T字左臂末端,會得到巧克力。而當“嗡嗡”聲響起時,大鼠向右拐,進入右臂末端,會得到糖水。錯誤地拐彎什麼獎勵也沒有。

操作性學習的兩個階段:目標導向行為和習慣行為

大鼠T迷宮實驗,不同聲音提示大鼠左拐或右拐,做對能獲得獎勵

經過幾天的訓練後,大鼠的正確率會達到90%以上。此時,可以認為大鼠已經通過初步的學習掌握了遊戲規則。科學家就此停止了這批大鼠的訓練。科學家稱這批老鼠為閾值訓練組。

而對於另一批大鼠,正確率達90%以後,訓練並沒有停止,其目的是過度訓練大鼠。過度訓練是學習後期。

操作性學習的兩個階段:目標導向行為和習慣行為

一組大鼠過度訓練,一組大鼠訓練剛剛好

隨後,科學家開始了貶值實驗。

在大鼠的籠子裡,科學家首先喂大鼠巧克力,然後給大鼠來上一針氯化鋰,使其渾身難受。如此重複多次,大鼠就將巧克力和生病聯繫在一起。大鼠開始厭惡巧克力,巧克力對大鼠來說,價值降低了。

操作性學習的兩個階段:目標導向行為和習慣行為

兩組老鼠在巧克力貶值後(Post),食用量都大大降低

貶值操作以後,再把大鼠放進T迷宮做任務。我們可以預測,如果大鼠的行為是習慣行為,嘀嘀聲起時,它依舊會左拐,奔向讓它生病的巧克力。如果是目標導向行為,大鼠聽見嘀嘀聲時,會思考左拐能獲得什麼。當想到獲得的獎勵是巧克力,而巧克力會讓它生病後,它斷然不會再左拐。

實驗結果表明,對於處於學習初期的大鼠,嘀嘀聲響起時,它們不會奔向令其生病的巧克力,寧願右拐奔向沒有任何獎勵另一端。這說明,學習初期的大鼠,其行為是目標導向行為。

而處於過度學習階段的大鼠,嘀嘀聲響起時,它們好像記不得前幾天的噁心嘔吐,依舊向巧克力奔去。這是習慣行為,嘀嘀聲的刺激就足以引發左拐的奔跑動作。

操作性學習的兩個階段:目標導向行為和習慣行為

過度訓練組大鼠在巧克力貶值後,依舊跑向巧克力。而閾值訓練組大鼠則不會再跑向巧克力

以上實驗證明,在學習初期,個體的行為屬於目標導向行為。而在學習後期,所有流程輕車熟路以後,行為會轉變成習慣行為。

結語

習慣行為和目標導向行為是神經科學研究的熱點,控制兩種行為生成和轉化的大腦網絡依然撲朔迷離。但科學家已經發現了可能的關鍵腦區——背側紋狀體。背外側和背內側紋狀體可能是分別控制習慣行為和目標導向行為的中心腦區。

由於篇幅的原因,我們下篇文章繼續。

操作性學習的兩個階段:目標導向行為和習慣行為

左:齧齒類背內側(DMS,紅色)和背外側紋狀體(DLS,藍色)。右:靈長類背內側和背外側紋狀體


分享到:


相關文章: