機
器
人
操作制約
在上個章節,我們講解了古典制約,學習為甚麼寵物狗在聽到搖鈴時就開始滴口水,但是在這個章節中,操作制約能做到的事情又不一樣了。你知道動物訓練師如何教導大象用前腳走路嗎?知道老師如何教導幼稚園的小嬰兒說「請、謝謝、對不起」嗎?這些都是藉由操作制約才能達成的。
在操作制約中,動物先做出了一個行動,接著他們依據得到的回饋是正向的或是負向的來決定未來是否繼續表現出行為。
操作制約是怎麼形成的呢?
在1898年,心理學家愛德華·桑代克(Edward Thorndike)提出了一個核心理論: 效果律。直白的來講,效果律講述當一個行為被嘉獎了,那這個行為會出現更頻繁,而如果一個行為導致懲罰,則這個行為會減少出現。
愛德華·桑代克;來源:Famous Psychologists
延伸了這個理論的是史金納(B. F. Skinner),20世紀最有影響力的心理學家之一。史金納做了許多實驗來驗證效果律,例如: 藉由讓鴿子走八字和玩乒乓球等。另外,史金納也設計了著名的史金納箱一一個實驗籠子用於觀察動物。史金納箱中有個按鈕,當動物推動按鈕,就會有水、食物送進來,而史金納藉由研究動物們的行為來確定了效果論一動物行為是被他們得到的回報所塑造的。
藉由給予獎勵和懲罰,研究員能讓動物展現原本不會出現的行為(例如上述的鴿子走8字),不過這樣的訓練還是會被動物本身的生理構造所限制(所以你不能訓練狗去飛)。
史金納箱構造;來源:Simple Psychology
獎勵 vs 懲罰
在操作制約中,一個行為的後果影響了行為是否會增加或是減少。而在這邊,回報分為「獎勵」 以及 「懲罰」。
獎勵能增加行為,分為 1. 提供想要的東西 以及 2.移除不想要的東西
懲罰能減少行為,分為 1. 提供不想要的東西 以及 2.移除想要的東西
獎勵/懲罰圖表;來源:鷹式家庭
舉例:
- 獎勵(1. 提供想要的東西):
媽媽在孩子的哭鬧下買了玩具。對於孩子來說,哭鬧的行為的結果是得到玩具,也就是媽媽「提供想要的東西」,所以其實孩子大概以後也會繼續哭鬧。 - 獎勵(2. 移除不想要的東西):
今天頭很痛,所以吃了一顆普拿疼,普拿疼減緩了疼痛,「移除了不想要的東西」,所以以後頭很痛可能就會知道要吃普拿疼。 - 獎勵(混合):
老師看所有同學都很乖,決定把數學課換成電影課。在這裡,老師不只提供了有趣的電影(提供想要的東西),也同時移除了無聊的數學課(移除不想要的東西)。
- 懲罰(1. 提供不想要的東西):
駕駛超速收到罰單,在這個情境了,超速的行為導致了罰單,也是「不想要的東西」所以超速駕駛的行為會減少。 - 懲罰(2. 移除想要的東西):
網路酸民因留言過激而導致帳號使用權被封鎖,也就是「移除了想要的東西」,所以這是一個懲罰。 - 懲罰(混合)
同學 A 不交作業,老師請同學 A 下課去走廊罰站作為懲罰。對於同學A來說,不交作業的行為所帶來的後果是罰站所帶來的無聊,以及被移除自由的下課時間,老師不只 1. 提供不想要的東西 也 2. 移除想要的東西,所以同學 A 可能不會再不交作業了。
讀到這邊,各位可以想想生活周遭還有哪些例子呢?
獎勵週期
在我們提到的獎勵例子中,每次做出行為就會有相應的回饋叫做「連續強化」,這種情況下,學習行為會十分迅速,但是當回饋停止後,行為也會一併快速消失。
例如,如果每次老鼠按壓按鈕就會得到食物,結果突然有一兩次發現沒有食物出現了,那老鼠很快就會停止這個行為。
相反的,如果老鼠按壓按鈕得到食物是不定期的,雖然最剛開始,行為增加的速度會比較慢,不過即便有一兩次沒有出現食物,老鼠也會想說再多試試看幾次,搞不好下次就會出現食物了,這個不及時的獎勵週期也可以被稱為「間歇性強化」。
現實中,我們會使用 4 種間歇性增強獎勵週期。
- 固定比例時制(Fixed Ratio):每做出X次的行為,就會得到獎勵。學習速度快,但是如果停止獎勵,很快行為就會消失。
- 例如:小孩子每幫忙做家事十次就可以得到零用錢。
- 可變比例時制(Variable Ratio):每做出不固定次數的行為,就會得到獎勵。學習速度較固定比例時制慢一點,但是行為即使在停止獎勵的情況下也不易消失。
- 例如:賭博玩老虎雞,不確定甚麼時候會得到獎賞。
- 固定時距時制(Fixed Interval):每一段時間會給出一次獎勵,學習效果在時間快到的時候才會出現並表現行為,如果停止獎勵,則行為消失容易消失。
- 例如:月薪、每一小時才會在老鼠按壓按鈕時給出一次食物。
- 可變時距時制(Variable Interval):不固定時間給出一次獎勵,學習效果最慢但是即便停止獎勵也不容易讓行為消失。
- 例如:老師課堂上有時候突然問加分題,所以學生每天努力複習。
4種間歇性增強獎勵週期的學習速率狀況;來源: Simple Psychology
懲罰可能帶來不良影響
家庭中,一昧的懲罰孩子可能導致不良後果,有心理學者整理了四大原因:
- 被懲罰的行為消失了不代表被忘記,而只是單純被壓抑了而已。當家長發現打罵孩子能讓孩子聽話,從家長的角度來看,家長打罵的行為被「獎勵」了,這可能導致家長更進一步去打罵孩子作為主要教養模式。
- 懲罰很常誤導孩子去著重在辦別環境上,而不是改變行為本身。舉例來說,懲罰孩子罵髒話可能只會讓他們在家裡不罵髒話,但是在學校時仍會繼續罵。
- 懲罰(尤其是肢體的)會帶給孩子恐懼,而且孩子可能不只會將恐懼連結到行為上,也會連結到進行懲罰的人(家長/老師),進而導致家庭關係失調或是對於上學感到緊張。
- 在遭受肢體懲罰的同時,孩子也在藉由觀看,學習那些暴力,這可能會影響他對未來處理人際關係/家庭關係的態度。
因此,許多學者認為與其使用懲罰,可以更著重獎勵/鼓勵,來塑造好的行為。
來源:Parenting for Brain
操作制約如何造成迷信?
有時候,我們會不小心將我們的行為和一個無關聯的結果連結在一起,例如我們大家可能都有考試的幸運物,假設今天我穿藍色的衣服去考試,結果得了滿分,這樣的結果可能會讓我們開始相信我們的行為(穿著藍色衣服)會帶來好成績,但其實兩者之間並沒有任何關聯。另一個例子可能是,今天在進考場前,大叫了三聲,後面結果成績不好,就認為是因為大叫了三聲而導致這個不好的結果的。這種迷信(穿藍色衣服會得好成績、大叫三聲會考差)就是因為我們在操作制約下犯的認知錯誤,所以下次在聽到這種迷信時,不妨想想迷信之所以會出現的原因吧!
日常生活的應用
操作制約在人類社會的應用層出不窮,除了上面提及到的以外,還能更延伸到教育領域,根據史納金所說,教育成功很重要的一點,是人要能及時得知自己的行為是對或者錯誤的,而一個應用就是線上的考試測驗,學生能立刻知道自己的答題正確率,從而調整自己的認知。而在體育領域,我們也看見操作制約的理論能輔助教練訓練選手,剛開始時,只要是小成功就給予正向鼓勵,隨著越來越進步,挑戰也會越來越難,這樣慢慢精進,會讓學習者在成長的過程擁有進取心以及成就感,學習效果也會提升。
總之,操作制約的理論應用在我們生活周遭都可以看見,與古典制約一起,兩者佔據了行為學很重要的地位,希望你讀完這章節能有所獲得。
總結
- 操作制約講述動物們的行為由其結果決定,被獎勵的行為會增加,而被懲罰的行為會減少
- 依據給予獎勵的週期不同分為四種: 固定比例時制、可變比例時制、固定時距時制、可變時距時制。
- 懲罰可能會帶來不良影響,所以在塑造行為時,可以著重在獎勵。
- 操作制約能用來解釋迷信的誕生。
- 在日常生活乃至於教育領域及體育領域都能見到操作制約的應用。
- Myers’ Psychology for the AP Course 3rd Edition
_