發(fā)了瘋地學(xué)習(xí)(下篇)——底層探究,激發(fā)學(xué)習(xí)的元?jiǎng)恿?/h1>
http://www.kaiyang918.com2021年05月28日 13:50教育裝備網(wǎng)
強(qiáng)化學(xué)習(xí),反饋回路與反饋強(qiáng)化就是構(gòu)成人工智能理論中強(qiáng)化學(xué)習(xí)的基礎(chǔ)機(jī)制,強(qiáng)化是指在不斷嘗試中,個(gè)體所學(xué)習(xí)到的反饋回路,不斷更新,并最終優(yōu)化到可能目標(biāo)的過(guò)程,它和監(jiān)督式機(jī)器學(xué)習(xí)一樣,是構(gòu)成人工智能的基石,從生物學(xué)的角度講,強(qiáng)化學(xué)習(xí)更符合人類(lèi)的進(jìn)化方式,從古代的尼安德特人開(kāi)始,不符合正反饋回路的行為或族群就注定被環(huán)境所更新,也意味著淘汰,人類(lèi)之所以進(jìn)化成人類(lèi),是因?yàn)槌丝偨Y(jié)舊有知識(shí)并發(fā)現(xiàn)規(guī)律外,還會(huì)不斷嘗試和探索。深度了解強(qiáng)化學(xué)習(xí)的機(jī)制我們就能發(fā)現(xiàn)“學(xué)習(xí)”這個(gè)動(dòng)作的本質(zhì)。
學(xué)習(xí),究竟是為了什么?不打游戲是為了更好的學(xué)習(xí),更好的學(xué)習(xí)是為了更好的生活,那什么又是更好的生活呢?可以痛快的玩游戲,算不算更好的生活呢。我們從小被教導(dǎo)要好好學(xué)習(xí),卻從來(lái)沒(méi)有真正思考過(guò),為什么要好好學(xué)習(xí),如果連成因機(jī)制都不了解,看再多的思維教學(xué)和學(xué)習(xí)導(dǎo)論,也沒(méi)有辦法讓自己高效的執(zhí)行學(xué)習(xí)這件事,我們真的厭惡學(xué)習(xí)嗎?
其實(shí),站在人工智能的角度看,學(xué)習(xí)和玩游戲沒(méi)有本質(zhì)的區(qū)別,學(xué)習(xí)是一個(gè)枯燥的過(guò)程,你要背單詞,記公式,還要練習(xí),玩游戲也是如此,你要記憶每個(gè)角色的技能,走位技巧,出裝順序,也要通過(guò)很多的對(duì)局來(lái)練習(xí)。在強(qiáng)化學(xué)習(xí)系統(tǒng)中,他們都是一種東西,即“動(dòng)作”。動(dòng)作本身無(wú)所謂枯燥和有趣,關(guān)鍵看它所處的狀態(tài)和預(yù)期的獎(jiǎng)勵(lì)。人類(lèi)厭惡枯燥的東西,所以當(dāng)學(xué)習(xí)索然無(wú)味時(shí),我們就會(huì)討厭學(xué)習(xí),這是天性,學(xué)習(xí)并不能帶來(lái)和游戲一樣的快感,否則的話(huà),沒(méi)有人會(huì)討厭學(xué)習(xí),但是,也有人卻堅(jiān)持學(xué)習(xí)并樂(lè)在其中,為什么?答案就是反饋機(jī)制,當(dāng)學(xué)習(xí)的動(dòng)作帶給人的收益為正,就會(huì)帶給我們所說(shuō)的快感預(yù)期,也即前文所題的多巴胺,如果只靠意志力去學(xué)習(xí),就像不斷繃緊一根弦,強(qiáng)行違背生理的感覺(jué),到最后早晚會(huì)斷掉。
我們絕大多數(shù)人,沒(méi)有移山填海的毅力,因此這樣的學(xué)習(xí)是不科學(xué)的,大腦發(fā)出指令的動(dòng)機(jī)其實(shí)和海洋館里的海豹一樣,是為了眼前那條小魚(yú)干,頂一次球給一條魚(yú),只有不斷收到正向的反饋,才會(huì)自然而然地保持前進(jìn)的動(dòng)力。高清楚了這點(diǎn),我們就可以思考,如何讓自己像打游戲一樣沉迷于學(xué)習(xí)。
我們?cè)撛趺醋?學(xué)霸和學(xué)渣的區(qū)別,就在于對(duì)快感預(yù)期的不同,預(yù)期不同形成的反饋也不同。學(xué)霸,可以看作一個(gè)高效的強(qiáng)化學(xué)習(xí)系統(tǒng),它具備完整的反饋回路以及有效的反饋強(qiáng)化。具體到操作中,成為學(xué)霸,以下三點(diǎn)是基礎(chǔ)。
縮短反饋周期。反饋周期長(zhǎng)意味著半衰期長(zhǎng)。那半衰期是什么,以后的文章我會(huì)講,這里只需要知道,反饋周期太長(zhǎng),是大多數(shù)人無(wú)法堅(jiān)持的主要原因。舉個(gè)例子,有的人高中學(xué)習(xí)成績(jī)很好,可是到了大學(xué)就一落千丈,有人說(shuō)是因?yàn)楦呖贾笕怂尚噶,容易變笨犯懶。很可惜,這個(gè)說(shuō)法并沒(méi)有研究結(jié)論支撐,真正的原因是反饋周期的拉長(zhǎng)。在高中時(shí),一個(gè)月會(huì)有三四次測(cè)試,努力學(xué)習(xí)一個(gè)周,就能看到努力的效果,班級(jí)名次很容易進(jìn)步,接著,同學(xué)吃驚,家長(zhǎng)表?yè)P(yáng),老師夸贊,你會(huì)覺(jué)得很開(kāi)心,打了雞血一樣繼續(xù)學(xué)習(xí),這種感覺(jué)可能會(huì)持續(xù)幾天,還沒(méi)等它消退,下一次考試又來(lái)了,在這樣的反饋回路中動(dòng)作帶來(lái)的獎(jiǎng)勵(lì)被極大加速,整個(gè)系統(tǒng)變得完全正向。而上了大學(xué)以后,認(rèn)真學(xué)習(xí)一個(gè)學(xué)期才能有一個(gè)號(hào)的GPA,這個(gè)反饋周期變長(zhǎng)了好幾倍,而且也很少有人再收到過(guò)度的夸獎(jiǎng)和極大表?yè)P(yáng)。因此,大多數(shù)人堅(jiān)持不下來(lái),取而代之的很多人習(xí)慣,考試前一周開(kāi)始執(zhí)行學(xué)習(xí)的動(dòng)作,因?yàn)橹恍枰恢芫涂梢垣@得獎(jiǎng)勵(lì),比如及格。所以,要想辦法減少你的反饋周期。其他做法,將大目標(biāo)分解成小目標(biāo),會(huì)更容易塑造一個(gè)連續(xù)的回路。
增加反饋強(qiáng)化。前面我們提到過(guò)三種反饋模式,固定比率強(qiáng)化,固定時(shí)距強(qiáng)化,不固定比率強(qiáng)化,那么把游戲替換成學(xué)習(xí),我們需要做什么?可以是考試?yán)鄯e進(jìn)步10名,就請(qǐng)自己吃燒烤;也可以是隔壁班的小愛(ài)刮目相看的SSR;又或是再看三小時(shí)書(shū)就去打游戲。對(duì)應(yīng)到相應(yīng)的收益上來(lái),就是提高學(xué)習(xí)留存率;延長(zhǎng)學(xué)習(xí)時(shí)間;增加學(xué)習(xí)收益。
調(diào)整反饋難度,有研究表明,游戲玩家在大多高難度關(guān)卡挑戰(zhàn)成功后,大腦多巴胺回路會(huì)異常激活,也就是說(shuō),適當(dāng)?shù)母唠y度游戲,能夠最大化的激化反饋回路,這也是很多游戲中設(shè)置排位賽機(jī)制的由來(lái),通過(guò)匹配不同難度的對(duì)手,既不會(huì)讓你一直輸下去,也不會(huì)讓你永遠(yuǎn)贏。而是塑造一種升段掉段的獎(jiǎng)勵(lì)機(jī)制,讓你的反饋回路一直處于半激活狀態(tài)。在學(xué)習(xí)中,如何設(shè)置難度,需要根據(jù)個(gè)人情況制定,下一次考試提高10分,或成為班級(jí)第一,就是兩種不同的難度,既不要太簡(jiǎn)單也不要太難。
一旦大腦完成了一次正反饋回路,那么久嘗試過(guò)一次甜頭,你的動(dòng)力就會(huì)越來(lái)越足,甚至?xí)硎軐W(xué)習(xí)這件事本身像打游戲一樣,瘋狂的學(xué)習(xí),這,就是學(xué)霸的誕生規(guī)則。關(guān)于反饋機(jī)制,還有很多東西可以講,具體的學(xué)習(xí)方法也遠(yuǎn)不止這些。那MR智慧教育,就是在探究學(xué)習(xí)動(dòng)機(jī)和反饋的根源后,高效地輔助教學(xué),引導(dǎo)反饋回路的正向,通過(guò)形象生動(dòng)性增加反饋強(qiáng)化,大數(shù)據(jù)的指導(dǎo)下,也針對(duì)性的調(diào)整反饋難度。奧圖碼MR智慧教育,用底層思維邏輯,運(yùn)用5G/VR/AR/MR/AI等技術(shù)手段,激發(fā)學(xué)習(xí)元?jiǎng)恿Α?
更多精彩,敬請(qǐng)期待。
奧圖碼數(shù)碼科技(上海)有限公司致力于智慧教育驅(qū)動(dòng)力協(xié)作發(fā)展,歡迎合作垂詢(xún)。
注:本文為企業(yè)發(fā)布的推廣文案,不代表本站觀點(diǎn)。
責(zé)任編輯:董曉娟
本文鏈接:TOP↑