Obrázky mozku ukazují, jak strategie učení fungují

Nová výzkumná studie zkoumá, jak mozek aktualizuje naši paměťovou banku, aby zlepšil naše očekávání ohledně budoucích odměn.

Aktualizace je nutná, abychom mohli přesně odhadnout tyto odměny tváří v tvář měnícímu se prostředí.

Ačkoli přesně to, jak mozek organizuje tento proces, zůstává nejasné, nová studie naznačuje, že naším chováním se řídí kombinace dvou odlišných strategií učení.

Článek o práci se objeví v časopise Neuron.

Jedna přijatá strategie učení, která se nazývá učení bez modelu, se opírá o srovnání pokusů a omylů mezi odměnou, kterou v dané situaci očekáváme, a odměnou, kterou skutečně dostaneme.

Výsledkem tohoto srovnání je vygenerování „chyby predikce odměny“, která tomuto rozdílu odpovídá.

Například chyba predikce odměny může odpovídat rozdílu mezi předpokládanou peněžní návratností finanční investice a našimi skutečnými výdělky.

Ve druhém mechanismu, který se nazývá modelové učení, mozek generuje kognitivní mapu prostředí, která popisuje vztah mezi různými situacemi.

„Učení založené na modelech je spojeno s generováním„ chyby predikce stavu “, která představuje úroveň překvapení mozku v nové situaci vzhledem k jeho současnému odhadu prostředí,“ říká Jan Gläscher, postdoktorand Caltech a vedoucí autor studie.

"Přemýšlejte o situaci, kdy se po cestě domů vydáte po stejné trase, ale v určitý den je obvyklá cesta z důvodu stavebních prací zablokována," říká Gläscher.

"Bezmodelový systém učení by byl bezmocně ztracen; týká se pouze přijímání akcí, které byly v minulosti přínosné, takže pokud tyto akce již nebudou k dispozici, nebude moci rozhodnout, kam dále.

"Ale systém založený na modelu by byl schopen dotazovat se na svou kognitivní mapu a zjistit efektivní objížďku pomocí alternativní trasy."

„Přestože byl jednodušší mechanismus učení bez modelu dobře prostudován a jeho základní mechanismus učení - který je poháněn chybami predikce odměn - je poměrně dobře pochopen, mechanismy, které tvoří základ sofistikovanějšího modelu učení, s jeho bohatou adaptabilitou a flexibilitou , jsou méně dobře pochopeni, “říká John P. O'Doherty, profesor psychologie na Caltech.

Aby dále charakterizovali neurologické základy těchto dvou systémů učení, navrhli Gläscher, O'Doherty a jejich kolegové počítačový rozhodovací úkol, který jim umožnil měřit, kdy a kde mozek vypočítává chybové a předpovědní chybové signály a k určení, zda tyto dva typy chyb ve skutečnosti produkují různé neurální podpisy.

V úkolu si subjekty musely vybrat mezi levým a pravým pohybem, který jim umožňoval přepínat mezi různými „stavy“ - označenými grafickými ikonami - ve virtuálním prostředí; proces je podobný postupu při navigaci v jednoduché videohře.

Každá volba zleva nebo zprava provedená v tomto virtuálním prostředí vedla subjekt do nového stavu. Jejich cílem bylo dosáhnout konkrétního cílového stavu, aby získali peněžní odměnu, „a jejich šance skončit v tomto cílovém stavu silně závisely na konkrétním vzoru postupných voleb, které učinili,“ vysvětluje O’Doherty.

Systém založený na modelu se může dozvědět o struktuře virtuálního prostředí a poté tyto informace použít k výpočtu akcí potřebných k získání stavu odměny, analogickým způsobem, jakým by se šachista mohl pokusit promyslet potřebné postupné šachové tahy vyhrát zápas.

Systém bez modelu by se naopak naučil slepě volit akce, které v minulosti dávaly odměnu, aniž by vyhodnotil důsledky v současné situaci.

Osmnáct účastníků bylo skenováno pomocí funkčního zobrazování magnetickou rezonancí, když se učili úkol. Skeny mozku ukázaly výrazný, dříve charakterizovaný neurální podpis chyby predikce odměny - generované během učení bez modelu - v oblasti uprostřed mozku, která se nazývá ventrální striatum.

Během modelového učení se však neurální podpis chyby predikce stavu objevil ve dvou různých oblastech na povrchu mozku v mozkové kůře: intraparietální sulcus a laterální prefrontální kůra.

Tato pozorování naznačují, že v lidském mozku se počítají dva jedinečné typy chybových signálů, které se vyskytují v různých oblastech mozku a mohou představovat samostatné výpočetní strategie pro vedení chování.

„Systém bez modelu funguje velmi efektivně v situacích, které jsou vysoce automatizované a opakující se - například když se pravidelně vydávám stejnou cestou domů z práce,“ říká Gläscher, „zatímco model založený na systému, i když vyžaduje mnohem větší mozkovou výpočetní výkon, je schopen se pružně přizpůsobit novým situacím, jako je potřeba najít novou trasu po zátarasu. “

Tyto dva odlišné mechanismy učení slouží doplňkovým rolím při řízení lidského chování, říká Gläscher.

"Protože výpočetní výkon našich mozků je omezený, nemá smysl nasazovat výpočetně náročnější model založený na řízení všeho, co děláme." Místo toho je pro většinu našeho každodenního chování lepší spoléhat se na model bez systému a systém založený na modelu používat pouze pro nové nebo složité situace. Důležitou oblastí pro další výzkum bude pokus o pochopení faktorů ovlivňujících vzájemnou interakci těchto systémů za účelem kontroly chování a stanovení způsobu, jakým je to implementováno v mozku. “

Zdroj: Kalifornský technologický institut

!-- GDPR -->