Co může asociativní učení udělat pro plánování?

Úvod

K údivu celého světa nyní modely asociativního učení používané ve výzkumu umělé inteligence (AI) dosahují dovedností na úrovni člověka ve videohrách a porážejí lidské mistry v čínských stolních hrách Go , šachy a šógi . Navzdory skutečnosti, že asociativní učení v rámci výzkumu umělé inteligence je uznáváno pro vytváření chování podobného lidskému, asociativní učení se často buď nezmiňuje (např. ), nebo je vnímáno jako nechtěné či nedostatečně propracované (např. ), aby poskytlo vysvětlení flexibilního chování u zvířat, která nejsou lidmi. Je zajímavým paradoxem, že asociativní učení je uznáváno pro vytváření komplexního flexibilního chování v rámci výzkumu umělé inteligence, ale často je odmítáno a opomíjeno jako model pro flexibilní chování v biologických systémech (jak u lidí, tak u nehumánních zvířat).

Zda lze vývoj sekvencí chování u nehumánních zvířat chápat z hlediska asociativního učení, či nikoli, má dalekosáhlé důsledky pro naše chápání studia chování. Pokud se chování vnímané jako pokročilé nebo komplexní, jako je používání nástrojů u šimpanzů (Pan troglodytes), může vyvíjet prostřednictvím asociativních procesů, lze hledat druhové rozdíly ve smyslu genetických rozdílů v repertoáru chování, exploračních tendencí, jako je zvědavost, a motivačních a pozornostních faktorů. Pokud asociativní procesy nestačí k vysvětlení toho, jak jsou informace zpracovávány a vzpomínky aktualizovány, aby se vytvořilo chování, pak je třeba identifikovat alternativní mechanismy, abychom pochopili, jak se takové chování vyvíjí. V současné době mají vědci na tuto problematiku velmi protichůdné názory. Na jedné straně někteří naznačují, že asociativní procesy spolu s faktory, jako je velikost repertoáru chování a explorace, jsou mocné a mohou vysvětlit velkou část toho, jak zvířata získávají chování (např. ). Jiní naopak zdůrazňují alternativní mechanismy a navrhují, že zvířata mají mnoho různých mechanismů, které řeší různé specifické problémy, a že tyto mechanismy jsou vyladěny evolucí (např. ). Ne všechny studie spadají do těchto dvou kategorií a některé studie testují alternativní vysvětlení a kontrolují asociativní učení. Je však běžné, že takové studie předpokládají pouze nejjednodušší formy asociativního učení. To pravděpodobně vede k falešnému zamítnutí hypotéz o asociativním učení. Je tomu tak proto, že většina obratlovců a bezobratlých vykazuje schopnosti jak instrumentálního, tak pavlovovského učení , které spolu se specializovanými paměťmi činí většinu zvířat schopnými složitějšího učení, než jaké umožňují nejjednodušší formy asociativního učení.

Cílem této studie bylo prozkoumat, zda nám model učení , podobný posilovacímu učení používanému ve výzkumu umělé inteligence, může pomoci pochopit získávání plánovacího chování u korálovců a opic, chování někdy vnímaného jako složité a podobné lidskému. Bylo zjištěno, že několik druhů plánuje flexibilně do budoucna, ne nepodobně jako člověk (např. ). Představa je taková, že tento druh plánování je výsledkem pružného mentálního mechanismu, který dokáže na základě aktuálních informací mentálně simulovat různé budoucí stavy. Tato tvrzení však byla zpochybněna na základě nejméně dvou různých argumentačních linií. Zaprvé, vědci vznesli pochybnosti ohledně obecné schopnosti ptáků plánovat, protože studie plánování u ptáků obvykle zahrnují specialisty na kešování, kteří plní úkoly spojené s kešováním, jako jsou sojky křovinářky (Aphelocoma californica), sojky obecné (Garrulus glandarius) a slípky černohlavé (Poecile atricapillus) . Tyto výsledky mohou být způsobeny specializovaným paměťovým repertoárem (srov. ). Druhým důvodem pro odmítnutí myšlenky, že nelidská zvířata flexibilně plánují, je to, že pozorované chování nebylo způsobeno plánováním podobným lidskému, ale je nejlépe chápáno jako výsledek asociativního učení, a že metodologické nedostatky činí tyto studie nejednoznačnými .

Proč by byl model asociativního učení užitečný pro pochopení chování orientovaného na budoucnost? Asociativní učení je dobře známo tím, že způsobuje anticipační chování, chování, které může předvídat pozdější významné události bez okamžitého přínosu . Navíc sebekontrola, často zmiňovaná jako důležitá pro plánování , může vznikat prostřednictvím asociativního učení . Dalo by se předpokládat, že sebekontrola není prostřednictvím asociativního učení možná, protože chování s okamžitou odměnou by mělo být vždy upřednostňováno před chováním bez odměny. Pro mnoho zvířat je však „vyčkávání“ nebo „sledování“ chování, které může být posíleno, pokud po něm následuje pozdější možnost odměny. Například predátoři se učí dovednosti pronásledování a vyčkávání již v mládí .

Použitý model je model asociativního učení, který je schopen naučit se optimálnímu chování ve složitém světě . Model zahrnuje dvě různé paměti a rozhodovací mechanismus. Jedna paměť uchovává asociační sílu provedení chování B vůči podnětu S a druhá paměť uchovává odhadovanou hodnotu podnětu S. Model se může učit sekvence chování propojením jednotlivých chování prostřednictvím podmíněného posilování (sekundární posilování). Tímto způsobem se původně neutrální podněty, které předcházejí primárním posilovačům, mohou samy stát posilovači, a tím modifikovat dříve neodměňované chování . Například králík vycvičený klikrem slyšel před odměnou za potravu opakovaně kliknutí. Pro tohoto králíka se kliknutí samo o sobě stane odměnou a králík se naučí provádět chování, které vede pouze k tomu, že slyší kliknutí . Tento model je dále vysvětlen v části Materiál a metody níže.

Tady testuji hypotézu, že model asociativního učení může vysvětlit výsledky zjištěné v nelidských plánovacích studiích. Model učení byl použit k simulaci výsledků dvou plánovacích studií, jedné s orangutany (Pongo pygmaeus) a bonoby (Pan paniscus) a jedné s havrany (Corvus corax) . Bylo zjištěno, že simulace sledují klíčové vzorce v rámci těchto studií i mezi nimi. Z toho vyplývá, že nelze vyloučit, že studie flexibilního plánování u lidoopů a krkavcovitých lze vysvětlit asociativním učením. Asociativní učení tedy nemůže vytvářet pouze chování podobné lidskému (např. ), ale je kandidátem na vysvětlení pozorování plánování a sebekontroly u zvířat, která nejsou lidmi.

Materiál a metody

Popisuji zde náš model učení , logiku dvou různých studií, které byly použity pro simulace, a podrobnosti o simulacích.

2.1. Model plánování a sebekontroly. Popis modelu

Zvíře má repertoár chování a může své chování používat k navigaci ve světě zjistitelných stavů prostředí. Chování přenáší zvíře z jednoho stavu do druhého. Každý stav neboli podnět má primární hodnotu posílení, která je geneticky fixována. Tyto hodnoty mohou být negativní, neutrální nebo pozitivní a řídí učení tak, aby bylo podporováno chování podporující přežití a reprodukci. Předpokládá se, že zvířata se rozhodují tak, aby maximalizovala celkovou hodnotu, a očekávání hodnoty budoucího stavu se může vyvinout . Model tak může vytvářet chování zaměřené na cíl (viz další diskuse o chování zaměřeném na cíl a učení).

Krátce řečeno, model popisuje učení sekvencí chování vůči podnětům prostřednictvím změn v paměti. Zahrnuje rozhodování, které bere v úvahu paměť, aby určilo, jaké chování má být zvoleno při vnímání daného podnětu. Vezměme si například učení se jednotlivému chování, jako když se pes učí dávat pac v reakci na povel „potřes“. Zvednutí tlapky je chování, povel „potřes“ a odměna jsou podněty. Posloupnost událostí, které se má pes naučit, je: povel „zatřesení“ → zvednutí tlapy → odměna, nebo

Povel „zatřesení“→zvednutí tlapy→odměna za jídlo

Model shromažďuje informace o hodnotě provádění chování vůči různým podnětům (nebo stavům) a informace o hodnotě různých podnětů (nebo pobytu v určitých stavech) . K učení dochází prostřednictvím aktualizací dvou různých druhů pamětí. Tyto vzpomínky odpovídají pavlovovskému a instrumentálnímu učení a jsou aktualizovány po sekvenci událostí jako v příkladu se psem nebo obecně po sekvenci událostí S → B → S′. Prvním druhem paměti je asociace podnět-odpověď. Použili jsme vS→B pro označení síly asociace mezi podnětem S a chováním B. Z funkčního hlediska lze vS→B popsat jako odhadovanou hodnotu provedení chování B při vnímání podnětu S. Druhá paměť uchovává hodnotu podnětu. Pro označení této hodnoty podnětu jsme použili wS, která se aktualizuje podle hodnoty následujícího podnětu. Jinými slovy, wS je hodnota podmíněného posílení pobytu ve stavu S. Tyto paměti se aktualizují podle

ΔvS→B=αv(uS′+wS′-vS→B)aΔwS=αw(uS′+wS′-wS)}2,1

po prožití sekvence událostí S → B → S′. Asociace podnět-odpověď vS→B se aktualizuje podle uS′ primární vrozené fixní hodnoty podnětu S′ a wS′ podmíněné hodnoty posílení a dříve uložené asociace podnět-odpověď vS→B. Při podmíněném posílení je hodnota provedení chování B při vnímání podnětu S součtem primární a podmíněné hodnoty posílení podnětu S′. Pokud se použije pouze první rovnice a vyloučí se w, pak představuje instrumentální učení podnět-odpověď, tj. instrumentální verzi klasického Rescorla-Wagnerova modelu učení . Rychlosti učení αv a αw určují rychlost, s jakou probíhá aktualizace paměti.

Pro to, aby model učení mohl generovat a vybírat chování, je zapotřebí mechanismus rozhodování. Použili jsme mechanismus rozhodování, který vybírá reakce na chování a způsobuje určitou variabilitu chování prostřednictvím průzkumu. Ten určuje pravděpodobnost chování B ve stavu S jako

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

který obsahuje parametr β, který reguluje množství průzkumu. Pokud je β = 0, jsou všechna chování vybrána se stejnou pravděpodobností bez zohlednění odhadovaných hodnot. Pokud je β velký, bude vybráno především chování s nejvyšší odhadovanou hodnotou (v).

Vraťme se k psovi pro praktický příklad. Pes uslyší povel „zatřes“, podnět S. Pokud pes pohne tlapou nahoru, tedy provede chování B, dostane odměnu S′. Potravinová odměna S′ má primární vrozenou hodnotu u. Když pes obdrží tuto odměnu poté, co správně zareagoval na povel „třeste“, paměť podnět-odpověď vpovel `třeste`→zvedněte packu se zvýší podle horního řádku rovnice (2.1). Kromě toho se hodnota podnětu w povelu „zatřes“ aktualizuje podle spodního řádku rovnice (2.1). Tato hodnota w povelu „zatřes“ se přiblíží hodnotě u potravní odměny, a tím získá sama o sobě posilující vlastnosti; stane se podmíněným posilovačem. Podmíněný posilovač může připravit půdu pro učení dalších chování před posunutím tlapy nahoru. K tomu může dojít proto, že chování, které vede k tomu, že pes uslyší povel „třes“, může být posíleno.

2.2. Posílení chování. Simulace plánovacích studií na lidoopech a krkavcovitých

Simulace plánovacích experimentů byly založeny na podrobném popisu průběhu událostí ve dvou studiích, kde byly identifikovány klíčové události. Klíčové události zahrnovaly, jaké chování bylo trénováno před testy a vůči jakým objektům a jaké výsledky byly výsledkem různých rozhodnutí během předtréninku a testů. V těchto studiích je důležité identifikovat podrobnosti , protože testovací fáze zahrnovaly kombinaci odměňujících a neodměňujících akcí. Proto se očekávalo, že se v průběhu testů budou měnit jak hodnoty podnět-odpověď (v), tak hodnoty podnětů (w).

Aby byly simulace možné a zároveň realistické, předpokládalo se, že zvířata do těchto studií vstupovala s některými nezbytnými každodenními dovednostmi. Předpokládalo se, že zvířata se například již dříve naučila držet předměty, jak se pohybovat mezi místnostmi a odděleními, kde se nacházejí různé věci, a některé základní dovednosti týkající se interakce s experimentátory. Opice byly například po volbách vyvedeny z pokusné místnosti, aby se do ní později mohly vrátit. Tím, že se tyto každodenní dovednosti ignorovaly, byly simulace a popisy chování zaměřeny na jedinečné sekvence chování, které se zvířata musela v rámci experimentů naučit.

Dvě studie mají společné klíčové rysy. Před zahájením testování byla zvířata podrobena předtréninku. Zde se učila provádět chování, která byla později hodnocena jako správná. Kromě předtréninku správného chování zahrnovala studie s havrany také trénink vyhasínání. Během extinkčního tréninku měli havrani možnost naučit se, že nefunkční předměty nevedou k odměně. Klíčovými událostmi v obou studiích použitými pro hodnocení správných a nesprávných voleb byly testy s nucenou volbou. Zde byla zvířata nucena vybrat si mezi jedním objektem, o kterém se předtím naučila, že může vést k odměně, a jinými objekty, které nemohly být použity pro pozdější odměnu (distraktory). Krkavci se během tréninku vyhynutí naučili, že tyto distraktory nemohou vést k odměně. Po vynucené volbě byla v obou studiích zařazena určitá časová prodleva, po níž mohla zvířata provést chování s použitím dříve zvoleného objektu. Pokud zvíře provedlo správnou volbu před uplynutím prodlevy, mohlo později zvolený objekt použít k získání odměny. Pokud zvíře před zpožděním provedlo nesprávnou volbu, nemělo po zpoždění žádnou příležitost k odměňujícímu chování.

Provedené simulace následovaly po předtréninkové a testovací fázi studií. Srovnání se provádí s náhodnými úrovněmi správných voleb stanovenými oběma studiemi. Mulcahy & Call očekával, že opice zvolí náhodně správně 25 % případů (jeden funkční objekt a tři distraktory). Kabadayi & Osvath očekával, že havrani náhodně provedou 25 % správných voleb v pokusech 1 a 2 a 20 % správných voleb v pokusech 3 a 4 (jeden funkční objekt a tři distraktory v pokusech 1 a 2 a 1 funkční objekt, 1 malá odměna a tři distraktory v pokusech 3 a 4). Přesné popisy jsou uvedeny v simulačních skriptech (viz elektronický doplňkový materiál). Pro snazší sledování simulací jsou zde uvedeny podrobné popisy obou studií

2.3. Popis Mulcahyho a Callovy studie na lidoopech

Tyto testy byly provedeny s orangutany a bonoby . Studie byla zahájena předvýcvikem. Zde bylo zvíře umístěno do testovací místnosti a trénováno na dva různé úkoly s nástroji, aby získalo odměnu z přístroje. Tyto funkční nástroje budou dále označovány jako funkční předměty. Jedním úkolem bylo vybrat si trubičku a vložit ji do přístroje. Druhým úkolem bylo vybrat si háček a pomocí něj dosáhnout na láhev, na kterou by bez háčku nedosáhlo. Po předtréninku bylo zvíře podrobeno testu nucené volby mezi funkčními objekty a třemi odpovídajícími nefunkčními objekty (později označovanými jako distraktory). Během této nucené volby byl však přístup k přístroji obsahujícímu odměnu zablokován. Po provedení volby bylo zvíře odvedeno z testovací místnosti do čekárny. Předměty, které si zvíře nevzalo, byly nyní z testovací místnosti odstraněny. V tomto okamžiku došlo ke zpoždění. Po této prodlevě bylo zvíře opět vpuštěno do testovací místnosti a byl mu umožněn přístup k přístroji. Pokud byl v testu nucené volby vybrán funkční předmět, mohlo nyní zvíře tento předmět použít k získání odměny, čímž projevilo chování, které se naučilo během předvýcviku.

Tato studie zahrnovala čtyři testy, které se mírně lišily. Testy se lišily s ohledem na to, jaký nástroj byl funkčním předmětem, a na délku prodlev. V posledním testu navíc zvířata nemusela nástroj použít, aby získala odměnu. Všimněte si, že zde, v experimentu 4, byli použiti dva noví jedinci, kteří se neúčastnili experimentů 1, 2 ani 3. V experimentu 4 byli použiti dva noví jedinci. Tato poslední část zde neměla velký význam z důvodů uvedených v části Výsledky. Simulace se řídily logikou studie a zde jsou uvedeny podrobnosti o klíčových událostech a zpožděních použitých v simulaci:

  • Předškolení: Před testy se všechny subjekty naučily používat funkční nástroje. Ve dvou krocích bylo povoleno minimálně tři plus osm předtréninkových pokusů pro úlohu s trubkou a minimálně pět předtréninkových pokusů pro úlohu s hákem.

  • Experiment 1, podmínka s trubkou: (1) Vynucená volba s funkční trubicí a distraktory (16 pokusů). (2) Po volbě přejít do jiné místnosti. (3) Počkat 1 h. (4) Vrátit se, a pokud byla vybrána funkční trubice, bylo možné ji použít k získání odměny.

  • Experiment 2, podmínka trubice: (1) Vynucená volba s funkční trubicí a distraktory (12 pokusů). (2) Po volbě přejít do jiné místnosti. (3) Počkat 14 h. (4) Vrátit se, a pokud byla vybrána funkční trubice, bylo možné ji použít k získání odměny.

  • Experiment 3, podmínka s háčkem: (1) Vynucená volba s funkčním háčkem a distraktory (16 pokusů). (2) Po volbě přejít do jiné místnosti. (3) Počkejte 1 h. (4) Vraťte se, a pokud byl vybrán funkční hák, mohl být tento použit k získání odměny.

  • Experiment 4, podmínka s hákem: (1) Vynucená volba s funkčním háčkem a distraktory (16 pokusů). (2) Po volbě přejít do jiné místnosti. (3) Počkat 1 h. (4) Vrátit se, a pokud byl vybrán funkční háček, byla získána odměna bez použití háčku.

Sekvence chování k naučení byly následující:

  • Podmínka trubky: Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Háček podmínka: Stube → Btake hook → Sapparatus → Buse hook → Sreward

V obou podmínkách nebyly opice nikdy odměňovány za výběr distraktorů, nebo:

  • Distraktory: Sdistractor → Btake distractor → Sno reward

2.4. Popis Kabadayi & Osvathovy studie na havranech

Tyto testy byly provedeny s havrany . Tato studie začala předvýcvikem. Zde bylo zvíře umístěno do testovací místnosti a trénováno na dva různé úkoly s nástroji, aby získalo odměnu z přístroje. Stejně jako výše budou funkční nástroje označovány jako funkční objekty. Jedním úkolem bylo vložit kámen do přístroje a získat odměnu. Druhým úkolem bylo vzít víčko od láhve (tzv. token) a dát ho člověku. Na rozdíl od studie na opicích byly havranům před zahájením testů umožněny také pokusy s vyhasínáním. Zde byla zvířeti umožněna interakce s předměty, které by byly přítomny během testů s nucenou volbou, ale které nikdy nemohly být použity k získání odměny (později označované jako distraktory). Po předtréninku bylo zvíře podrobeno testu nucené volby mezi funkčním objektem a třemi distraktory. Po provedení volby nesmělo zvíře funkční předmět po určitou dobu použít. Jinými slovy, bezprostředně po testu volby nebylo možné získat žádnou odměnu (s výjimkou experimentu 4). V tomto okamžiku došlo ke zpoždění. Po této prodlevě mohlo zvíře zvolený předmět použít. Pokud byl v testu nucené volby vybrán funkční objekt, mohlo nyní zvíře tento objekt použít k získání odměny, čímž projevilo chování, které se naučilo během předvýcviku.

Tato studie zahrnovala také čtyři testy, které se mírně lišily. Testy se lišily počtem pokusů, délkou prodlev a v posledním testu zvířata nemusela čekat, než použijí funkční předmět k získání odměny. Je třeba poznamenat, že v této studii byly použity dvě různé odměny. Jedna odměna s vysokou hodnotou byla použita v předvýcviku a ve všech pokusech. A v pokusech 3 a 4 byla v situaci nucené volby vedle funkčního nástroje a distraktorů použita známá odměna malé hodnoty. Všimněte si, že experimenty nebyly prováděny ve stejném pořadí, v jakém byly očíslovány v publikované studii. Rozhodl jsem se prezentovat testy v časovém pořadí, v jakém byly provedeny (1,3,2,4). Simulace se řídily logikou studie a zde jsou uvedeny podrobnosti o klíčových událostech použitých v simulaci: Klíčové události před experimenty a během nich byly:

  • Pretraining: Před testy se všechny subjekty naučily používat funkční nástroje. Ve dvou krocích bylo povoleno minimálně tři plus pět předtréninkových pokusů pro úlohu s nástroji a 35 předtréninkových pokusů pro úlohu se žetony.

  • Pokusy s vybíjením: V této fázi bylo subjektům umožněno manipulovat s distraktorovými objekty po dobu 5 minut, aniž by obdržely jakoukoli odměnu.

  • Experiment 1: (1) Vynucená volba s funkčním objektem a distraktorovými objekty. V podmínce nástroje 14 pokusů a v podmínce žetonu 12 × 3 pokusy. (2) Čekání 15 min. (3) Vybraný objekt lze použít znovu, a pokud byl vybrán kámen nebo žeton, bylo možné jej použít k získání odměny.

  • Experiment 3: (1) Nucená volba s funkčním objektem, malou odměnou a distraktorickými objekty. V podmínce s nástrojem 14 pokusů a v podmínce se žetonem 14 pokusů. (2) Vyčkávání 15 min. (3) Vybraný objekt může být použit znovu, a pokud byl vybrán kámen nebo žeton, mohl být použit k získání odměny.

  • Experiment 2: (1) Nucená volba s funkčním objektem a distraktorickými objekty. Šest pokusů v podmínce nástroje a šest pokusů v podmínce žetonu. (2) Čekání 17 h. (3) Vybraný objekt může být použit znovu, a pokud byl vybrán kámen nebo žeton, mohl být použit k získání odměny.

  • Experiment 4: (1) Nucená volba s funkčním objektem, malou odměnou a distraktorickými objekty. Čtrnáct pokusů v podmínce nástroje a čtrnáct pokusů v podmínce žetonu. (2). Pokud byl vybrán kámen nebo žeton, mohl být použit k získání odměny.

Sekvence chování k naučení byly následující:

  • V podmínce nástroje: Stolička → Bvzít nástroj → Sapparatus → Bpoužít nástroj → Sodměna

  • Podmínka tokenu: Stoken → Btake token → Shuman → Bgive token → Sreward

Krkavci byli také během fáze vymírání naučeni, že se nikdy neodměňuje výběr nebo použití distraktorů. Tak tomu bylo i během všech testů, nebo:

  • Distraktory: Sdistractor → Btake distractor → Sno reward

Ve fázích sebekontroly měli havrani možnost vybrat si malou odměnu, která byla prezentována vedle funkčního předmětu (nástroje nebo žetonu) a distraktorů. Proto byly v pokusech 3 a 4 možné i tyto sekvence chování:

  • Podmínka nástroje: Sdog granule → Bpřijmout malou odměnu → Smalá odměna

  • Podmínka s žetonem:

2.5: Sdog kibble → Btake small reward → Ssmall reward

2.5. Ilustrace aktualizací paměti během předtréninku

Pro ilustraci toho, jak jsou tyto sekvence chování ovlivněny učením, uvádíme příklad aktualizací paměti pro předtrénink ve studii s havrany. Sekvenci chování, která se vyvinula během předtréninku, lze popsat jako Stolička → Nástroj Btake → Sapparatus → Nástroj Buse → Sreward, kde se hodnota vložení kamene do aparátu zvýšila, takže vSapparatus → Nástroj Buse≫0. Protože model zahrnuje i podmíněné posilování, hodnota samotného kamene se aktualizuje podle hodnoty následujícího podnětu, velké odměny. Při opakovaných zkušenostech bude hodnota podnětu (w) Sodměna způsobovat růst hodnoty podnětu Stolička. Jak je uvedeno v našem popisu tohoto modelu , s dostatečným počtem zkušeností se hodnota nástroje přiblíží hodnotě velké odměny. Naproti tomu extinkční pokusy s opakovanými neodměněnými zkušenostmi se třemi distraktory lze popsat jako Sdistractor → Bpick distractor → Sno reward. Tato sekvence událostí způsobí snížení jak asociační síly výběru distraktoru vSdistractor → Bpick distractor, tak hodnoty podmíněného posílení (wdistractor) distraktoru. Když první test začíná vynucenou volbou, bylo chování havranů ovlivněno předtréninkem s kamenem i s distraktory.

2.6. Chování havranů bylo ovlivněno předtréninkem s kamenem i s distraktory. Podrobnosti o simulaci

Výše uvedený model byl začleněn do programu Python, v němž probíhalo učení podle podrobných postupů obou studií, jak jsou definovány výše, aby bylo možné získat odhady pravděpodobností výběru různých podnětů a hodnot v a w v průběhu studií. Byly provedeny dva druhy simulací. Nejprve byly provedeny simulace s úplným modelem a poté simulace bez hodnot podnětů (w), tj. umožňující pouze naši verzi učení podnět-odpověď s použitím pouze prvního řádku rovnice (2.1) spolu s rozhodováním (rovnice (2.2)). To bylo provedeno za účelem prozkoumání rozdílů mezi naším modelem, který zahrnuje podmíněné posilování, a verzí učení pouze na základě podnětu a odpovědi . Tato verze učení stimul-odpověď je totožná s klasickým Rescorla-Wagnerovým pravidlem učení, ale v našem případě jsme ji uvažovali z hlediska instrumentálního namísto pavlovovského nastavení.

Pro zohlednění zpoždění byl do simulace v době zpoždění zahrnut jeden časový krok za minutu. Během těchto časových kroků byl vnímán pouze podnět na pozadí. To není příliš důležité z důvodu aktualizace paměti, protože jak vzpomínky na podnět-odpověď, tak vzpomínky na hodnotu podnětu jsou dlouhodobé vzpomínky. To, že si zvířata pamatují asociace podnět-odpověď a hodnoty podnětů po velmi dlouhou dobu, nebylo zmíněno v žádné ze simulačních studií .

Ve všech simulacích byly použity stejné parametry učení. Všechna chování začínala s počáteční hodnotou podnět-odpověď v = 1, hodnoty v i w byly aktualizovány s rychlostí učení α = 0,2, explorace byla nastavena na β = 1 a odměny byly nastaveny na u = 6 s výjimkou odměn s nízkou hodnotou v experimentech 3 a 4 v Kabadayi & Osvath, které byly nastaveny na u = 2. Náklady na chování pro všechna chování byly 0,1 kromě pasivních reakcí, které byly nastaveny na 0 (viz informace o všech chováních a stimulačních prvcích zahrnutých do simulací v elektronickém doplňkovém materiálu). Všechny simulace byly provedeny pro 500 subjektů a počet pokusů přibližně odpovídal počtu pokusů v experimentech. To, že počet pokusů neodpovídal dokonale empirickým studiím, bylo způsobeno pravděpodobnostní povahou rozhodovací rovnice. Nedostatek informací o počátečních hodnotách zvířat ztěžuje přesné kvantitativní srovnání.

Ačkoli havrani i opice měli bohaté zázemí, dříve naučené chování bylo ignorováno a předpokládalo se, že počáteční hodnoty jsou pro distraktor a funkční objekty stejné. Z důvodu konzervativnosti se předpokládalo, že všechny asociační síly mezi chováním a podněty jsou na začátku simulací stejné. Kabadayi & Osvath nekalibroval preference havranů s ohledem na hodnotu dvou různých potravinových odměn, takže nejsou k dispozici žádné kvantitativní informace o rozdílech mezi dostupnými odměnami. V metodice uvedli, že kvalitní potravní odměna byla větší i atraktivnější. Ve studii o havranech chyběly přesné informace o množství extinkce, proto se předpokládalo, že havrani měli pět zkušeností s extinkcí s distraktory.

Při simulacích bylo použito následující chování a stimulační prvky:

2.6.1. Chování a stimulační prvky, které byly použity při simulacích Chování
  • Mulcahy & Vyvolání trubice: vzít trubici, použít trubici, vzít distraktor, být pasivní

  • Mulcahy & Vyvolání háku: vzít hák, použít hák, vzít distraktor, být pasivní

  • Kabadayi & Nástroj Osvath: vzít nástroj, použít nástroj, vzít rozptylovač, být pasivní, vzít malou odměnu

  • Kabadayi & Osvath Token: vzít token, použít token, vzít rozptylovač, být pasivní, vzít malou odměnu

2.6.2. Stimulační prvky
  • Mulcahy & Call Tube: pozadí, tube, tube task, distractor, reward

  • Mulcahy & Call Hook: pozadí, hook, hook task, distractor, reward

  • Kabadayi & Osvath Tool: pozadí, nástroj, přístroj, distraktor, odměna, malá odměna

  • Kabadayi & Osvath Token: pozadí, token, člověk, distraktor, odměna, malá odměna

2.7. Údaje z empirických studií

Pro porovnání výsledků simulace s empirickými údaji ze dvou studií byly z dostupných údajů v obou příslušných studiích vypočteny průměry (viz obrázky v části Výsledky). Výsledkem byl průměrný podíl správných a nesprávných voleb v testech s nucenou volbou. Všimněte si, že experiment 4 ve studii s opicemi nezahrnoval žádné správné chování při použití nástroje po návratu k přístroji po zpoždění, což ztěžuje interpretaci tohoto experimentu. Kromě toho údaje o volbách pro experiment 4 nebyly v textu k dispozici, proto byly pro tento datový bod použity údaje z . Je nešťastné takto míchat data, ale rozhodl jsem se pro tento postup ve prospěch vynechání dat z experimentu 4.

Výsledky

Celkově se simulace shodovaly s výsledky studie krkavce i lidoopa. Simulace ukazují, jak mohou dva faktory společně přispívat k budoucímu cílenému chování lidoopů a krkavcovitých. Za prvé, podmíněné hodnoty posílení funkčních objektů, stanovené prostřednictvím předtréninku a vymírání, byly schopny řídit počáteční správné volby. To ukazuje obrázek 1, kde je znázorněn podíl správných voleb. Za druhé, správné volby byly odměňovány v průběhu všech studií, s výjimkou experimentu 4 v experimentu s opicemi. To, že používání funkčních objektů bylo po celou dobu odměňováno, stačilo k tomu, aby výkony byly výrazně nad úrovní náhody (obrázek 1). Ve studii s havrany odměny poskytované v průběhu experimentu dobře vysvětlují téměř dokonalý výkon ve dvou závěrečných částech této studie.

Obrázek 1. Odměny poskytované v průběhu experimentu vysvětlují téměř dokonalý výkon ve dvou závěrečných částech této studie. Výsledky empirických (tečky) a simulačních (čáry) údajů znázorňující podíl správných odpovědí na funkční objekty a v případě studie havranů simulovaný podíl odpovědí na malé odměny (přerušované čáry). Bonobové a orangutani jsou v horním panelu a havrani v dolním panelu. U opic byla volba trubice správná v pokusech 1 a 2 (levá čára) a volba háčku byla správná v pokusech 3 a 4 (pravá čára). Všimněte si, že osa X na horním panelu je přerušená, protože pokus 4 byl proveden s novými jedinci, kteří před pokusem zažili pouze předtrénink. U havranů byl v první polovině experimentu správnou volbou nástroj (levá čára). V druhé části experimentu byl správnou volbou žeton (pravý řádek). Vodorovné čáry představují očekávané náhodné úrovně správných voleb během fází testu (tj. trubka, hák, nástroj a žeton). Empirické údaje jsou průměry údajů z konce každé příslušné fáze ve dvou studiích . Grafika bonobo a havrana byla stažena z webu openclipart.org.

Shoda mezi empirickými testy (zobrazenými jako vyplněné kroužky na obrázku 1) a simulacemi byla dobrá v tom, že funkční objekty byly vybrány s větší pravděpodobností než objekty distraktorů. Simulace také sledovaly obecné trendy v tom, že se výkonnost ve studii s lidoopy během pokusů 1 a 2 zvýšila a že se v pokusu 3 snížila. Ačkoli simulace podhodnotily výkon v podmínce nástroje ve studii havranů, simulace přesně sledovaly vzorec v tom smyslu, že výkon byl vysoký v experimentu 1, snížil se v experimentu 3, aby v experimentu 4 dosáhl téměř dokonalého výkonu. Jedním z důvodů nižší úspěšnosti simulace v podmínce s nástroji může být to, že havrani byli dobře vycvičeni a měli bohaté zázemí, které je v testovacích situacích užitečné. Tito ptáci byli vychováváni lidmi a pravidelně s nimi komunikují. Jsou také obeznámeni s mnoha různými předměty, experimentálními sestavami a odměnami. Naproti tomu simulace začínaly za předpokladu nulových předchozích znalostí. Mezi simulacemi a empirickými údaji došlo k těsné shodě pro podmínku žetonu, ale snížení výkonu během experimentu 3 bylo v empirických údajích větší.

Simulace také zachytily, že veleptáci vykazovali celkově nižší úspěšnost než krkavcovití. K tomuto rozdílu mohly přispět nejméně dva faktory. U lidoopů proběhlo před testováním méně tréninků než u krkavcovitých a na rozdíl od krkavcovitých nebyl lidoopům před testováním umožněn trénink extinkce s distraktorskými objekty. To je vidět na obrázku 1, kde je pravděpodobnost výběru správného objektu na začátku experimentu 1 u havranů ve srovnání s opicemi mnohem vyšší. To, že velké množství pokusů před tréninkem (35 v podmínce se žetony) v kombinaci s pokusy s extinkcí může vést k vysokému výkonu při vynucené volbě, se nejzřetelněji ukazuje v podmínce se žetony ve studii s havrany. Zde simulace přesně sledovala pozorovanou vysokou úspěšnost.

Předtrénink a extinkční trénink neovlivnily pouze pravděpodobnost správného rozhodování. Simulace ukazují, jak předtrénink a extinkce ovlivňují také podíl výběru nesprávných objektů, jako jsou malé odměny (obr. 1). Vliv předtrénování a extinkce se nejvýrazněji projevil v podmínce s žetony ve studii s havrany, kde simulace naznačuje, že pravděpodobnost, že by havrani měli zvolit malé odměny místo funkčních objektů, se blížila nule. Velké množství odměňujících zkušeností s funkčními objekty (nástroj a žeton) vedlo k velkým hodnotám podmíněného posílení pro tyto objekty (obrázek 2). Simulace potvrdily vzorec, že havrani si nevybírali malé odměny místo funkčních objektů a že se očekává, že sebekontrola vznikne na základě asociativního učení.

Obrázek 2. Výsledky simulací umožňující porovnání výstupu z našeho modelu učení, který zahrnuje podmíněné posílení (hodnoty podnětů), s instrumentální verzí modelu Rescorla-Wagnera (R-W) . Simulace studie havranů jsou na levé straně a simulace studie opic na pravé straně. Na horních panelech jsou zobrazeny aktualizace paměti: asociace podnět-odpověď v pro chování vůči funkčním objektům a hodnoty podnětů w těchto objektů. Protože funkční objekty samy o sobě nejsou odměňující, simulace ukazují, že asociace podnět-odpověď pro výběr funkčních objektů se u jednoduššího modelu učení (R-W) nevyvinou. A spodní panely ukazují, že model učení stimul-odpověď (R-W) nemůže reprodukovat vzorce chování pozorované ve dvou studiích, což je v příkrém rozporu s naším modelem učení, který umožňuje podmíněné posilování. Experimentální fáze jsou stejné jako na obrázku 1, ale zde nejsou fáze pro přehlednost zobrazeny. Všimněte si, že osy X v pravých panelech jsou přerušeny, protože experiment 4 byl proveden s novými jedinci, kteří před experimentem zažili pouze předtrénink. Grafika havranů a lidoopů byla stažena z webu openclipart.org.

Růst hodnot podnět-odpověď a hodnoty podnětů jsou zobrazeny v horním panelu obrázku 2.

Všimněte si, že experiment 4 ve studii lidoopů se nejméně shoduje se simulacemi. Zde bylo dvěma novým opicím umožněno získat odměnu bez použití dříve funkčního nástroje a vrátily se se správným nástrojem 2 ze 16 případů, což je méně než v simulaci. Tento rozdíl mezi empirickým testem a simulací by bylo možné snížit zvýšením nákladů na chování. Zvýšení nákladů na chování, které nevede k získání odměny, povede k omezení provádění tohoto chování. Není však jasné, co od zvířat v této situaci očekávat, když opice čelí situaci s méně jasnou vazbou mezi nástrojem a odměnou. A dva ze čtyř lidoopů se nikdy nepokusili problém vyřešit. Závěrem lze říci, že je obtížné posoudit přesnost a význam tohoto datového bodu (viz ).

Simulace také ukazují rozdíly mezi modely asociativního učení různé složitosti. Limity naší verze učení podnětem a odpovědí jsou zřejmé při srovnání se simulacemi využívajícími náš model učení, který zahrnuje jak pavlovovské, tak instrumentální učení . Při samotném učení stimul-odpověď se nelze naučit sekvence chování, kdy po chování bezprostředně nenásleduje odměna (obrázek 2). Aby se sekvence chování vyvinuly, musí se podněty více než jeden krok před odměnou stát odměňujícími prostřednictvím podmíněného posílení. Když dříve neutrální podnět získá pozitivní hodnotu w, tj. stane se odměňující, může vést k získání pozitivních hodnot v pro chování, které nevede k okamžité odměně (horní panel na obrázku 2). Při porovnání našeho modelu, který se může učit sekvence chování, s instrumentální verzí Rescorlova-Wagnerova modelu je zřejmé, že pravděpodobnost volby správného podnětu se nezvýší, pokud je povoleno pouze učení podnět-odpověď (obrázek 2). Navíc vzhledem k tomu, že při učení stimul-odpověď jsou hodnoty v aktualizovány pouze okamžitým posilovačem, má to také za následek, že malá odměna bude volena ve prospěch žetonu a nástroje, protože žeton a nástroj se nemohou stát hodnotnými podněty. To je znázorněno na obrázku 2, protože nesprávná volba malých odměn se napříč pokusy zvyšuje, pokud je povolena pouze naše verze učení podnět-odpověď (na obrázku 2 označeno R-W). Samotné učení stimul-odpověď nemohlo vysvětlit výsledky ani ve studii s havrany, ani s lidoopy.

Diskuse

Simulace dvou plánovacích studií na havranech a lidoopech naznačují, že chování, o kterém se dříve tvrdilo, že bylo vyvoláno flexibilním plánováním, lze vysvětlit asociativním učením. Jak se ukázalo ve výzkumu umělé inteligence a chování zvířat, tyto modely asociativního učení jsou výkonné při generování flexibilních sekvencí chování . Závěr učiněný ve studiích o havranech i lidoopech , že havrani a lidoopi řeší tyto problémy specifickým flexibilním mechanismem, má proto malou oporu. Zde provedené simulace podporují kritiky, které tyto výsledky interpretovaly jako důsledky asociativního učení . Pokud se budoucí studie zaměří na odlišení asociativních procesů od jiných druhů mentálních mechanismů, bude pro ně přínosem lepší experimentální design včetně vhodných kontrol využívajících nejmodernější modely učení.

Zajímavé bylo, že simulace zachytily rozdíl mezi studií o krkavcích a lidoopech . To naznačuje, že simulace dobře zachytily účinky fází před tréninkem, vymírání a odměn v průběhu studií. Před prvními testy byly stanoveny vysoké hodnoty podmíněného posílení (w-hodnoty) pro správné objekty (nástroj a žeton) a nízké hodnoty pro distraktory (obrázek 2). To bylo zřejmé zejména v části experimentu s žetony u krkavců, kde byli krkavci podrobeni 35 předtréninkovým pokusům, při nichž byla důsledně odměňována sekvence chování Stoken → Bvzít žeton → Shuman → Bdát žeton → Sodměna (spodní panel, obrázek 1).

Dalším důležitým faktorem pro pozitivní výsledky ve studiích s krkavci a lidoopy bylo, že výběr správných objektů byl odměňován po celou dobu testů. Tím se udržovaly vysoké hodnoty v- a w- pro správné chování, respektive správné objekty. To také vysvětluje, proč havrani zanedbávali malou odměnu, když jim byla předložena společně s funkčními objekty (obrázek 1). Funkční objekty vedly k odměnám opakovaně po celou dobu studie, takže získaly vysoké stimulační hodnoty. Dokud jsou tyto hodnoty vyšší než hodnota malé odměny, budou tyto funkční objekty vybírány po většinu času. Avšak při pouhém učení podnět-odpověď – pouze s povolením aktualizace hodnot v jako v modelu Rescorla-Wagnera – bude vybrána malá odměna, protože tento model postrádá podmíněné posílení (obrázek 2). Pokud se chceme vyhnout učení během testů, je výhodné provádět testy za vymírání, jako například ve studiích přehodnocování výsledků (např. ). Tímto způsobem mohou testy odhalit důsledky předchozích experimentálních manipulací.

Výsledky podporují myšlenku, že sebekontrola vznikla asociativním učením. Již dříve jsme ukázali, jak mohou zvířata prostřednictvím asociativního učení získat sebekontrolu, pokud jim je poskytnut dostatek informací a zkušeností . Kabadayi & Osvath sebekontrolu nedefinoval, ale v předchozí studii ji definoval jako “ potlačení okamžitých pohnutek ve prospěch odložených odměn“. Tento funkční pohled na sebekontrolu odpovídá mnoha popisům chování v literatuře o chování zvířat. Pozorování zvířat, která se naučila odmítat malé odměny, když očekávají velké odměny, nebo jinými slovy odmítat nevýnosnou kořist, když je výnosná kořist hojná, pocházejí například od ryb (slunéčko modré Lepomis macrochirus, ), korýšů (krab pobřežní Carcinus maenas, ) a ptáků (sýkora koňadra Parus major a červenka Tringa totanus, ). Tyto druhy studií byly do značné míry ignorovány ve studiích, kde se sebekontrola často studuje jako samostatný druh mentálního mechanismu a ne jako něco, co podléhá učení (např. ). Ve světle těchto simulací lze naopak předchozí studie sebekontroly v rámci výzkumu poznávání zvířat (jako např. ) nejlépe chápat jako způsobené učením včetně podmíněného posilování .

Teoreticky se sebekontrola může vyvíjet více než jedním způsobem. Sebeovládání může vzniknout získáním vysokých hodnot podmíněného posílení funkčních objektů. Funkční objekt se stává hodnotnějším než malá odměna. Sebeovládání však může vzniknout také tehdy, když je například „čekání“ považováno za chování samo o sobě. V tomto případě může sebekontrola vzniknout prostřednictvím zvýšené hodnoty v pro „čekání“ v přítomnosti určitého podnětu. Sebekontrola u lovících koček se může objevit prostřednictvím vysokých hodnot v pro „čekání“, pokud je kořist vzdálená. Je zapotřebí dalšího výzkumu, abychom lépe pochopili, jak se různé aspekty mechanismů učení vzájemně ovlivňují, aby daly vzniknout vzorcům sebekontroly. Velkou roli pravděpodobně hrají genetické predispozice, které interagují s asociacemi podnět-odpověď a hodnotami podnětů.

Dalším důležitým výsledkem bylo, že rozdíl mezi výkonem krkavců v experimentu 3 a experimentu 4 byl zachycen pomocí simulací. Důvodem dokonalého výkonu v experimentu 4 ve studii havranů i v simulaci bylo vynechání prodlevy mezi volbou a chováním vedoucím k odměně. Místo toho byla možnost použít předmět k získání odměny hned po vynucené volbě. Z tohoto důvodu vedl každý pokus potenciálně přímo k odměně, zatímco výběr správného předmětu v experimentu 3 byl odměněn až po prodlevě. Nebo jinak řečeno, v pokusech 1-3 mohli havrani získat odměnu pouze při každém druhém výběru správného předmětu, zatímco v pokusu 4 získali odměnu pokaždé a bezprostředně poté, co vybrali a použili funkční předmět.

Jednou z podobností mezi naším modelem učení a některými modely posilovacího učení v umělé inteligenci je, že tyto mechanismy umožňují agentům a zvířatům identifikovat stavy světa, které jsou hodnotné, a jaké chování je v těchto hodnotných stavech produktivní. V operačním smyslu tyto modely učení generují plánování, kdy chování (vložit do přístroje nebo dát člověku) vůči podnětu (kámen nebo žeton) přinese v pozdější fázi vysoce hodnotnou potravu. K tomu dochází navzdory tomu, že potrava (nebo jiný odměňující podnět) chybí. Osvath & Kabadayi v odpovědi na kritiku definoval flexibilní plánování jako „rozhodování o budoucnosti mimo svůj současný smyslový rozsah v oblastech, pro které není člověk předurčen“. Bez ohledu na to, zda modely pocházejí z umělé inteligence nebo z chování zvířat , pokud je do modelů učení zahrnuto podmíněné posilování, vznikne plánovací chování, které odpovídá této definici, díky chytré souhře hodnot podnět-odpověď a hodnot podnětů. Klíčové je, že aktuálně dostupné podněty mohou poskytnout informace o tom, jaké chování by mělo být provedeno, aby se dostalo do budoucích hodnotných stavů. Tyto modely učení však nemohou mentálně simulovat různé výsledky, nemohou mentálně cestovat v čase ani vnitřně reorganizovat informace. Abychom parafrázovali Robertse , nelidská zvířata se mohou „zaseknout v čase“, a přitom stále vykazují plánovací chování.

Mulcahy & Call se pokusil vyloučit instrumentální podmiňování jako vysvětlení chování opic provedením experimentu 4. V tomto experimentu se pokusil vyloučit instrumentální podmiňování. Tato fáze byla podobná experimentu 3, ale opice nebyly odměňovány za používání funkčního nástroje. Místo toho, aby opice vstoupila do místnosti s funkčním nástrojem, který by mohla použít k získání odměny (jako v experimentu 3), opice vstoupila do místnosti a našla odměnu, pokud funkční nástroj přenesla z čekárny do testovací místnosti. Argumentovalo se tím, že pokud by si opice vedly v ostatních experimentech lépe než v tomto, naznačovalo by to, že opice plánují pružně. Mulcahy & Call dospěl k závěru, že jejich výsledky „představují skutečný případ plánování budoucnosti“. Ďáblův advokát by mohl identifikovat rozdíly mezi experimenty 3 a 4, čímž by se učení stalo pravděpodobnějším vysvětlením. V experimentu 3 byly opice za používání nástroje výslovně odměňovány. Výsledkem je vysoká hodnota podmíněného posílení pro nástroj a vysoká hodnota podnětu-odpovědi za použití nástroje na přístroji. V experimentu 4 však Mulcahy & Call upozorňuje, že mezi sebráním nástroje v čekárně, přenesením nástroje do testovací místnosti a následným získáním odměny bez použití nástroje uplynula delší doba. Možná, že nízký výkon v experimentu 4 byl způsoben nejasnou vazbou mezi nástrojem a odměnou, protože prodleva brání získání sebrání nástroje pro pozdější získání odměny. Správné kontrolní podmínky jsou důležité, aby bylo možné hypotézy jednoznačně zamítnout (např. nedávné diskuse v ). Náš model učení může být v budoucím výzkumu použit k analýze takových rozdílů v chování způsobených variací v podmínkách učení.

Simulace ukazují, že studii opic a studii havranů lze pochopit prostřednictvím asociativního učení. Výsledky experimentů se specialisty na kešování , pravděpodobně závislé na genetické specializaci , jsou však v současné době mimo rámec našeho modelu učení. Chování při cachování a chování při krmení zahrnuje u zvířat různé motivační stavy . Motivační stavy lze považovat za vnitřní podněty a snadno je začlenit do modelu asociativního učení, což by vedlo k větší flexibilitě, pokud jde o rozhodování o krmení a kešování. Náš model ve své současné podobě nezahrnuje různé motivační stavy, ale uvedli jsme příklady, jak lze do modelu integrovat genetické predispozice . Jedním z možných řešení by bylo zavedení kontextové závislosti, aby se průzkum lišil pro různé vnější podněty a/nebo pro různé vnitřní stavy. Důležité je, že při vytváření předpokladů o flexibilnějších mentálních mechanismech je třeba vzít v úvahu vyšší náklady na exploraci, které vznikají v důsledku zvýšené flexibility (viz ). Očekáváme, že evoluce vyladila genetické predispozice, které spolu s asociativním učením vytvářejí produktivní a druhově specifické chování.

Dalším důležitým bodem pro budoucí studie je, že když se zvířata učí o důsledcích chování a aktualizují se hodnoty podnět-odpověď a hodnoty podnětů, jedná se o dlouhodobé vzpomínky (např. , viz také ). Havran naučený dávat člověku žetony jednoduše nezapomene, jak to má dělat o den později. Z behaviorálního hlediska je podmínka použití nástrojů ve studii o havranech totožná s tím, když majitelé psů učí chlupaté kamarády „uklízet“ tím, že ukládají hračky do určeného koše. Místo aby byl havran odměněn za vložení kamene do přístroje, dostane pes odměnu za vložení hračky do koše. Takové dlouhodobé vzpomínky, které jsou aktualizovány prostřednictvím asociativního učení, se velmi liší od krátkodobé paměti libovolných podnětů .

Závěrem lze říci, že vývoj modelů asociativního učení je ve výzkumu umělé inteligence působivý a modely se ukázaly jako výkonné při generování komplexního chování. Lze si klást otázku, proč se tyto výkonné modely ve větší míře neaplikují na chování zvířat, která nejsou lidmi, a proč jsou tyto modely podceňovány jako příčina flexibilního chování zvířat, která nejsou lidmi. To je zvláště důležité vzhledem k tomu, že výzkum v oblasti poznávání zvířat, kde se tvrdí, že nehumánní zvířata mají vhled, vykazují kauzální uvažování a plán, je pravidelně kritizován za to, že trpí velkými tvrzeními založenými na slabé metodologii (např. ). Jedním ze způsobů řešení tohoto paradoxu asociativního učení je integrace oborů umělé inteligence, učení zvířat a poznávání zvířat . Pro pochopení mechanismů generujících chování budou formální asociativní modely zdola nahoru pravděpodobně poučnější než verbální kognitivní modely „vyššího řádu“ shora dolů. Například proto, že posledně jmenované modely je obtížnější odmítnout a nelze je implementovat do simulací nebo použít při konstrukci robotů. Závěrem lze říci, že nelze vyloučit, že flexibilní plánování u opic a korálovců a pravděpodobně i u mnoha dalších druhů vzniká prostřednictvím asociativního učení.

Dostupnost dat

Obrázky a data ze simulací lze generovat pomocí softwaru a kódu, jak je uvedeno v elektronickém doplňkovém materiálu.

Příspěvky autorů

J.L. koncipoval výzkum, provedl počítačové simulace, analyzoval data a napsal rukopis.

Konkurenční zájmy

Neexistují žádné konkurenční zájmy.

Financování

Tuto práci podpořila Nadace Knuta a Alice Wallenbergových, KAW 2015.005.

Poděkování

Poděkování patří Markusi Jonssonovi, Magnusu Enquistovi, Anně Jon-And a Stefanu Ghirlandovi. Děkuji také dvěma anonymním recenzentům za cenné a zasvěcené připomínky.

Přílohy

Elektronické doplňkové materiály jsou k dispozici online na adrese https://dx.doi.org/10.6084/m9.figshare.c.4302740.

© 2018 The Authors.

Publikováno Královskou společností za podmínek licence Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, která umožňuje neomezené použití za předpokladu, že je uveden původní autor a zdroj.

  • Mnih Vet al.2015Řízení na lidské úrovni prostřednictvím hlubokého posilovacího učení. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
  • Emery NJ, Clayton NS. 2004Mentalita vran: konvergentní evoluce inteligence u korvidů a opic. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
  • Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontánní prosociální volba šimpanzů. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
  • MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
  • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016Jak šimpanzi spolupracují v konkurenčním světě. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
  • Whiten A. 2017Sociální učení a kultura u dítěte a šimpanze. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
  • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
  • Tomasello M, Call J. 1997Primate cognition. Oxford, Velká Británie: Oxford University Press. Google Scholar
  • Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Insightful problem solving and creative tool modification by captive nontool-using rooks [Prozíravé řešení problémů a kreativní modifikace nástrojů havrany v zajetí, kteří nepoužívají nástroje]. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Odpověď na článek Lind et al: vhled a učení. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
  • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Využití paradigmatu Ezopovy bajky ke zkoumání kauzálního chápání vytlačování vody novokaledonskými vránami. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
  • Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Odkaz, ISI, Google Scholar
  • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
  • Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees and bonobos differ in intrinsic motivation for tool use. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
  • Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behaviour. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Odkaz, ISI, Google Scholar
  • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, Velká Británie: Oxford University Press. Crossref, Google Scholar
  • Carew TJ, Sahley CL. 1986Učení a paměť bezobratlých: od chování k molekulám. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
  • Bouton ME. 2007Učení a chování: moderní syntéza. Sinauer, MA: Sunderland. Google Scholar
  • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behavior. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
  • Mulcahy NJ, Call J. 2006Apes ukládá nástroje pro budoucí použití. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
  • Naqshbandi M, Roberts WA. 2006Předvídání budoucích událostí u opic veverek (Saimiri sciureus) a potkanů (Rattus norvegicus): testy Bischof-Köhlerovy hypotézy. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
  • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planning for the future by western scrub-jays (Plánování budoucnosti u západních křovinářů). Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
  • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobos and orangutans, but not chimpanzees, flexibly plan for the future in a token-exchange task. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
  • Kabadayi C, Osvath M. 2017Ravens paralely great apes in flexible planning for tool-use and bartering. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
  • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
  • Suddendorf T, Corballis MC. 2010Behavioural evidence for mental time travel in nonhuman animals (Behaviorální důkazy mentálního cestování v čase u nelidských zvířat). Behavior. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2010Mentální cestování v čase u zvířat. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
  • Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Bulley A, Miloyan B. 2018Prospekce a přírodní výběr. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
  • Pearce JM. 2008Učení a poznávání zvířat, 3. vyd. Hove, Velká Británie: Psychology Press. Google Scholar
  • Shettleworth S. 2010Poznávání, evoluce a chování. Oxford, Velká Británie: Oxford University Press. Google Scholar
  • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
  • Eaton RL. 1970The predatory sequence, with emphasis on killing behavior and its ontogeny, in the cheetah (Acinonyx jubatus Schreber) [Dravčí sekvence s důrazem na zabijácké chování a jeho ontogenezi u geparda (Acinonyx jubatus Schreber)]. Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
  • Kelleher RT, Gollub LR. 1962Přehled pozitivního podmíněného posilování. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
  • Mackintosh NJ. 1974The psychology of animal learning [Psychologie učení zvířat]. Londýn, Velká Británie: Academic Press. Google Scholar
  • Williams BA. 1994Podmíněné posilování: experimentální a teoretické otázky. Behavior. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
  • McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Austrálie: Darlington Press. Google Scholar
  • Rescorla RA, Wagner AR. 1972Teorie pavlovovského podmiňování: variace v účinnosti posilování a neposilování. In Klasické podmiňování II: současný výzkum a teorie (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
  • Blough DS. 1975Data o ustáleném stavu a kvantitativní model operantní generalizace a diskriminace. J. Exp. Psychol. Anim. Behavior. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
  • Sutton RS, Barto AG. 1998Reinforcement learning (Učení posilováním). Cambridge, MA: MIT Press. Google Scholar
  • Balleine B, Dickinson A. 1991Instrumentální výkon po devalvaci posilovače závisí na motivačním učení. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
  • Dickinson A, Balleine B. 1994Motivační kontrola cíleně zaměřeného jednání. Anim. Learn. Behavior. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
  • Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
  • Werner EE, Hall DJ. 1974Optimální hledání potravy a výběr velikosti kořisti u slunky modré (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
  • Elner RW, Hughes RN. 1978Energetická maximalizace v potravě pobřežního kraba Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
  • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimální výběr kořisti u sýkory koňadry (Parus major). Anim. Behavior. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
  • Goss-Custard JD. 1977Optimální hledání potravy a výběr velikosti červů u červenek, Tringa totanus, v terénu. Anim. Behavior. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
  • Osvath M, Kabadayi C. 2018Contrary to the gospel, ravens do plan flexibly. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
  • Barto AJ. 2003Reinforcement learning (Učení posilováním). In Příručka teorie mozku a neuronových sítí (ed. MA Arbib), s. 963-968. Cambridge, MA: MIT Press. Google Scholar
  • Roberts WA. 2002Are animals stuck in time?“ Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Lind J. 2017’Aesop’s fable‘ experiments demonstrate trial-and-error learning in birds, but no causal understanding. Anim. Behavior. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
  • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Metaanalytické techniky odhalují, že kauzální uvažování koridoru v paradigmatu Ezopovy bajky je řízeno učením metodou pokus-omyl. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
  • Correia SP, Dickinson A, Clayton NS. 2007Západní křovináři předvídají budoucí potřeby nezávisle na svém aktuálním motivačním stavu. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2012Sojky eurasijské (Garrulus glandarius) překonávají svá současná přání, aby předvídaly dvě odlišné budoucí potřeby a vhodně je plánovaly. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Odkaz, ISI, Google Scholar
  • Clayton NS, Dickinson A. 1999Motivační kontrola chování při ukládání do keší u sojky křovinné Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
  • Skinner BF. 1950Are theories of learning necessary?“ Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
  • Vaughan W, Greene SL. 1984Kapacita vizuální paměti holubů. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
  • Gleitman H. 1971Forgetting of long-term memories in animals. In Animal memory (eds W Honig, P James), pp. 1-44. (Zvířecí paměť, eds W Honig, P James). New York, NY: Academic Press. Google Scholar
  • Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwinův omyl: vysvětlení diskontinuity mezi lidskou a nelidskou myslí. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
  • Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
  • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping? Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
  • Shettleworth SJ. 2010Chytrá zvířata a killjoy vysvětlení ve srovnávací psychologii. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
  • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this savmalian order?“ Neuroscience 250, 664-696. [Zpochybnění interpretací pozorování chování kytovců: existuje skutečně podpora pro zvláštní intelektuální status tohoto řádu savců? (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
  • Dymond S, Stewart I. 2016Relational and analogical reasoning in comparative cognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
  • Lindenfors P. 2017Ptačí mozky: Jsou vrány tak inteligentní, jak tvrdí někteří vědci?“ Skept. Mag. 22, 10-11. Google Scholar
  • Lind J, Enquist M. 2009More synthetic work is needed. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.