Vad kan associativ inlärning göra för planering?

Introduktion

Till världens förvåning har associativa inlärningsmodeller som används inom forskningen om artificiell intelligens (AI) nu uppnått mänskliga färdigheter i videospel och besegrat mänskliga mästare i det kinesiska brädspelet Go , schack och shogi . Trots att associativ inlärning inom AI-forskningen erkänns för att producera människoliknande beteende, nämns associativ inlärning ofta antingen inte (t.ex. ), eller uppfattas som oönskad eller otillräckligt sofistikerad (t.ex. ) för att ge förklaringar till flexibelt beteende hos icke-mänskliga djur. Det är en fascinerande paradox att associativ inlärning erkänns för att producera komplexa flexibla beteenden inom AI-forskningen, men ofta avfärdas och försummas som modell för flexibla beteenden i biologiska system (både människor och icke-mänskliga djur).

Om utvecklingen av beteendesekvenser hos icke-mänskliga djur kan förstås i termer av associativ inlärning eller inte, har långtgående konsekvenser för vår förståelse av studiet av beteenden. Om ett beteende som uppfattas som avancerat eller komplext, t.ex. verktygsanvändning hos schimpanser (Pan troglodytes), kan utvecklas genom associativa processer, kan man söka efter artskillnader i termer av genetiska skillnader i beteenderepertoarer, utforskande tendenser som nyfikenhet samt motivations- och uppmärksamhetsfaktorer. Om associativa processer inte räcker för att förklara hur information bearbetas och minnen uppdateras för att generera beteende, måste alternativa mekanismer identifieras för att vi ska förstå hur sådant beteende utvecklas. I dag har forskarna mycket olika uppfattningar om denna fråga. Å ena sidan menar vissa att associativa processer, tillsammans med faktorer som beteenderepertoarens storlek och utforskning, är kraftfulla och kan förklara en stor del av hur djur förvärvar beteenden (t.ex. ). Andra betonar däremot alternativa mekanismer och föreslår att djur har många olika mekanismer som löser olika specifika problem och att dessa mekanismer är finjusterade av evolutionen (t.ex. ). Alla studier faller inte in i dessa två kategorier och vissa studier testar alternativa förklaringar och kontrollerar associativ inlärning. Det är dock vanligt att sådana studier endast utgår från de enklaste formerna av associativ inlärning. Detta resulterar sannolikt i falska förkastningar av hypoteser om associativ inlärning. Detta beror på att de flesta ryggradslösa och ryggradslösa djur har förmåga till både instrumentell och pavlovsk inlärning , som tillsammans med specialiserade minnen gör att de flesta djur är kapabla till mer komplex inlärning än vad de enklaste formerna av associativ inlärning tillåter.

Syftet med den här studien var att utforska om en inlärningsmodell , som liknar förstärkningsinlärning och som används inom AI-forskningen, kan hjälpa oss att förstå förvärvet av planeringsbeteende hos korvfåglar och apor, beteenden som ibland uppfattas som komplexa och människolika. Man har kommit fram till att flera arter planerar flexibelt för framtiden, inte helt olikt människan (t.ex. ). Tanken är att denna typ av planering är ett resultat av en flexibel mental mekanism som mentalt kan simulera olika framtida tillstånd utifrån aktuell information. Dessa påståenden har dock ifrågasatts utifrån minst två olika argumentationslinjer. För det första har forskare uttryckt tvivel om fåglars allmänna förmåga att planera eftersom planeringsstudier hos fåglar vanligtvis omfattar specialister på att gömma saker som utför gömma uppgifter, t.ex. buskskrikor (Aphelocoma californica), gärdsmyg (Garrulus glandarius) och svarthuvade mesar (Poecile atricapillus) . Dessa resultat kan orsakas av specialiserade minnesrepertoarer (jfr ). Det andra skälet till att förkasta idén att icke-mänskliga djur planerar flexibelt är att det observerade beteendet inte orsakades av människoliknande planering, utan bäst förstås som resultat av associativ inlärning, och att metodologiska brister gör dessa studier tvetydiga .

Varför skulle en modell för associativ inlärning vara användbar för att förstå framtidsinriktat beteende? Associativ inlärning är välkänd för att orsaka förutseende beteenden, beteenden som kan förutsäga senare meningsfulla händelser utan omedelbar nytta . Dessutom kan självkontroll, som ofta nämns som viktig för planering , uppstå genom associativt lärande . Man skulle kunna anta att självkontroll inte är möjlig genom associativ inlärning eftersom ett omedelbart belönat beteende alltid bör föredras framför ett icke belönat beteende. Men för många djur är ”vänta” eller ”förfölja” beteenden som kan förstärkas när de följs av senare möjligheter till belöning. Rovdjur lär sig till exempel att förfölja och vänta när de är unga.

Modellen som används här är en associativ inlärningsmodell som kan lära sig optimalt beteende i en komplex värld. Modellen innehåller två olika minnen och en mekanism för beslutsfattande. Det ena minnet lagrar den associativa styrkan av att utföra beteende B mot stimulus S, och det andra minnet lagrar det uppskattade värdet av stimulus S. Modellen kan lära sig beteendesekvenser genom att koppla samman enskilda beteenden genom betingad förstärkning (sekundär förstärkning). På så sätt kan initialt neutrala stimuli som föregår primära förstärkare själva bli förstärkare, vilket ändrar ett tidigare obelönat beteende. En klickertränad kanin har t.ex. hört klick upprepade gånger före belöning med mat. För denna kanin blir ett klick i sig självt belönande och kaninen lär sig att utföra beteenden som endast resulterar i att kaninen hör ett klick . Modellen förklaras närmare i avsnittet Material och metoder nedan.

Här testar jag hypotesen att en modell för associativ inlärning kan förklara de resultat som hittats i icke-mänskliga planeringsstudier. Inlärningsmodellen användes för att simulera resultaten av två planeringsstudier, en med orangutanger (Pongo pygmaeus) och bonobos (Pan paniscus) och en med korpar (Corvus corax) . Simuleringarna visade sig följa viktiga mönster inom och mellan dessa studier. Slutsatsen är att man inte kan utesluta att studier av flexibel planering hos apor och korpar kan förklaras av associativ inlärning. Därför kan associativ inlärning inte bara producera människoliknande beteenden (t.ex. ) utan är en kandidatförklaring till observationer av planering och självkontroll hos icke-mänskliga djur.

Material och metoder

Här beskriver jag vår inlärningsmodell , logiken i de två olika studierna som användes för simuleringarna och detaljer om simuleringarna.

2.1. En beskrivning av modellen

Ett djur har en beteende-repertoar och det kan använda sina beteenden för att navigera i en värld av detekterbara miljötillstånd. Ett beteende för djuret från ett tillstånd till ett annat. Varje tillstånd, eller stimuli, har ett primärt förstärkningsvärde som är genetiskt fixerat. Dessa värden kan vara negativa, neutrala eller positiva, och de styr inlärningen så att beteenden som gynnar överlevnad och reproduktion främjas. Djuren antas göra val som maximerar det totala värdet, och förväntningar på värdet av ett framtida tillstånd kan utvecklas . Modellen kan således generera målinriktat beteende (se för en annan diskussion om målinriktat beteende och inlärning).

Kort sagt beskriver modellen inlärning av sekvenser av beteende gentemot stimuli genom förändringar i minnet. Den omfattar beslutsfattande som tar hänsyn till minnet för att bestämma vilket beteende som ska väljas när ett visst stimulus uppfattas. Ta till exempel inlärning av ett enskilt beteende, till exempel när en hund lär sig att ge sin tass som svar på kommandot ”skaka”. Att lyfta tassen är beteendet, kommandot ”skaka” och belöningen är stimuli. Händelseföljden som ska läras in är: kommando ”skaka” → lyfta tass → belöning, eller

Kommando ”skaka′→lyfta tass→matbelöning

Modellen samlar in information om värdet av att utföra beteenden mot olika stimuli (eller tillstånd), och information om värdet av olika stimuli (eller att befinna sig i specifika tillstånd) . Inlärning sker genom uppdateringar av två olika typer av minnen. Dessa minnen motsvarar pavlovsk och instrumentell inlärning och uppdateras efter en händelsesekvens som i exemplet med hunden, eller i allmänna termer händelsesekvensen S → B → S′. Den första typen av minne är en stimulus-responsassociation. Vi använde vS→B för att beteckna associationsstyrkan mellan stimulus S och beteende B. I funktionella termer kan vS→B beskrivas som det uppskattade värdet av att utföra beteende B när man uppfattar stimulus S. Det andra minnet lagrar värdet av ett stimulus. Vi använde wS för att beteckna detta stimulusvärde och det uppdateras i enlighet med värdet av ett efterföljande stimulus. Med andra ord är wS det betingade förstärkningsvärdet av att befinna sig i tillstånd S. Dessa minnen uppdateras enligt

ΔvS→B=αv(uS′+wS′-vS→B)ochΔwS=αw(uS′+wS′-wS)}2,1

efter att ha upplevt händelseföljden S → B → S′. Stimulans-responsassociationen vS→B uppdateras i enlighet med uS′ ett primärt medfött fast värde för stimulus S′, och wS′ det betingade förstärkningsvärdet och den tidigare lagrade stimulans-responsassociationen vS→B. Med betingad förstärkning är värdet av att utföra beteende B när man uppfattar stimulus S summan av det primära och betingade förstärkningsvärdet för stimulus S′. Om endast den första ekvationen används och w utesluts representerar den instrumentell stimulus-responsinlärning, dvs. en instrumentell version av den klassiska Rescorla-Wagner-inlärningsmodellen . Inlärningshastigheterna αv och αw bestämmer hastigheten med vilken minnesuppdateringar äger rum.

För att inlärningsmodellen ska kunna generera och välja beteende behövs en mekanism för beslutsfattande. Vi använde en mekanism för beslutsfattande som väljer beteendesvar och orsakar en viss variation i beteendet genom utforskning. Detta specificerar sannolikheten för beteende B i tillstånd S som

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

vilket inkluderar en parameter β som reglerar mängden utforskning. Alla beteenden har lika stor sannolikhet att väljas om β = 0 utan att ta hänsyn till uppskattade värden. Om β är stor kommer beteendet med det högsta uppskattade värdet (v) främst att väljas.

Låt oss återvända till hunden för ett praktiskt exempel. Hunden hör kommandot ”skaka”, stimulus S. Om hunden rör sin tass uppåt, dvs. utför beteende B, får den belöningen S′. Matbelöningen S′ har ett primärt medfött värde u. När hunden får denna belöning efter att ha svarat korrekt på kommandot ”skaka” kommer stimulus-responsminnet vkommando `skaka′→lyft tass att öka enligt den översta raden i ekvation (2.1). Dessutom kommer stimulusvärdet w för kommandot ”shake” att uppdateras enligt den nedre raden i ekvation (2.1). Detta värde w för kommandot ”shake” kommer att närma sig värdet u för matbelöningen och därmed få förstärkande egenskaper i sin egen rätt; det har blivit en betingad förstärkare. Den betingade förstärkaren kan bana väg för inlärning av fler beteenden innan tassen flyttas uppåt. Detta kan ske eftersom beteenden som leder till att hunden hör kommandot ”skaka” kan förstärkas.

2.2. Simulering av planeringsstudier på människoapor och korpar

Simuleringarna av planeringsexperimenten baserades på detaljerade beskrivningar av händelseförloppet i de två studier där nyckelhändelser identifierades. Nyckelhändelserna omfattade vilka beteenden som tränades före testerna och mot vilka objekt, och vilka resultat som blev resultatet av olika val under förträningen och testerna. Det är viktigt att identifiera detaljer i dessa studier , eftersom testfaserna innehöll en blandning av belönande och icke belönande åtgärder. Därför förväntades både stimulus-respons (v) och stimulusvärden (w) förändras under testerna.

För att både göra simuleringarna möjliga och realistiska antogs det att djuren gick in i dessa studier med vissa nödvändiga vardagliga färdigheter. Det antogs att djuren till exempel tidigare hade lärt sig att hålla i föremål, hur man rör sig mellan rum och avdelningar, var olika saker var placerade och vissa grundläggande färdigheter när det gäller hur man interagerar med försöksledarna. Aporna fördes till exempel ut ur försöksrummet efter val för att senare släppas in i försöksrummet igen. Genom att bortse från sådana vardagliga färdigheter fokuserades simuleringarna och beteendebeskrivningarna på de unika beteendesekvenser som djuren var tvungna att lära sig som en del av experimenten.

De två studierna har gemensamma huvuddrag. Innan testerna påbörjades utsattes djuren för förträning. Här lärde de sig att utföra beteenden som senare poängsattes som korrekta. Förutom förträning av korrekta beteenden innehöll korpstudien även extinktionsträning. Under extinktionsträningen fick korparna chansen att lära sig att icke-funktionella föremål inte resulterade i belöningar. De viktigaste händelserna i båda studierna som användes för att poängsätta korrekta respektive felaktiga val var tvångsvalstester. Här tvingades djuren att välja mellan ett objekt som de tidigare hade lärt sig kunde resultera i en belöning, kontra andra objekt som inte kunde användas för senare belöningar (distraktionsobjekt). Korparna lärde sig under extinktionsträning att dessa distraktionsobjekt inte kunde resultera i belöningar. Efter det forcerade valet innehöll båda studierna en tidsfördröjning på viss tid, varefter djuren fick utföra ett beteende med hjälp av det tidigare valda objektet. Om ett djur gjorde ett korrekt val före fördröjningen kunde det senare använda sitt valda objekt för att få en belöning. Om ett djur gjorde ett felaktigt val före fördröjningen fanns det inga möjligheter till belönande beteenden efter fördröjningen.

De simuleringar som utfördes följde studiens förträningsfas och testfas. Jämförelser görs med chansnivåer för korrekta val som fastställts av de två studierna. Mulcahy & Call förväntade sig att aporna skulle välja rätt av en slump 25 % av gångerna (ett funktionellt objekt och tre distraktionsobjekt). Kabadayi & Osvath förväntade sig att korparna av en slump skulle göra 25 % korrekta val i experiment 1 och 2 och 20 % korrekta val i experiment 3 och 4 (ett funktionellt objekt och tre distraktionsobjekt i experiment 1 och 2 och 1 funktionellt objekt, 1 liten belöning och tre distraktionsobjekt i experiment 3 och 4). Se simuleringsskripten för exakta beskrivningar (se elektroniskt tilläggsmaterial). För att göra det lättare att följa simuleringarna följer här ingående beskrivningar av de två studierna.

2.3. En beskrivning av Mulcahy och Calls studie på människoapor

Dessa tester utfördes med orangutanger och bonobos . Studien inleddes med förträning. Här placerades ett djur i ett testrum och tränades i två olika verktygsuppgifter för att få en belöning från en apparat. Dessa funktionella verktyg kommer att kallas funktionella objekt. Den ena uppgiften bestod i att välja ett rör och sätta in detta rör i en apparat. Den andra uppgiften var att välja en krok och använda denna för att nå en flaska som inte kunde nås utan att ha kroken. Efter förträning utsattes djuret för ett tvångsvalstest mellan funktionella objekt och tre motsvarande icke-funktionella objekt (senare kallade distraktionsobjekt). Men under detta forcerade val blockerades tillgången till apparaten som innehöll en belöning. Efter att valet gjorts fördes djuret bort från testrummet och in i ett väntrum. Föremål som djuret inte tagit med sig rensades nu bort från testrummet. Vid detta tillfälle skedde en fördröjning. Efter fördröjningen släpptes djuret åter in i testrummet och fick tillgång till apparaten. Om ett funktionellt föremål hade valts i tvångsvalstestet kunde djuret nu använda föremålet för att få en belöning och därmed uppvisa det beteende som det hade lärt sig under förträningen.

Denna studie omfattade fyra tester som var något olika. Testerna varierade med avseende på vilket verktyg som var det funktionella objektet och längden på fördröjningarna. I det sista testet behövde djuren dessutom inte använda verktyget för att få en belöning. Observera att här, i försök 4, användes två nya individer som inte deltog i försök 1, 2 eller 3. Denna sista del var av liten betydelse här av skäl som nämns i avsnittet Resultat. Simuleringarna följde studiens logik, och här är detaljerna om de viktigaste händelserna och fördröjningarna som användes i simuleringen:

  • Förberedande utbildning: Före testerna lärde sig alla försökspersoner att använda de funktionella verktygen. I två steg, minst tre plus åtta förträningsförsök tilläts för röruppgiften och minst fem förträningsförsök tilläts för krokuppgiften.

  • Experiment 1, rörtillstånd: (1) Tvingat val med funktionella rör och distraktionsobjekt (16 försök). (2) Efter valet gå till ett annat rum. (3) Vänta 1 h. (4) Återvänd och om funktionellt rör hade valts kunde detta användas för att få en belöning.

  • Experiment 2, rörbetingelse: (1) Tvingat val med funktionellt rör och distraktionsobjekt (12 försök). (2) Efter valet gå till ett annat rum. (3) Vänta 14 h. (4) Återvänd och om funktionellt rör hade valts kunde detta användas för att få en belöning.

  • Experiment 3, kroktillstånd: (1) Tvingat val med funktionell krok och distraktionsobjekt (16 försök). (2) Efter valet gå till ett annat rum. (3) Vänta 1 h. (4) Återvänd och om funktionell krok hade valts kunde detta användas för att få en belöning.

  • Experiment 4, kroktillstånd: (1) Tvingat val med funktionell krok och distraktionsobjekt (16 försök). (2) Efter valet gå till ett annat rum. (3) Vänta 1 h. (4) Återvänd och om funktionell krok hade valts fick man en belöning utan att använda kroken.

De beteendesekvenser som skulle läras in var följande:

  • Rörvillkor: Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Hook condition: Btake hook → Sapparatus → Buse hook → Sreward

I båda villkoren belönades aporna aldrig för att de valde distraktionsobjekten, eller:

    • Distraktorer: Btake hook → Sapparatus → Buse hook → Sreward

    I båda villkoren belönades aporna aldrig för att de valde distraktionsobjekten: Sdistractor → Btake distractor → Sno reward

2.4. En beskrivning av Kabadayi & Osvaths studie på korpar

Dessa tester utfördes med korpar . Denna studie inleddes med förträning. Här placerades ett djur i ett testrum och tränades på två olika verktygsuppgifter för att få en belöning från en apparat. Liksom ovan kommer funktionella verktyg att kallas funktionella objekt. Den ena uppgiften gick ut på att lägga en sten i en apparat för att få en belöning. Den andra uppgiften gick ut på att ta en flaskkapsel (kallad token) och ge den till en människa. Till skillnad från studien på apor fick korparna innan testerna inleddes också tillåtelse att göra extinktionsförsök innan testerna påbörjades. Här fick djuret interagera med de föremål som skulle vara närvarande under testerna med tvingade val, men som aldrig kunde användas för att få belöningar (senare kallade distraktionsobjekt). Efter förträning utsattes djuret för ett tvångsvalstest mellan ett funktionellt objekt och tre distraktionsobjekt. Efter att ett val gjorts fick djuret inte använda det funktionella objektet under en viss tid. Med andra ord kunde ingen belöning hämtas omedelbart efter valtestet (med undantag för försök 4). Vid denna tidpunkt skedde en fördröjning. Efter fördröjningen fick djuret använda sitt valda föremål. Om ett funktionellt objekt hade valts i det forcerade valtestet kunde djuret nu använda det objektet för att få en belöning och därmed uppvisa det beteende som det hade lärt sig under förträningen.

Denna studie innehöll också fyra försök som var något annorlunda. Testerna varierade med avseende på antalet försök, fördröjningens längd och i det sista testet behövde djuren inte vänta innan de använde ett funktionellt föremål för att få en belöning. Det bör noteras att i den här studien användes två olika belöningar. En belöning med högt värde användes i förträningen och i alla försök. Och i försök 3 och 4 användes en känd belöning av lågt värde i den forcerade valsituationen tillsammans med det funktionella verktyget och distraktionsobjekten. Observera att experimenten inte utfördes i samma ordning som de numrerades i den publicerade studien. Jag har valt att presentera försöken i den tidsmässiga ordning i vilken de utfördes (1,3,2,4). Simuleringarna följde studiens logik, och här är detaljerna om de nyckelhändelser som användes i simuleringen: nyckelhändelserna före och under experimenten var:

  • Förberedande träning: Före testerna lärde sig alla försökspersoner att använda de funktionella verktygen. I två steg, minst tre plus fem förträningsförsök tilläts för verktygsuppgiften och 35 förträningsförsök tilläts för tokenuppgiften.

  • Extinktionsförsök: I denna fas fick försökspersonerna manipulera distraktionsobjekt i 5 minuter utan att få någon belöning.

  • Experiment 1: (1) Tvångsval med funktionellt objekt och distraktionsobjekt. 14 försök i verktygstillståndet och 12 × 3 försök i tokentillståndet. (2) Vänta 15 min. (3) Det valda objektet kan användas igen, och om stenen eller polletten hade valts kunde den användas för att få en belöning.

  • Experiment 3: (1) Tvingat val med funktionellt objekt, liten belöning och distraktionsobjekt. 14 försök i tool condition och 14 försök i token condition. (2) Vänta 15 min. (3) Valet av objekt kan användas igen, och om stenen eller token hade valts kunde den användas för att få en belöning.

  • Experiment 2: (1) Tvångsval med funktionellt objekt och distraktionsobjekt. 6 försök i tool condition och 6 försök i token condition. (2) Vänta 17 h. (3) Valda föremål kan användas igen, och om stenen eller polletten hade valts kunde den användas för att få en belöning.

  • Experiment 4: (1) Tvingat val med funktionellt föremål, liten belöning och distraktionsobjekt. 14 försök i tool condition och 14 försök i token condition. (2). Om stenen eller polletten hade valts kunde den användas för att få en belöning.

De beteendesekvenser som skulle läras in var följande:

  • Verktygskondition: Pall → Btake tool → Sapparatus → Buse tool → Sreward

  • Token condition: Stoken → Btake token → Shuman → Bgive token → Sreward

Raborna fick också under en extinktionsfas lära sig att det aldrig var givande att välja eller använda distraktorobjekt. Detta var också fallet under alla tester, eller:

  • Distraktorer: Sdistractor → Btake distractor → Sno reward

Under studiens självkontrollfaser fick korparna möjlighet att välja en liten belöning som presenterades tillsammans med det funktionella objektet (verktyg eller token) och distraktorobjekten. I experiment 3 och 4 var därför även dessa beteendesekvenser möjliga:

  • Verktygskondition: Sdog kibble → Btake small reward → Ssmall reward

  • Token condition: Sdog kibble → Btake small reward → Ssmall reward

2.5. Illustration av minnesuppdateringar under förträning

För att illustrera hur dessa beteendesekvenser påverkas av inlärning följer här ett exempel på minnesuppdateringar för förträning i korpstudien. Den beteendesekvens som utvecklades under förträningen kan beskrivas som Stool → Btake tool → Sapparatus → Buse tool → Sreward där värdet av att föra in stenen i apparaten ökade, så att vSapparatus → Buse tool≫0. Eftersom modellen även omfattar villkorad förstärkning uppdateras värdet av själva stenen i enlighet med värdet av följande stimulus, den stora belöningen. Med upprepade erfarenheter kommer stimulusvärdet (w) för Sreward att få stimulusvärdet för Stool att öka. Som framgår av vår beskrivning av denna modell , med tillräckligt många erfarenheter kommer värdet av verktyget att närma sig värdet av den stora belöningen. Däremot kan extinktionsförsöken med upprepade obelönade upplevelser av de tre distraktorobjekten utan belöning beskrivas som Sdistractor → Bpick distractor → Sno reward. Denna händelsesekvens kommer att orsaka en minskning av både den associativa styrkan av att välja en distraktor vSdistractor → Bpick distractor och det betingade förstärkningsvärdet (wdistractor) för distraktorn. När det första testet börjar med ett påtvingat val påverkades korparnas beteende av förträningen med både stenen och distraktorerna.

2.6. Simuleringsdetaljer

Modellen ovan införlivades i ett Pythonprogram där inlärning skedde enligt de detaljerade förfarandena för de två studierna, enligt definitionen ovan, för att få uppskattningar av sannolikheterna för att välja de olika stimuli och v- och w-värdena under hela studien. Två typer av simuleringar kördes. Först kördes simuleringar med hela modellen och sedan simuleringar utan stimulusvärden (w), dvs. som endast tillåter vår version av stimulus-responsinlärning där endast den första raden i ekvation (2.1) används tillsammans med beslutsfattande (ekvation (2.2)). Detta gjordes för att utforska skillnaderna mellan vår modell som inkluderar betingad förstärkning och en version av enbart stimulus-responsinlärning . Denna version av stimulus-responsinlärning är identisk med den klassiska Rescorla-Wagner-inlärningsregeln, men i vi betraktade den i termer av en instrumentell i stället för en pavlovsk inställning.

För att ta hänsyn till fördröjningar inkluderades ett tidssteg per minut i simuleringen vid fördröjningstillfällen. Under dessa tidssteg upplevdes endast ett bakgrundsstimulans. Detta är inte särskilt viktigt med tanke på minnesuppdateringar eftersom både stimulus-respons- och stimulusvärdeminnen är långtidsminnen. Att djur minns stimulus-responsassociationer och stimulusvärden under mycket lång tid nämndes inte i någon av de simulerade studierna .

Samma inlärningsparametrar användes i alla simuleringar. Alla beteenden startade med ett initialt stimulus-responsvärde v = 1, både v- och w-värdena uppdaterades med inlärningshastigheten α = 0,2, utforskningen sattes till β = 1 och belöningarna sattes till u = 6 bortsett från belöningarna med lågt värde i experiment 3 och 4 i Kabadayi & Osvath som sattes till u = 2. Beteendekostnaden för alla beteenden var 0,1 förutom passiva svar som sattes till 0 (se information om alla beteenden och stimuluselement som ingår i simuleringarna i det elektroniska tilläggsmaterialet). Alla simuleringar kördes för 500 försökspersoner och antalet försök var ungefär detsamma som i experimenten. Att antalet försök inte helt överensstämde med de empiriska studierna berodde på den probabilistiska karaktären hos beslutsekvationen. Bristen på information om djurens utgångsvärden försvårar exakta kvantitativa jämförelser.

Och även om både korparna och aporna hade en rik bakgrund ignorerades tidigare inlärda beteenden och utgångsvärdena antogs vara desamma för distraktionsobjekt och funktionella objekt. För att vara konservativ antogs alla associativa styrkor mellan beteenden och stimuli vara lika i början av simuleringarna. Kabadayi & Osvath kalibrerade inte korparnas preferenser med avseende på värdet av de två olika matbelöningarna, så det finns ingen kvantitativ information om skillnaderna mellan de tillgängliga belöningarna. De uppgav i metoden att den högkvalitativa matbelöningen var både större och mer attraktiv. Exakt information om mängden av utrotning saknades i korpstudien, därför antogs det att korparna hade fem utrotningsupplevelser med distraktorerna.

De beteenden och stimuluselement som användes i simuleringarna var följande:

2.6.1. Beteenden
  • Mulcahy & Call Tube: ta tub, använda tub, ta distraktor, vara passiv

  • Mulcahy & Call Hook: ta krok, använda krok, ta distraktor, vara passiv

  • Kabadayi & Osvath Tool: ta verktyg, använda verktyg, ta distraktor, vara passiv, ta liten belöning

  • Kabadayi & Osvath Token: ta token, använda token, ta distraktor, vara passiv, ta liten belöning

2.6.2. Stimuluselement
  • Mulcahy & Call Tube: bakgrund, tub, tubuppgift, distraktor, belöning

  • Mulcahy & Call Hook: bakgrund, krok, krokuppgift, distraktor, belöning

  • Kabadayi & Osvath Tool: Bakgrund, verktyg, apparat, distraktor, belöning, liten belöning

  • Kabadayi & Osvath Token: Bakgrund, token, människa, distraktor, belöning, liten belöning

2.7. Data från de empiriska studierna

För att jämföra simuleringsresultaten med de empiriska data från de två studierna beräknades medelvärden från de tillgängliga data i de två respektive studierna (se figurer i Resultat). Detta resulterade i den genomsnittliga andelen korrekta och felaktiga val i testerna med tvingade val. Observera att experiment 4 i apsstudien inte innebar något korrekt beteende med hjälp av verktyget när man återvände till apparaten efter fördröjningen, vilket gör att detta experiment är svårt att tolka. Dessutom fanns inte uppgifter om val för experiment 4 tillgängliga i texten, varför data från användes för den datapunkten. Det är olyckligt att blanda data på detta sätt, men jag valde detta till förmån för att lämna data från experiment 4 utanför.

Resultat

Samt sett stämde simuleringarna överens med resultaten från både korp- och människoapstudien. Simuleringarna visar hur två faktorer tillsammans kan bidra till det framtidsinriktade beteende som människoapor och korpar uppvisar. För det första kunde konditionerade förstärkningsvärden för funktionella objekt, som fastställts genom förträning och utrotning, styra de första korrekta valen. Detta visas i figur 1 där andelen korrekta val visas. För det andra belönades korrekta val under hela studien, med undantag för försök 4 i apförsöket . Att användningen av funktionella objekt var belönande hela tiden var tillräckligt för att driva fram prestationer långt över slumpmässiga nivåer (figur 1). I korpstudien förklarar de belöningar som gavs under experimentet väl den nästan perfekta prestationen i de två sista delarna av den studien.

Figur 1. Resultat från empiriska (prickar) och simuleringsdata (linjer) som visar andelen korrekta svar på funktionella objekt, och för korpstudien den simulerade andelen svar på små belöningar (streckade linjer). Bonobos och orangutanger finns i den övre panelen och korpar i den nedre panelen. För aporna var det korrekt att välja röret i experiment 1 och 2 (vänster linje), och att välja en krok var det korrekta valet i experiment 3 och 4 (höger linje). Observera att X-axeln i den översta panelen är bruten, eftersom experiment 4 gjordes med nya individer som endast upplevde förträning före experimentet. För korparna var det korrekta valet under den första halvan av experimentet ett verktyg (vänster linje). En token var det rätta valet i den andra delen av experimentet (högra linjen). Horisontella linjer är förväntade slumpmässiga nivåer av korrekta val under testfaserna (dvs. rör, krok, verktyg respektive token). Empiriska data är medelvärden av data från slutet av varje respektive fas i de två studierna . Bonobo- och korpgrafik hämtades från openclipart.org.

Passningen var god mellan de empiriska testerna (som visas som fyllda cirklar i figur 1) och simuleringarna i det avseendet att funktionella objekt hade större sannolikhet att väljas än distraktionsobjekt. Simuleringarna följde också de allmänna trenderna i och med att prestandan ökade i studien av människoapor under försök 1 och 2 och att prestandan minskade i försök 3. Även om simuleringarna underskattade prestandan i verktygsbetingelsen i korpstudien följde simuleringarna noggrant mönstret i det att prestandan var hög i försök 1, minskade i försök 3 för att nå nästan perfekt prestanda i försök 4. En anledning till att simuleringen hade en lägre framgång i verktygstillståndet kan vara att korparna var vältränade och hade rika bakgrunder som är till hjälp i testsituationer. Dessa fåglar uppfostrades av människor och interagerar regelbundet med människor. De är också bekanta med många olika föremål, försöksuppställningar och belöningar. Däremot började simuleringarna med att utgå från inga förkunskaper. Det fanns en nära överensstämmelse mellan simuleringarna och de empiriska uppgifterna för tokenvillkoret, men minskningen av prestationen under försök 3 var större i de empiriska uppgifterna.

Simuleringarna fångade också upp att människoaporna uppvisade en totalt sett lägre framgångsfrekvens än vad korparna gjorde. Minst två faktorer kan ha bidragit till denna skillnad. Aporna upplevde mindre förträning än korparna och till skillnad från korparna fick aporna inte tillåtelse till extinktionsträning med distraktionsobjekten före testet. Detta visas i figur 1 där sannolikheten att välja rätt objekt är mycket högre i början av försök 1 i korpstudien jämfört med apstudien. Att många försök med förträning (35 i token-tillståndet) i kombination med extinktionsförsök kan resultera i höga prestationer i de påtvingade valen visas tydligast i token-tillståndet i korpstudien. Här följde simuleringen den observerade höga framgångsfrekvensen noga.

Förträning och extinktionsträning påverkade inte bara sannolikheten att fatta korrekta beslut. Simuleringar avslöjar hur förträning och extinction också påverkar andelen som väljer de felaktiga objekten, t.ex. små belöningar (figur 1). Effekten av förträning och extinction var mest uttalad i tokenbetingelsen i korpstudien där simuleringen tyder på att sannolikheten för att korparna skulle välja de små belöningarna framför de funktionella objekten var nära noll. Den stora mängden belöningsupplevelser med de funktionella objekten (verktyg och token) resulterade i stora konditionerade förstärkningsvärden för dessa objekt (figur 2). Simuleringarna bekräftade mönstret att korparna inte valde små belöningar i stället för funktionella objekt, och att självkontroll förväntas uppstå genom associativ inlärning.

Figur 2. Resultat från simuleringarna för att möjliggöra jämförelser mellan resultatet från vår inlärningsmodell som inkluderar betingad förstärkning (stimulusvärden), med en instrumentell version av Rescorla-Wagner-modellen (R-W) . Simuleringar av korpstudien är till vänster och simuleringar av apstudien är till höger. De övre panelerna visar minnesuppdateringar: stimulus-responsassociationer v för beteenden mot funktionella objekt och stimulusvärden w för dessa objekt. Eftersom de funktionella objekten i sig inte är belönande visar simuleringar att stimulus-responsassociationer för val av funktionella objekt inte kommer att utvecklas med den enklare inlärningsmodellen (R-W). Och de nedersta panelerna visar att inlärningsmodellen för stimulus-respons (R-W) inte kan reproducera de beteendemönster som observerats i de två studierna, vilket står i skarp kontrast till vår inlärningsmodell som tillåter betingad förstärkning. Försöksfaserna är desamma som i figur 1, men här visas inte faserna för tydlighetens skull. Observera att X-axlarna i de högra panelerna är brutna eftersom experiment 4 utfördes med nya individer som endast upplevde förträning före experimentet. Grafiken för korp och apa hämtades från openclipart.org.

Växlingen av stimulus-responsvärden och stimulusvärden visas i den översta panelen i figur 2.

Bemärk att experiment 4 i studien av människoapor stämmer minst överens med simuleringarna. Här fick två nya människoapor möjlighet att få belöningen utan att använda det tidigare funktionella verktyget och de återvände med ett korrekt verktyg 2 av 16 gånger, vilket är lägre än i simuleringen. Denna skillnad mellan det empiriska testet och simuleringen skulle kunna minskas genom att öka kostnaden för beteendet. Att öka kostnaden för ett beteende som inte leder till en belöning leder till en minskning av utförandet av beteendet. Men det är oklart vad man kan förvänta sig av djuren i denna situation när aporna ställs inför en situation med ett mindre tydligt samband mellan ett verktyg och en belöning. Och två av de fyra aporna försökte aldrig lösa problemet. Sammanfattningsvis är det svårt att bedöma precisionen och betydelsen av denna datapunkt (se ).

Simuleringarna visar också skillnaderna mellan associativa inlärningsmodeller av olika komplexitet. Gränserna för vår version av stimulus-responsinlärning blir uppenbara när man jämför med simuleringar med hjälp av vår inlärningsmodell som innehåller både pavlovsk och instrumentell inlärning . Vid enbart stimulus-responsinlärning kan man inte lära sig beteendesekvenser där ett beteende inte omedelbart följs av en belöning (figur 2). För att beteendesekvenser ska kunna utvecklas måste stimuli som ligger mer än ett steg före belöningen bli belönande genom betingad förstärkning. När ett tidigare neutralt stimulus får ett positivt w-värde, dvs. blir belönande, kan det leda till att beteenden som inte leder till omedelbar belöning får positiva v-värden (övre panelen i figur 2). När man jämför vår modell som kan lära sig sekvenser av beteenden med den instrumentella versionen av Rescorla-Wagner-modellen är det tydligt att sannolikheten att välja rätt stimulus inte kommer att öka om endast stimulus-responsinlärning tillåts (figur 2). Eftersom v-värdena endast uppdateras av den omedelbara förstärkaren vid stimulus-responsinlärning har detta också till följd att den lilla belöningen kommer att väljas till förmån för polletten och verktyget, eftersom polletten och verktyget inte kan bli värdefulla stimuli. Detta visas i figur 2 eftersom det felaktiga valet av små belöningar ökar över försök när endast vår version av stimulus-responsinlärning tillåts (markerat med R-W i figur 2). Stimulus-responsinlärning i sig kunde inte förklara resultaten i varken korp- eller apstudien.

Diskussion

Simuleringar av de två planeringsstudierna på korpar och människoapor tyder på att beteenden som tidigare påstods ha genererats av flexibel planering kan förklaras av associativ inlärning. Som visats inom forskning om artificiell intelligens och djurbeteende är dessa modeller för associativ inlärning kraftfulla när det gäller att generera flexibla beteendesekvenser . Därför har den slutsats som drogs i både korp- och människoapstudierna , att korpar och människoapor löser dessa problem med hjälp av en specifik flexibel mekanism, föga stöd. Simuleringar som utförts här stöder kritiker som tolkat dessa resultat som konsekvenser av associativ inlärning . Om framtida studier syftar till att särskilja associativa processer från andra typer av mentala mekanismer, skulle de gynnas av en förbättrad experimentell utformning med lämpliga kontroller som drar nytta av de senaste inlärningsmodellerna.

Det var intressant att notera att simuleringarna fångade skillnaden mellan studien om korpar och människoapor . Detta tyder på att simuleringarna väl fångade effekterna av förträning-, utrotningsfaser och belöningar under hela studien. Höga konditionerade förstärkningsvärden (w-värden) för de korrekta objekten (verktyg och token) och låga värden för distraktionsobjekten fastställdes före de första testerna (figur 2). Detta var särskilt tydligt i token-delen av korpförsöket där korparna utsattes för 35 förträningsförsök där beteendesekvensen Stoken → Btake token → Shuman → Bgive token → Sreward konsekvent belönades (nedre panelen, figur 1).

En annan viktig faktor för de positiva resultaten i studierna av korpar och människoapor var att valet av de korrekta objekten belönades under hela försöken. Detta upprätthöll höga v- och w-värden för korrekta beteenden respektive korrekta objekt. Detta förklarar också varför korparna försummade den lilla belöningen när den presenterades tillsammans med de funktionella objekten (figur 1). De funktionella objekten ledde till belöningar upprepade gånger under hela studien så de hade fått höga stimulusvärden. Så länge dessa värden är högre än värdet av den lilla belöningen kommer dessa funktionella objekt att väljas för det mesta. Men med endast stimulus-responsinlärning – som endast tillåter uppdateringar av v-värden som i Rescorla-Wagner-modellen – kommer den lilla belöningen att väljas eftersom denna modell saknar betingad förstärkning (figur 2). Om man vill undvika inlärning under testerna finns det fördelar med att utföra testerna under utrotning, t.ex. i studier om omvärdering av resultat (t.ex. ). På så sätt kan testerna avslöja konsekvenserna av tidigare experimentella manipulationer.

Resultaten stöder idén att självkontroll uppstod genom associativ inlärning. Vi har tidigare visat hur djur genom associativ inlärning kan förvärva självkontroll, förutsatt att de får tillräckligt med information och erfarenheter . Kabadayi & Osvath definierade inte självkontroll, men i en tidigare studie definierade de det som ” undertryckandet av omedelbara drivkrafter till förmån för fördröjda belöningar”. Denna funktionella syn på självkontroll passar in på många beskrivningar av beteende i litteraturen om djurbeteende. Observationer av djur som lär sig att avvisa små belöningar när de förväntar sig stora belöningar, eller med andra ord avvisa olönsamma byten när det finns gott om lönsamma byten, kommer från t.ex. fiskar (bluegill sunfish Lepomis macrochirus), kräftdjur (strandkrabbor Carcinus maenas) och fåglar (storspovar Parus major och rödhake Tringa totanus). Denna typ av studier har i stor utsträckning ignorerats i studier där självkontroll ofta studeras som en separat typ av mental mekanism och inte något som är föremål för inlärning (t.ex. ). I stället, i ljuset av dessa simuleringar, kan tidigare studier av självkontroll inom forskning om djurs kognition (som t.ex. ) bäst förstås som orsakade av inlärning inklusive betingad förstärkning .

Teoretiskt sett kan självkontroll utvecklas på mer än ett sätt. Självkontroll kan uppstå genom förvärv av höga konditionerade förstärkningsvärden för de funktionella objekten. Det funktionella objektet blir mer värdefullt än en liten belöning. Men självkontroll kan också uppstå om till exempel ”vänta” betraktas som ett beteende i sig självt. I detta fall kan självkontroll uppstå genom ett ökat v-värde för ”vänta” i närvaro av ett visst stimulus. Självkontroll hos jagande katter kan uppstå genom höga v-värden för ”vänta” när de utsätts för ett byte som är långt borta. Mer forskning behövs för att bättre förstå hur olika aspekter av inlärningsmekanismerna samverkar för att ge upphov till mönster av självkontroll. Genetiska anlag spelar sannolikt en stor roll och interagerar med stimulus-responsassociationer och stimulusvärden.

Ett annat viktigt resultat var att skillnaden mellan korparnas prestationer i experiment 3 och experiment 4 fångades upp av simuleringarna. Anledningen till den perfekta prestationen i experiment 4 i både korpstudien och simuleringen var att fördröjningen mellan valet och det beteende som resulterade i belöning utelämnades. I stället fanns det en möjlighet att använda föremålet för att samla in en belöning direkt efter det påtvingade valet. Av denna anledning ledde varje försök potentiellt direkt till belöningar medan valet av rätt objekt i experiment 3 belönades först efter fördröjningen. Eller med andra ord, i experiment 1-3 kunde korparna bara få en belöning varannan gång de valde det korrekta föremålet, medan de i experiment 4 fick belöningar varje gång och omedelbart efter att ha valt och använt det funktionella föremålet.

En likhet mellan vår inlärningsmodell och vissa förstärkningsinlärningsmodeller inom artificiell intelligens är att dessa mekanismer gör det möjligt för agenter och djur att identifiera världsläge som är värdefulla, och vilka beteenden som är produktiva i dessa värdefulla tillstånd. I operativ mening genererar dessa inlärningsmodeller planering när ett beteende (sätta i apparat eller ge till människa) mot en stimulus (sten eller token) kommer att producera mat av högt värde i ett senare skede. Detta sker trots att maten (eller ett annat belönande stimulus) är frånvarande. Osvath & Kabadayi , i ett svar till kritiker, definierar flexibel planering som ”att fatta beslut om framtiden utanför ens nuvarande sensoriska räckvidd inom områden som man inte är förutbestämd för”. Oavsett om modellerna kommer från artificiell intelligens eller djurbeteende, kommer planeringsbeteenden som motsvarar denna definition att uppstå genom ett smart samspel mellan stimulus-responsvärden och stimulusvärden, när villkorad förstärkning ingår i inlärningsmodellerna. Nyckeln är att de för närvarande tillgängliga stimuli kan ge information om vilka beteenden som bör utföras för att komma in i framtida värdefulla tillstånd. Dessa inlärningsmodeller kan dock inte simulera olika utfall mentalt, de kan inte resa mentalt i tiden eller omorganisera information internt. För att parafrasera Roberts , kan icke-mänskliga djur vara ”fast i tiden”, samtidigt som de uppvisar planeringsbeteende.

Mulcahy & Call försökte utesluta instrumentell betingning som förklaring till apornas beteende genom att utföra experiment 4. Denna fas liknade experiment 3, men aporna belönades inte för att använda det funktionella verktyget. I stället för att en apa gick in i rummet med ett funktionellt verktyg som kunde användas för att få en belöning (som i experiment 3), gick en apa in i rummet och fann en belöning om den hade burit det funktionella verktyget till testrummet från väntrummet. Man hävdade att om aporna presterade bättre i de andra experimenten än i detta, skulle det tyda på att aporna planerade flexibelt. Mulcahy & Call drog slutsatsen att deras resultat ”representerar ett genuint fall av framtida planering”. En djävulens advokat skulle kunna identifiera skillnader mellan experiment 3 och 4, vilket gör inlärning till en mer sannolik förklaring. I experiment 3 belönades aporna uttryckligen för att de använde verktyget. Detta resulterar i ett högt konditionerat förstärkningsvärde för verktyget och ett högt stimulus-responsvärde för att använda verktyget på apparaten. I experiment 4 påpekar dock Mulcahy & Call att det gick längre tid mellan att plocka upp verktyget i väntrummet, bära verktyget till testrummet för att därefter få en belöning utan att använda verktyget. Kanske orsakades den låga prestationen i experiment 4 av den otydliga kopplingen mellan verktyget och belöningen, eftersom fördröjningen hämmar förvärvandet av att plocka upp verktyget för att senare få en belöning. Korrekta kontrollförhållanden är viktiga för att möjliggöra ett otvetydigt förkastande av hypoteser (t.ex. de senaste diskussionerna i ). Vår inlärningsmodell kan användas i framtida forskning för att analysera sådana beteendeskillnader som orsakas av variation i inlärningskontingenser.

Simuleringarna visar att apstudien och korpstudien kan förstås genom associativ inlärning. Resultaten från experiment med cachingspecialister , som troligen är beroende av genetiska specialiseringar , ligger dock för närvarande utanför räckvidden för vår inlärningsmodell. Cacherbeteende och matningsbeteende innebär olika motivationstillstånd hos djuren . Motivationstillstånd kan betraktas som interna stimuli och lätt integreras i en associativ inlärningsmodell, vilket skulle leda till ökad flexibilitet när det gäller att fatta beslut om födosök och gömmeri. Vår modell omfattar inte olika motivationstillstånd i sitt nuvarande skick, men vi har gett exempel på hur genetiska anlag kan integreras i modellen . En möjlig lösning skulle vara att införa kontextberoende, så att utforskningen skiljer sig åt för olika externa stimuli och/eller för olika interna tillstånd. När man gör antaganden om mer flexibla mentala mekanismer är det viktigt att ta hänsyn till de högre kostnader för utforskning som uppstår vid ökad flexibilitet (se ). Vi förväntar oss att evolutionen har finjusterat genetiska anlag som tillsammans med associativ inlärning genererar produktiva och artspecifika beteenden.

En annan viktig punkt för framtida studier är att när djur lär sig om konsekvenserna av ett beteende, och stimulus-responsvärden och stimulusvärden uppdateras, är detta långtidsminnen (t.ex. , se även ). En korp som tränas att ge polletter till en människa glömmer inte helt enkelt hur man gör detta en dag senare. Beteendemässigt är verktygsvillkoret i korpstudien identiskt med när hundägare lär pälsvänner att ”städa upp” genom att lägga leksaker i en avsedd korg. I stället för att korpen belönas för att lägga en sten i en apparat får hunden en belöning för att lägga en leksak i en korg. Sådana långtidsminnen som uppdateras genom associativ inlärning skiljer sig mycket från korttidsminnet av godtyckliga stimuli .

Slutsatsen är att utvecklingen av associativa inlärningsmodeller är imponerande inom AI-forskningen och modellerna har visat sig vara kraftfulla när det gäller att generera komplexa beteenden. Man kan fråga sig varför dessa kraftfulla modeller inte tillämpas i större utsträckning på icke-mänskliga djurs beteende och varför dessa modeller underskattas som en orsak till flexibelt beteende hos icke-mänskliga djur. Detta är särskilt relevant med tanke på att forskning om djurs kognition där icke-mänskliga djur påstås ha insikter, uppvisa kausala resonemang och planen kritiseras regelbundet för att lida av storslagna påståenden baserade på en svag metodik (t.ex. ). Ett sätt att lösa denna associativa inlärningsparadox är att integrera områdena AI, inlärning av djur och kognition hos djur . För att förstå mekanismer som genererar beteende kommer formella associativa modeller nedifrån och upp sannolikt att vara mer belysande än verbala kognitiva modeller av högre ordning uppifrån och ned. Till exempel för att de senare modellerna är svårare att förkasta och att de inte kan genomföras i simuleringar eller användas när man bygger robotar. Sammanfattningsvis dras slutsatsen att man inte kan utesluta att flexibel planering hos apor och korvideer, och förmodligen många andra arter, uppstår genom associativ inlärning.

Datatillgänglighet

Figurer och data från simuleringar kan genereras med hjälp av mjukvara och kod enligt vad som anges i det elektroniska tilläggsmaterialet.

Författarnas bidrag

J.L. utformade forskningen, utförde datorsimuleringar, analyserade data och skrev manuskriptet.

Kompletterande intressen

Det finns inga konkurrerande intressen.

Finansiering

Detta arbete stöddes av Knut och Alice Wallenbergs Stiftelse, KAW 2015.005.

Acknowledgements

Tack till Markus Jonsson, Magnus Enquist, Anna Jon-And och Stefano Ghirlanda. Tack också till två anonyma referees för värdefulla och insiktsfulla kommentarer.

Fotnoter

Elektroniskt kompletterande material finns online på https://dx.doi.org/10.6084/m9.figshare.c.4302740.

© 2018 The Authors.

Publicerad av Royal Society enligt villkoren i Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, som tillåter obegränsad användning, förutsatt att originalförfattaren och källan anges.

  • Mnih Vet al.2015.Kontroll på mänsklig nivå genom djup förstärkningsinlärning. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
  • Emery NJ, Clayton NS. 2004The mentality of crows: Convergent evolution of intelligence in corvids and apes. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
  • Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontana prosociala val hos schimpanser. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
  • MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
  • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016Hur schimpanser samarbetar i en konkurrensutsatt värld. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
  • Whiten A. 2017Social learning and culture in child and chimpanzee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
  • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
  • Tomasello M, Call J. 1997Primate cognition. Oxford, Storbritannien: Oxford University Press. Google Scholar
  • Mulcahy NJ, Call J. 2006Hur människoapor presterar på en modifierad trap-tube-uppgift. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Insightful problem solving and creative tool modification by captive nontool-using rooks. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Svar på Lind et al.: Insikt och lärande. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
  • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Using the Aesop’s fable paradigm to investigate causal understanding of water displacement by New Caledonian crows. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
  • Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
  • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
  • Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees and bonobos differ in intrinsic motivation for tool use. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
  • Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behaviour. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
  • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, Storbritannien: Oxford University Press. Crossref, Google Scholar
  • Carew TJ, Sahley CL. 1986Invertebrate learning and memory: from behavior to molecules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
  • Bouton ME. 2007Lärande och beteende: en modern syntes. Sinauer, MA: Sunderland. Google Scholar
  • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
  • Mulcahy NJ, Call J. 2006Apes save tools for future use. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
  • Naqshbandi M, Roberts WA. 2006Anticipation av framtida händelser hos ekorreapor (Saimiri sciureus) och råttor (Rattus norvegicus): test av Bischof-Köhler-hypotesen. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
  • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planering för framtiden av västliga buskhöns. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
  • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobos och orangutanger, men inte schimpanser, planerar flexibelt för framtiden i en uppgift som innebär utbyte av polletter. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
  • Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
  • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
  • Suddendorf T, Corballis MC. 2010 Beteendebevis för mentala tidsresor hos icke-mänskliga djur. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Corballis MC, Collier-Baker E. 2009Hur stor är förutsägbarhet hos människoapor?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2010 Mentala tidsresor hos djur. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
  • Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Bulley A, Miloyan B. 2018Prospection and natural selection. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
  • Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, Storbritannien: Psychology Press. Google Scholar
  • Shettleworth S. 2010Cognition, evolution and behavior. Oxford, Storbritannien: Oxford University Press. Google Scholar
  • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
  • Eaton RL. 1970Predatorsekvensen, med tonvikt på dödande beteende och dess ontogeni, hos geparden (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
  • Kelleher RT, Gollub LR. 1962En genomgång av positiv betingad förstärkning. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
  • Mackintosh NJ. 1974The psychology of animal learning. London, UK: Academic Press. Google Scholar
  • Williams BA. 1994Conditioned reinforcement: experimentella och teoretiska frågor. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
  • McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Australien: Darlington Press. Google Scholar
  • Rescorla RA, Wagner AR. 1972En teori om pavlovsk betingning: variationer i effektiviteten av förstärkning och icke-förstärkning. I Classical conditioning II: current research and theory (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
  • Blough DS. 1975Steady state data and a quantitative model of operant generalization and discrimination. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
  • Sutton RS, Barto AG. 1998Reinforcement learning. Cambridge, MA: MIT Press. Google Scholar
  • Balleine B, Dickinson A. 1991Instrumentell prestanda efter förstärkningsdevalvering beror på incitamentsinlärning. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
  • Dickinson A, Balleine B. 1994Motivational control of goal-directed action. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
  • Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
  • Werner EE, Hall DJ. 1974Optimal foraging and the size selection of prey by the bluegill sunfish (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
  • Elner RW, Hughes RN. 1978Energimaximering i kosten hos strandkrabban Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
  • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimalt bytesval hos mesan (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
  • Goss-Custard JD. 1977Optimalt födosök och storleksval av maskar hos rödhake, Tringa totanus, i fält. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
  • Osvath M, Kabadayi C. 2018Contrary to the gospel, ravens do planning flexiblely. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
  • Barto AJ. 2003Reinforcement learning. I The handbook of brain theory and neural networks (red. MA Arbib), s. 963-968. Cambridge, MA: MIT Press. Google Scholar
  • Roberts WA. 2002Are animals stuck in time?Psychol. Bull. 128, 473-489. (doi:10.1037/003333-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Lind J. 2017’Aesop’s fable’ experiments demonstrate trial-and-error learning in birds, but no causal understanding. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
  • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Meta-analytiska tekniker avslöjar att corvidernas kausala resonemang i Esop’s fabelparadigmet drivs av trial-and-error-lärande. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
  • Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays förutser framtida behov oberoende av sitt nuvarande motivationstillstånd. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2012Eurasian jays (Garrulus glandarius) övervinner sina nuvarande önskemål för att förutse två olika framtida behov och planera för dem på lämpligt sätt. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
  • Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
  • Skinner BF. 1950Are theories of learning necessary?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
  • Vaughan W, Greene SL. 1984Pigeons visuella minneskapacitet. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
  • Gleitman H. 1971Forgetting of long-term memories in animals. I Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
  • Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwin’s mistake: explaining the discontinuity between human and nonhuman minds. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
  • Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
  • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
  • Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
  • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
  • Dymond S, Stewart I. 2016Relationella och analoga resonemang i jämförande kognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
  • Lindenfors P. 2017Bird brains: are crows as intelligent as some scientists claim?Skept. Mag. 22, 10-11. Google Scholar
  • Lind J, Enquist M. 2009Mer syntetiskt arbete behövs. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

Lämna ett svar

Din e-postadress kommer inte publiceras.