Wat kan associatief leren doen voor planning?

Inleiding

Tot verbazing van de wereld bereiken associatief leren modellen die gebruikt worden in kunstmatige intelligentie (AI) onderzoek nu vaardigheden op menselijk niveau in videospelletjes en verslaan menselijke meesters in het Chinese bordspel Go , schaken en shogi . Ondanks het feit dat associatief leren binnen AI-onderzoek wordt erkend voor het produceren van mensachtig gedrag, wordt associatief leren vaak ofwel niet genoemd (bijv. ), ofwel gezien als ongewenst of van onvoldoende verfijndheid (bijv. ) om verklaringen te bieden voor flexibel gedrag bij niet-menselijke dieren. Het is een intrigerende paradox dat associatief leren wordt erkend voor het produceren van complex flexibel gedrag binnen AI-onderzoek, maar vaak wordt verworpen en verwaarloosd als model voor flexibel gedrag in biologische systemen (zowel mensen als niet-menselijke dieren).

Of de ontwikkeling van gedragsreeksen bij niet-menselijke dieren kan worden begrepen in termen van associatief leren of niet, heeft verstrekkende gevolgen voor ons begrip van de studie van gedrag. Als gedrag dat als geavanceerd of complex wordt beschouwd, zoals het gebruik van werktuigen door chimpansees (Pan troglodytes), zich kan ontwikkelen via associatieve processen, kunnen verschillen tussen soorten worden gezocht in termen van genetische verschillen in gedragsrepertoires, exploratieve neigingen zoals nieuwsgierigheid, en motivationele en aandachtsfactoren. Als associatieve processen niet volstaan om te verklaren hoe informatie wordt verwerkt en herinneringen worden bijgewerkt om gedrag te genereren, dan moeten alternatieve mechanismen worden geïdentificeerd om ons te doen begrijpen hoe dergelijk gedrag zich ontwikkelt. Vandaag de dag hebben onderzoekers zeer contrasterende opvattingen over deze kwestie. Aan de ene kant suggereren sommigen dat associatieve processen, samen met factoren zoals de grootte van het gedragsrepertoire en exploratie krachtig zijn en een groot deel kunnen verklaren van hoe dieren gedrag verwerven (bv. ). Anderen daarentegen leggen de nadruk op alternatieve mechanismen en stellen voor dat dieren veel verschillende mechanismen hebben die verschillende specifieke problemen oplossen en dat deze mechanismen door de evolutie zijn verfijnd (bv. ). Niet alle studies vallen in deze twee categorieën en sommige studies testen alternatieve verklaringen en controleren voor associatief leren. Het is echter gebruikelijk dat dergelijke studies alleen uitgaan van de eenvoudigste vormen van associatief leren. Dit resulteert waarschijnlijk in valse verwerpingen van associatief leren hypothesen. Dit komt omdat de meeste gewervelde en ongewervelde dieren capaciteiten vertonen voor zowel instrumenteel als Pavloviaans leren, die samen met gespecialiseerde geheugens de meeste dieren in staat stellen tot complexer leren dan wat de eenvoudigste vormen van associatief leren mogelijk maken.

Het doel van deze studie was te onderzoeken of een leermodel, vergelijkbaar met reinforcement learning gebruikt in AI onderzoek, ons kan helpen de verwerving van planningsgedrag bij korvieren en apen te begrijpen, gedragingen die soms als complex en mensachtig worden beschouwd. Geconcludeerd is dat verschillende soorten flexibel plannen voor de toekomst, niet anders dan mensen (bv. ). Het idee is dat dit soort planning het resultaat is van een flexibel mentaal mechanisme dat mentaal verschillende toekomstige toestanden kan simuleren op basis van de huidige informatie. Deze beweringen zijn echter betwist op basis van ten minste twee verschillende argumentatielijnen. Ten eerste hebben onderzoekers twijfels geuit over het algemene planningsvermogen van vogels, omdat bij planningsstudies bij vogels meestal gebruik wordt gemaakt van specialisten die caching-taken uitvoeren, zoals scrub jays (Aphelocoma californica), Eurasian jays (Garrulus glandarius) en black-capped chickadees (Poecile atricapillus) . Deze resultaten kunnen het gevolg zijn van gespecialiseerde geheugenrepertoires (cf. ). De tweede reden om het idee dat niet-menselijke dieren flexibel plannen te verwerpen is dat het waargenomen gedrag niet veroorzaakt werd door mensachtige planning, maar het best begrepen wordt als het resultaat van associatief leren, en dat methodologische tekortkomingen deze studies dubbelzinnig maken .

Waarom zou een associatief leermodel nuttig zijn voor het begrijpen van toekomstgericht gedrag? Associatief leren is bekend voor het veroorzaken van anticiperend gedrag, gedragingen die latere betekenisvolle gebeurtenissen kunnen voorspellen zonder onmiddellijke voordelen . Bovendien kan zelfcontrole, waarvan vaak gezegd wordt dat ze belangrijk is voor planning, ontstaan door associatief leren. Men zou kunnen veronderstellen dat zelfcontrole niet mogelijk is door associatief leren omdat onmiddellijk beloond gedrag altijd de voorkeur verdient boven niet-belonend gedrag. Maar, voor veel dieren zijn ‘wachten’ of ‘stalken’ gedragingen die versterkt kunnen worden wanneer ze gevolgd worden door latere beloningsmogelijkheden. Bijvoorbeeld, roofdieren leren stalken en wachten wanneer zij jong zijn.

Het hier gebruikte model is een associatief leermodel dat in staat is optimaal gedrag te leren in een complexe wereld. Het model omvat twee verschillende geheugens en een besluitvormingsmechanisme. Het ene geheugen slaat de associatieve kracht op van het uitvoeren van gedrag B ten opzichte van stimulus S, en het andere geheugen slaat de geschatte waarde op van stimulus S. Het model kan gedragsreeksen leren door afzonderlijke gedragingen aan elkaar te koppelen door middel van geconditioneerde bekrachtiging (secundaire bekrachtiging). Op deze manier kunnen aanvankelijk neutrale stimuli die voorafgaan aan primaire bekrachtigers zelf bekrachtigers worden, waardoor voorheen onbeloond gedrag wordt gewijzigd. Bijvoorbeeld, een met clicker getraind konijn heeft herhaaldelijk clicks gehoord voorafgaand aan voedselbeloningen. Voor dit konijn wordt een klik een beloning op zichzelf en het konijn zal leren om gedrag te vertonen dat alleen resulteert in het horen van een klik. Het model wordt verder toegelicht in de Materiaal en methoden sectie hieronder.

Hier test ik de hypothese dat een associatief leermodel de resultaten kan verklaren die in niet-menselijke planningsstudies zijn gevonden. Het leermodel werd gebruikt om de uitkomsten van twee planningsstudies te simuleren, een met orang-oetans (Pongo pygmaeus) en bonobo’s (Pan paniscus) en een met raven (Corvus corax) . De simulaties bleken belangrijke patronen te volgen binnen en tussen deze studies. Geconcludeerd wordt dat niet kan worden uitgesloten dat studies van flexibele planning bij apen en korvieren kunnen worden verklaard door associatief leren. Daarom kan associatief leren niet alleen mensachtig gedrag produceren (bijv. ), maar is het een kandidaat-verklaring voor waarnemingen van planning en zelfcontrole bij niet-menselijke dieren.

Materiaal en methoden

Hier beschrijf ik ons leermodel , de logica van de twee verschillende studies die voor de simulaties werden gebruikt, en details van de simulaties.

2.1. Een beschrijving van het model

Een dier heeft een gedragsrepertoire en het kan zijn gedragingen gebruiken om te navigeren in een wereld van detecteerbare omgevingstoestanden. Een gedrag brengt het dier van de ene toestand naar de andere. Elke toestand, of stimulus, heeft een primaire versterkingswaarde die genetisch is gefixeerd. Deze waarden kunnen negatief, neutraal of positief zijn, en zij sturen het leren zodat gedragingen die overleving en voortplanting bevorderen, worden bevorderd. Dieren worden verondersteld keuzes te maken die de totale waarde maximaliseren, en verwachtingen van de waarde van een toekomstige toestand kunnen zich ontwikkelen. Het model kan dus doelgericht gedrag genereren (zie voor een andere bespreking van doelgericht gedrag en leren).

Kortom, het model beschrijft het leren van gedragsreeksen ten opzichte van stimuli door veranderingen in het geheugen. Het omvat besluitvorming die rekening houdt met het geheugen om te bepalen welk gedrag moet worden gekozen wanneer een bepaalde stimulus wordt waargenomen. Neem bijvoorbeeld het leren van een enkel gedrag, zoals wanneer een hond leert zijn poot op te lichten als reactie op het commando “schudden”. Het optillen van de poot is het gedrag, het commando ‘schudden’ en de beloning zijn stimuli. De te leren gebeurtenissenreeks is: commando ‘schudden’ → poot optillen → beloning, of

Scommando ‘schudden′→poot optillen→voerbeloning

Het model verzamelt informatie over de waarde van het uitvoeren van gedragingen ten aanzien van verschillende stimuli (of toestanden), en informatie over de waarde van verschillende stimuli (of het verkeren in specifieke toestanden) . Het leren gebeurt door updates van twee verschillende soorten herinneringen. Deze geheugens komen overeen met Pavloviaans en instrumenteel leren en worden geactualiseerd na een opeenvolging van gebeurtenissen zoals in het voorbeeld van de hond, of in het algemeen de opeenvolging van gebeurtenissen S → B → S′. Het eerste soort geheugen is een stimulus-respons-associatie. We gebruiken vS→B om de associatieve kracht tussen stimulus S en gedrag B aan te duiden. In functionele termen kan vS→B worden omschreven als de geschatte waarde van het uitvoeren van gedrag B bij het waarnemen van stimulus S. Het tweede geheugen slaat de waarde van een stimulus op. We gebruiken wS om deze stimuluswaarde aan te duiden en het wordt geactualiseerd volgens de waarde van een volgende stimulus. Met andere woorden, wS is de geconditioneerde versterkingswaarde van het verkeren in toestand S. Deze geheugens worden geactualiseerd volgens

ΔvS→B=αv(uS′+wS′-vS→B)enΔwS=αw(uS′+wS′-wS)}2.1

na het meemaken van de gebeurtenissenreeks S → B → S′. De stimulus-respons-associatie vS→B wordt bijgewerkt overeenkomstig uS′ een primaire aangeboren vaste waarde van stimulus S′, en wS′ de geconditioneerde versterkingswaarde en de eerder opgeslagen stimulus-respons-associatie vS→B. Bij geconditioneerde versterking is de waarde van het uitvoeren van gedrag B bij het waarnemen van stimulus S de som van de primaire en de geconditioneerde versterkingswaarde van stimulus S′. Als alleen de eerste vergelijking wordt gebruikt en w buiten beschouwing wordt gelaten, dan is er sprake van instrumenteel stimulus-respons leren, dat wil zeggen een instrumentele versie van het klassieke Rescorla-Wagner leermodel. De leersnelheden αv en αw bepalen de snelheid waarmee geheugenupdates plaatsvinden.

Om het leermodel gedrag te laten genereren en selecteren, is een mechanisme voor besluitvorming nodig. Wij hebben een besluitvormingsmechanisme gebruikt dat gedragsreacties selecteert en door exploratie enige variatie in gedrag veroorzaakt. Dit specificeert de waarschijnlijkheid van gedrag B in toestand S als

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

waarin een parameter β is opgenomen die de hoeveelheid exploratie regelt. Alle gedragingen hebben evenveel kans om geselecteerd te worden als β = 0 zonder rekening te houden met geschatte waarden. Als β groot is, zal vooral het gedrag met de hoogste geschatte waarde (v) worden geselecteerd.

Laten we terugkeren naar de hond voor een praktisch voorbeeld. De hond hoort het commando ‘schudden’, stimulus S. Als de hond zijn poot omhoog beweegt, dat wil zeggen gedrag B uitvoert, krijgt hij de beloning S′. De voedselbeloning S′ heeft een primaire aangeboren waarde u. Wanneer de hond deze beloning ontvangt na correct te hebben gereageerd op het commando ‘schudden’, zal het stimulus-responsgeheugen vcommando `schudden′→poot optillen toenemen volgens de bovenste rij in vergelijking (2.1). Bovendien wordt de stimuluswaarde w van het commando “schudden” geactualiseerd overeenkomstig de onderste rij van vergelijking (2.1). Deze waarde w van het commando ‘schudden’ zal de waarde u van de voedselbeloning benaderen, en daardoor op zichzelf versterkende eigenschappen krijgen; het is een geconditioneerde bekrachtiger geworden. De geconditioneerde bekrachtiger kan de weg vrijmaken voor het aanleren van meer gedragingen voor het naar boven bewegen van de poot. Dit kan gebeuren omdat gedragingen die ertoe leiden dat de hond het commando ‘schudden’ hoort, versterkt kunnen worden.

2.2. Simulatie van planningsstudies met mensapen en raven

De simulaties van de planningsexperimenten waren gebaseerd op gedetailleerde beschrijvingen van het verloop van de gebeurtenissen in de twee studies waarin sleutelgebeurtenissen werden geïdentificeerd. Tot de sleutelgebeurtenissen behoorden welke gedragingen vóór de tests werden getraind en ten aanzien van welke objecten, en welke uitkomsten het gevolg waren van verschillende keuzes tijdens de pretraining en de tests. Het is belangrijk om in deze studies details te identificeren, omdat de testfasen een mix van belonende en niet-belonende handelingen omvatten. Daarom werd verwacht dat zowel stimulus-respons (v) als stimuluswaarden (w) gedurende de tests zouden veranderen.

Om de simulaties zowel mogelijk als realistisch te maken, werd aangenomen dat de dieren deze studies ingingen met een aantal noodzakelijke alledaagse vaardigheden. Er werd van uitgegaan dat de dieren, bijvoorbeeld, eerder hadden geleerd om voorwerpen vast te houden, hoe zich te verplaatsen tussen kamers en compartimenten, waar verschillende dingen zich bevonden, en enkele basisvaardigheden met betrekking tot de omgang met de experimentatoren. De apen werden bijvoorbeeld na keuzes uit de testruimte weggeleid om later weer in de testruimte te worden toegelaten. Door dergelijke alledaagse vaardigheden buiten beschouwing te laten, werden de simulaties en de gedragsbeschrijvingen toegespitst op de unieke gedragsreeksen die de dieren in het kader van de experimenten moesten leren.

De twee studies hebben belangrijke kenmerken gemeen. Voordat de tests begonnen, werden de dieren onderworpen aan een pre-training. Hierbij leerden zij gedragingen uit te voeren die later als correct werden gescoord. Naast de voortraining van correcte gedragingen, omvatte de ravenstudie ook uitdovingstraining. Tijdens de uitdovingstraining kregen de raven de kans te leren dat niet-functionele voorwerpen niet tot beloningen leidden. De sleutelgebeurtenissen in beide studies die werden gebruikt voor het scoren van juiste versus onjuiste keuzes waren gedwongen keuzeproeven. Hierbij werden de dieren gedwongen te kiezen tussen een voorwerp waarvan ze eerder hadden geleerd dat het kon leiden tot een beloning, versus andere voorwerpen die niet konden worden gebruikt voor latere beloningen (afleidende voorwerpen). De raven leerden tijdens de uitdovingstraining dat deze afleidende voorwerpen niet konden leiden tot beloningen. Na de gedwongen keuze werd in beide studies enige tijd gewacht, waarna de dieren een gedraging mochten uitvoeren met het eerder gekozen voorwerp. Als een dier vóór de vertraging een juiste keuze maakte, kon het later zijn gekozen voorwerp gebruiken om een beloning te krijgen. Als een dier vóór de vertraging een onjuiste keuze maakte, waren er na de vertraging geen mogelijkheden voor belonend gedrag.

De uitgevoerde simulaties volgden de pretrainingsfase en de testfase van de studies. De vergelijkingen worden gemaakt met toevallige niveaus van juiste keuzes die in de twee studies zijn vastgesteld. Mulcahy & Call verwachtte dat de apen bij toeval 25% van de keren het juiste zouden kiezen (één functioneel object en drie afleidende objecten). Kabadayi & Osvath verwachtte dat de raven bij toeval 25% juiste keuzes zouden maken in experimenten 1 en 2, en 20% juiste keuzes in experiment 3 en 4 (één functioneel object en drie afleidende objecten in experimenten 1 en 2, en 1 functioneel object, 1 kleine beloning en drie afleidende objecten in experimenten 3 en 4). Zie simulatie scripts voor exacte beschrijvingen (zie elektronisch aanvullend materiaal). Om het gemakkelijker te maken de simulaties te volgen hier zijn diepgaande beschrijvingen van de twee studies.

2.3. Een beschrijving van de studie van Mulcahy en Call over mensapen

Deze proeven werden uitgevoerd met orang-oetans en bonobo’s . De studie begon met een vooropleiding. Hier werd een dier in een testruimte geplaatst en getraind op twee verschillende werktuigtaken om een beloning te krijgen van een apparaat. Deze functionele werktuigen zullen functionele objecten worden genoemd. De ene taak bestond erin een buisje te kiezen en dit buisje in een apparaat te steken. De andere taak was een haak te kiezen en deze te gebruiken om een fles te bereiken die zonder de haak niet bereikt kon worden. Na de pre-training werd het dier onderworpen aan een geforceerde keuze-test tussen functionele objecten en drie overeenkomstige niet-functionele objecten (later afleidobjecten genoemd). Maar tijdens deze gedwongen keuze, werd de toegang tot het apparaat dat een beloning bevatte geblokkeerd. Nadat de keuze was gemaakt, werd het dier uit de testruimte weggeleid naar een wachtkamer. Voorwerpen die niet door het dier waren gepakt, werden nu uit de testruimte verwijderd. Op dit punt was er een vertraging. Na de vertraging werd het dier weer in de testruimte toegelaten en kreeg het toegang tot de apparatuur. Als een functioneel voorwerp was gekozen in de gedwongen keuze test, kon het dier nu het voorwerp gebruiken om een beloning te krijgen, waarmee het het gedrag vertoonde dat het had geleerd tijdens de pre-training.

Deze studie omvatte vier tests die enigszins verschillend waren. De testen varieerden met betrekking tot welk gereedschap het functionele object was en de duur van de vertragingen. Bovendien, in de laatste test, hoefden de dieren het gereedschap niet te gebruiken om een beloning te krijgen. Merk op dat hier, in experiment 4, twee nieuwe individuen werden gebruikt en dat zij niet hadden deelgenomen aan experimenten 1, 2 of 3. Dit laatste was hier van weinig belang om redenen vermeld in het deel Resultaten. De simulaties volgden de logica van het onderzoek, en hier zijn de details van de belangrijkste gebeurtenissen en vertragingen die in de simulatie werden gebruikt:

  • Pretraining: Vóór de tests hebben alle proefpersonen geleerd de functionele instrumenten te gebruiken. In twee stappen werden minimaal drie plus acht voortrainingsproeven toegestaan voor de kokertaak en minimaal vijf voortrainingsproeven voor de haaktaak.

  • Experiment 1, kokerconditie: (1) Gedwongen keuze met functionele buis en afleidende voorwerpen (16 proeven). (2) Ga na de keuze naar een andere kamer. (3) Wacht 1 uur. (4) Keer terug en als de functionele buis was gekozen, kon dit worden gebruikt om een beloning te krijgen.

  • Experiment 2, buisconditie: (1) Gedwongen keuze met functionele buis en afleidende voorwerpen (12 proeven). (2) Ga na de keuze naar een andere kamer. (3) Wacht 14 uur. (4) Keer terug en als de functionele buis was gekozen, kon dit worden gebruikt om een beloning te krijgen.

  • Experiment 3, haakconditie: (1) Gedwongen keuze met functionele haak en afleidende voorwerpen (16 proeven). (2) Ga na de keuze naar een andere kamer. (3) Wacht 1 uur. (4) Keer terug en als de functionele haak was gekozen, kon dit worden gebruikt om een beloning te krijgen.

  • Experiment 4, haakconditie: (1) Gedwongen keuze met functionele haak en afleidende voorwerpen (16 proeven). (2) Ga na de keuze naar een andere kamer. (3) Wacht 1 uur. (4) Keer terug en als de functionele haak was gekozen, werd een beloning ontvangen zonder de haak te gebruiken.

De te leren gedragsreeksen waren de volgende:

  • Buisconditie: Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Haakconditie: Stube → Btake haak → Sapparatus → Buse haak → Sreward

In beide condities werden de apen nooit beloond voor het kiezen van de afleidende objecten, of:

  • Afleiders: Sdistractor → Btake distractor → Sno beloning

2.4. Een beschrijving van Kabadayi & Osvath’s studie op raven

Deze tests werden uitgevoerd met raven . Deze studie begon met een voortraining. Hierbij werd een dier in een testruimte geplaatst en getraind op twee verschillende werktuigtaken om een beloning te krijgen van een apparaat. Zoals hierboven zullen functionele werktuigen worden aangeduid als functionele objecten. De ene taak bestond erin een steen in een apparaat te stoppen om een beloning te krijgen. De andere taak was een flessendop (token genoemd) te nemen en die aan een mens te geven. In tegenstelling tot de studie bij de apen, kregen de raven, voordat de proeven begonnen, ook uitdovingsproeven. Hierbij werd het dier toegestaan te interageren met de voorwerpen die tijdens de geforceerde keuzetests aanwezig zouden zijn, maar die nooit konden worden gebruikt om beloningen te krijgen (later afleidingsvoorwerpen genoemd). Na de pre-training werd het dier onderworpen aan een geforceerde keuzetest tussen een functioneel object en drie afleidende objecten. Nadat een keuze was gemaakt, mocht het dier het functionele voorwerp gedurende enige tijd niet gebruiken. Met andere woorden, er mocht geen beloning worden geïnd onmiddellijk na de keuze-test (met uitzondering van experiment 4). Op dit punt was er een vertraging. Na de vertraging mocht het dier zijn gekozen voorwerp gebruiken. Als een functioneel voorwerp was gekozen in de geforceerde keuze test, kon het dier nu dat voorwerp gebruiken om een beloning te krijgen, waarmee het het gedrag vertoonde dat het had geleerd tijdens de pre-training.

Deze studie bevatte ook vier tests die enigszins verschillend waren. De proeven varieerden met betrekking tot het aantal proeven, de duur van de vertragingen, en in de laatste proef hoefden de dieren niet te wachten alvorens een functioneel voorwerp te gebruiken om een beloning te krijgen. Er zij op gewezen dat in deze studie twee verschillende beloningen werden gebruikt. Eén beloning met een hoge waarde werd gebruikt in de pre-training en in alle experimenten. En in experimenten 3 en 4 werd een bekende beloning van weinig waarde gebruikt in de gedwongen keuze situatie naast het functionele hulpmiddel en de afleidende voorwerpen. Merk op dat de experimenten niet in dezelfde volgorde werden uitgevoerd als ze in de gepubliceerde studie genummerd waren. Ik heb ervoor gekozen de proeven te presenteren in de tijdsvolgorde waarin ze werden uitgevoerd (1,3,2,4). De simulaties volgden de logica van de studie, en hier volgen de details van de belangrijkste gebeurtenissen die in de simulatie werden gebruikt: de belangrijkste gebeurtenissen voor en tijdens de experimenten waren:

  • Pretraining: Vóór de tests leerden alle proefpersonen de functionele hulpmiddelen te gebruiken. In twee stappen werden minimaal drie plus vijf pretrainingsproeven toegestaan voor de gereedschapstaak en 35 pretrainingsproeven voor de token-taak.

  • Extinctieproeven: In deze fase mochten de proefpersonen 5 minuten lang afleidende voorwerpen manipuleren zonder daarvoor een beloning te ontvangen.

  • Experiment 1: (1) Geforceerde keuze met functionele voorwerpen en afleidende voorwerpen. 14 proeven in de werktuigconditie en 12 × 3 proeven in de tokenconditie. (2) Wacht 15 min. (3) Het gekozen voorwerp kan opnieuw worden gebruikt, en als de steen of de penning was gekozen, kon deze worden gebruikt om een beloning te krijgen.

  • Experiment 3: (1) Gedwongen keuze met functioneel voorwerp, kleine beloning en afleidende voorwerpen. 14 proeven in instrumentconditie en 14 proeven in tokenconditie. (2) Wacht 15 min. (3) Het gekozen voorwerp kan opnieuw worden gebruikt, en als de steen of de penning was gekozen, kon deze worden gebruikt om een beloning te krijgen.

  • Experiment 2: (1) Gedwongen keuze met functioneel voorwerp en afleidende voorwerpen. 6 proeven in de werktuigconditie en 6 proeven in de tokenconditie. (2) Wacht 17 uur. (3) Gekozen voorwerp kan opnieuw worden gebruikt, en als de steen of de penning was gekozen, kon deze worden gebruikt om een beloning te krijgen.

  • Experiment 4: (1) Gedwongen keuze met functioneel voorwerp, kleine beloning, en afleidende voorwerpen. 14 proeven in de werktuigconditie en 14 proeven in de tokenconditie. (2). Als de steen of de penning was gekozen, kon deze worden gebruikt om een beloning te krijgen.

De te leren gedragsreeksen waren de volgende:

  • Tool conditie: Stoken → Btake gereedschap → Sapparatus → Buse gereedschap → Sreward

  • Token voorwaarde: Stoken → Btake token → Shuman → Bgive token → Sreward

De raven werd tijdens een uitdovingsfase ook geleerd dat het nooit belonend was om afleidende voorwerpen te kiezen of te gebruiken. Dit was ook het geval tijdens alle tests, of:

  • Afleiders: Sdistractor → Btake distractor → Sno beloning

In de zelfcontrolefasen van het onderzoek kregen de raven de kans om een kleine beloning te kiezen die werd gepresenteerd naast het functionele object (gereedschap of penning) en de afleidende objecten. Daarom waren in experimenten 3 en 4 ook deze gedragssequenties mogelijk:

  • Tool conditie: Sdog brokjes → Btake kleine beloning → Skleine beloning

  • Token conditie: Sdog brokjes → Btake kleine beloning → Skleine beloning

2.5. Illustratie van geheugenupdates tijdens pretraining

Om te illustreren hoe deze gedragsreeksen door leren worden beïnvloed, volgt hier een voorbeeld van geheugenupdates voor pretraining in de raafstudie. De gedragssequentie die zich tijdens de pretraining ontwikkelde, kan worden beschreven als Kruk → Btake gereedschap → Sapparatus → Buse gereedschap → Sreward waarbij de waarde van het inbrengen van de steen in het apparaat toenam, zodat vSapparatus → Buse gereedschap≫0. Aangezien het model ook geconditioneerde bekrachtiging bevat, wordt de waarde van de steen zelf geactualiseerd aan de hand van de waarde van de volgende stimulus, de grote beloning. Bij herhaalde ervaringen zal de stimuluswaarde (w) van Sreward ervoor zorgen dat de stimuluswaarde van Stool toeneemt. Zoals blijkt uit onze beschrijving van dit model, zal met voldoende ervaringen de waarde van het gereedschap de waarde van de grote beloning benaderen. Daarentegen kunnen de uitdovingsproeven met herhaalde onbeloonde ervaringen van de drie afleidende voorwerpen beschreven worden als Sdistractor → Bpick distractor → Sno beloning. Deze opeenvolging van gebeurtenissen zal een vermindering veroorzaken in zowel de associatieve sterkte van het kiezen van een afleider vSdistractor → Bpick afleider als de geconditioneerde versterkingswaarde (wdistractor) van de afleider. Wanneer de eerste test begint met een gedwongen keuze, werd het gedrag van de raven beïnvloed door de voortraining met zowel de steen als de afleiders.

2.6. Simulatiedetails

Het bovenstaande model werd opgenomen in een Python-programma waarin het leren plaatsvond volgens de gedetailleerde procedures van de twee studies, zoals hierboven gedefinieerd, om schattingen te krijgen van de waarschijnlijkheid van het kiezen van de verschillende stimuli, en v- en w-waarden, gedurende de studies. Twee soorten simulaties werden uitgevoerd. Eerst werden simulaties met het volledige model uitgevoerd, en vervolgens simulaties zonder stimuluswaarden (w), dat wil zeggen alleen onze versie van stimulus-respons leren met alleen de eerste rij in vergelijking (2.1) samen met besluitvorming (vergelijking (2.2)). Dit werd gedaan om de verschillen te onderzoeken tussen ons model dat geconditioneerde versterking omvat en een versie van stimulus-respons leren alleen. Die versie van stimulus-respons leren is identiek aan de klassieke Rescorla-Wagner leerregel, maar in wij beschouwden het in termen van een instrumentele in plaats van een Pavloviaanse setting.

Om rekening te houden met vertragingen, werd een tijdstap per minuut opgenomen in de simulatie op momenten van vertraging. Tijdens deze tijdstappen werd alleen een achtergrondstimulus ervaren. Dit is niet erg belangrijk voor het geheugen updates, omdat zowel stimulus-respons en stimulus waarde herinneringen zijn op lange termijn herinneringen. Dat dieren stimulus-respons associaties en stimuluswaarden gedurende zeer lange tijd onthouden werd in geen van de gesimuleerde studies vermeld .

In alle simulaties werden dezelfde leerparameters gebruikt. Alle gedragingen begonnen met een initiële stimulus-respons waarde v = 1, zowel v- als w-waarden werden bijgewerkt met leersnelheid α = 0,2, exploratie werd ingesteld op β = 1, en beloningen werden ingesteld op u = 6, afgezien van de lage waarde beloningen in experimenten 3 en 4 in Kabadayi & Osvath die werden ingesteld op u = 2. Gedrag kosten voor alle gedragingen was 0,1 afgezien van passieve reacties die werden ingesteld op 0 (zie informatie voor alle gedragingen en stimulus elementen opgenomen in simulaties in het elektronisch aanvullend materiaal). Alle simulaties werden uitgevoerd voor 500 proefpersonen en het aantal proeven volgde ongeveer dat van de experimenten. Dat het aantal proeven niet perfect overeenkwam met de empirische studies was te wijten aan de probabilistische aard van de besluitvormingsvergelijking. Het gebrek aan informatie over de beginwaarden van de dieren maakt exacte kwantitatieve vergelijkingen moeilijk.

Hoewel zowel de raven als de apen een rijke achtergrond hadden, werd eerder aangeleerd gedrag genegeerd en werd aangenomen dat de beginwaarden gelijk waren voor afleidende objecten en functionele objecten. Om conservatief te zijn, werden alle associatieve sterktes tussen gedragingen en stimuli gelijk verondersteld aan het begin van de simulaties. Kabadayi & Osvath heeft de voorkeuren van raven niet gekalibreerd met betrekking tot de waarde van de twee verschillende voedselbeloningen, zodat er geen kwantitatieve informatie is over de verschillen tussen de beschikbare beloningen. Zij stelden in de methode dat de voedselbeloning van hoge kwaliteit zowel groter als aantrekkelijker was. Exacte informatie over de hoeveelheid uitdoving ontbrak in de ravenstudie, daarom werd aangenomen dat de raven vijf uitdovingservaringen hadden met de afleiders.

De gedragingen en stimuluselementen die in de simulaties werden gebruikt, waren als volgt:

2.6.1. Gedragingen
  • Mulcahy & Call Tube: take tube, use tube, take distractor, being passive

  • Mulcahy & Call Hook: take hook, use hook, take distractor, being passive

  • Kabadayi & Osvath Tool: tool nemen, tool gebruiken, afleider nemen, passief zijn, kleine beloning nemen

  • Kabadayi & Osvath Token: token nemen, token gebruiken, afleider nemen, passief zijn, kleine beloning nemen

2.6.2. Stimuluselementen
  • Mulcahy & Oproep Buis: achtergrond, buis, buis taak, afleider, beloning

  • Mulcahy & Oproep Haak: achtergrond, haak, haak taak, afleider, beloning

  • Kabadayi & Osvath Hulpmiddel: achtergrond, gereedschap, apparaat, afleider, beloning, kleine beloning

  • Kabadayi & Osvath Token: achtergrond, token, mens, afleider, beloning, kleine beloning

2.7. Om de simulatieresultaten te vergelijken met de empirische gegevens van de twee studies, werden gemiddelden berekend op basis van de beschikbare gegevens in de twee respectieve studies (zie de figuren in Resultaten). Dit resulteerde in het gemiddelde aandeel juiste en onjuiste keuzes in de geforceerde keuzetests. Merk op dat experiment 4 in de apenstudie geen correct gedrag inhield bij het gebruik van het instrument bij terugkeer naar het apparaat na de vertraging, waardoor dit experiment moeilijk te interpreteren is. Bovendien waren de gegevens over de keuzes bij experiment 4 niet beschikbaar in de tekst, zodat voor dat gegevenspunt gegevens uit de tekst zijn gebruikt. Het is ongelukkig om op deze manier gegevens te mengen, maar ik heb hiervoor gekozen ten gunste van het weglaten van de gegevens van experiment 4.

Resultaten

Over het geheel genomen kwamen de simulaties overeen met de resultaten van zowel de studie met de raaf als die met de grote aap. De simulaties laten zien hoe twee factoren samen kunnen bijdragen aan het toekomstgerichte gedrag dat de mensapen en raven vertonen. Ten eerste, geconditioneerde versterkingswaarden van functionele objecten, vastgesteld door pre-training en extinctie, waren in staat om initiële correcte keuzes te stimuleren. Dit wordt getoond in figuur 1, waar de proportie juiste keuzes wordt getoond. Ten tweede werden correcte keuzes in alle studies beloond, met uitzondering van experiment 4 in het aapexperiment. Dat het gebruik van functionele objecten steeds werd beloond, was voldoende om de prestaties tot ver boven het toevallige niveau te doen stijgen (figuur 1). In de studie met de raaf verklaren de beloningen tijdens het experiment goed de bijna perfecte prestaties in de twee laatste delen van die studie.

Figuur 1. Resultaten van empirische gegevens (stippen) en simulatiegegevens (lijnen) met het percentage correcte reacties op functionele objecten, en voor de ravenstudie het gesimuleerde percentage reacties op kleine beloningen (stippellijnen). Bonobo’s en orang-oetans staan in het bovenste paneel en raven in het onderste paneel. Voor de apen was het kiezen van de buis correct in experimenten 1 en 2 (linkerlijn), en het kiezen van een haak was de juiste keuze in experimenten 3 en 4 (rechterlijn). Merk op dat de X-as van het bovenste paneel onderbroken is, omdat experiment 4 werd uitgevoerd met nieuwe individuen die voorafgaand aan het experiment alleen een pre-training hadden ondergaan. Voor de raven was de juiste keuze in de eerste helft van het experiment een werktuig (linkerlijn). Een token was de juiste keuze in het tweede deel van het experiment (rechterlijn). Horizontale lijnen zijn de verwachte toevalsniveaus van correcte keuzes tijdens de testfasen (d.w.z. respectievelijk buis, haak, gereedschap en penning). De empirische gegevens zijn gemiddelden van gegevens van het einde van elke respectieve fase in de twee studies. De afbeeldingen van bonobo’s en raven werden gedownload van openclipart.org.

De overeenkomst tussen de empirische tests (weergegeven als gevulde cirkels in figuur 1) en de simulaties was in die zin goed dat functionele objecten vaker werden gekozen dan de afleidende objecten. De simulaties volgden ook de algemene trends in die zin dat de prestatie in de studie met de grote aap toenam tijdens experimenten 1 en 2 en dat de prestatie afnam in experiment 3. Hoewel de simulaties de prestatie in de gereedschapsconditie van de raafstudie onderschatten, volgden de simulaties nauwgezet het patroon in die zin dat de prestatie hoog was in experiment 1, afnam in experiment 3 om bijna perfecte prestatie te bereiken in experiment 4. Een reden voor het lagere succespercentage van de simulatie in de werktuigconditie zou kunnen zijn dat de raven goed getraind waren en een rijke achtergrond hadden die nuttig is in testsituaties. Deze vogels zijn door mensen opgevoed en gaan regelmatig met mensen om. Ze zijn ook vertrouwd met veel verschillende voorwerpen, experimentele opstellingen en beloningen. De simulaties daarentegen gingen uit van geen voorkennis. Er was een nauwe overeenkomst tussen de simulaties en de empirische gegevens voor de token-conditie, maar de afname in prestatie tijdens experiment 3 was groter in de empirische gegevens.

De simulaties legden ook vast dat de mensapen een algemeen lager slagingspercentage vertoonden dan de raven deden. Ten minste twee factoren kunnen aan dit verschil hebben bijgedragen. De apen ondergingen minder voortraining dan de raven en, in tegenstelling tot de raven, kregen de apen geen extinctie training met de afleidende objecten voorafgaand aan de test. Dit is te zien in figuur 1 waar de kans op het kiezen van het juiste voorwerp veel hoger is aan het begin van experiment 1 in de ravenstudie in vergelijking met de apenstudie. Dat veel pre-training trials (35 in de token conditie) gecombineerd met extinctie trials kunnen resulteren in hoge prestaties in de geforceerde keuzes is het duidelijkst te zien in de token conditie van de raaf studie. Hier volgde de simulatie het waargenomen hoge succespercentage op de voet.

Pretraining en extinctie training beïnvloedden niet alleen de waarschijnlijkheid van het maken van juiste beslissingen. Simulaties laten zien hoe pre-training en extinctie ook van invloed zijn op de proportie van het kiezen van de onjuiste objecten, zoals kleine beloningen (figuur 1). Het effect van vooropleiding en uitdoving was het meest uitgesproken in de token-conditie van de ravenstudie, waar de simulatie suggereert dat de waarschijnlijkheid dat de raven de kleine beloningen boven de functionele objecten zouden kiezen, dicht bij nul lag. De grote hoeveelheid belonende ervaringen met de functionele objecten (gereedschap en penning) resulteerde in grote geconditioneerde versterkingswaarden voor deze objecten (figuur 2). De simulaties bevestigden het patroon dat raven geen kleine beloningen kozen in plaats van functionele voorwerpen, en dat zelfcontrole naar verwachting ontstaat uit associatief leren.

Figuur 2. Resultaten van de simulaties om vergelijkingen mogelijk te maken tussen de output van ons leermodel dat geconditioneerde bekrachtiging (stimuluswaarden) omvat, met een instrumentele versie van het Rescorla-Wagner (R-W) model. Simulaties van de ravenstudie staan links en simulaties van de apenstudie staan rechts. De bovenste panelen tonen geheugenupdates: stimulus-respons associaties v voor gedragingen ten opzichte van functionele objecten, en stimuluswaarden w van deze objecten. Aangezien de functionele objecten zelf niet belonend zijn, tonen simulaties aan dat stimulus-respons associaties voor het kiezen van functionele objecten zich niet zullen ontwikkelen met het eenvoudigere leermodel (R-W). En de onderste panelen laten zien dat het stimulus-respons leermodel (R-W) de gedragspatronen die in de twee studies zijn waargenomen niet kan reproduceren, in schril contrast met ons leermodel dat geconditioneerde bekrachtiging mogelijk maakt. Experimentele fasen zijn dezelfde als in figuur 1, maar hier fasen worden niet getoond voor de duidelijkheid. Merk op dat de X-assen in de rechter panelen zijn gebroken, omdat experiment 4 werd gedaan met nieuwe individuen die alleen ervaren pre-training voorafgaand aan het experiment. Raven en apen afbeeldingen werden gedownload van openclipart.org.

De groei van stimulus-respons waarden en stimulus waarden worden getoond in het bovenste paneel van figuur 2.

Merk op dat experiment 4 in de grote aap studie het minst overeenkomt met de simulaties. Hier mochten twee nieuwe apen de beloning krijgen zonder het eerder functionele werktuig te gebruiken en zij kwamen 2 van de 16 keer terug met een correct werktuig, lager dan in de simulatie. Dit verschil tussen de empirische test en de simulatie kan worden verkleind door de kosten van het gedrag te verhogen. Het verhogen van de kosten van een gedrag dat niet tot een beloning leidt, zal leiden tot een vermindering in het uitvoeren van het gedrag. Maar het is onduidelijk wat men in deze situatie van de dieren kan verwachten wanneer de apen geconfronteerd worden met een situatie waarin een minder duidelijk verband bestaat tussen een werktuig en een beloning. En twee van de vier apen hebben nooit een poging gedaan om het probleem op te lossen. Kortom, het is moeilijk de precisie en de betekenis van dat gegevenspunt te beoordelen (zie ).

De simulaties laten ook de verschillen zien tussen associatieve leermodellen van verschillende complexiteit. De beperkingen van onze versie van stimulus-respons leren worden duidelijk wanneer ze worden vergeleken met simulaties met ons leermodel dat zowel Pavloviaans als instrumenteel leren omvat. Bij stimulus-respons leren alleen kunnen gedragssequenties waarbij een gedraging niet onmiddellijk door een beloning wordt gevolgd, niet worden aangeleerd (figuur 2). Om gedragssequenties te ontwikkelen, moeten stimuli die meer dan één stap voor de beloning liggen, belonend worden door geconditioneerde bekrachtiging. Wanneer een voorheen neutrale stimulus een positieve w-waarde krijgt, dat wil zeggen dat hij belonend wordt, kan hij de aanzet geven tot de verwerving van positieve v-waarden voor gedragingen die niet onmiddellijk tot een beloning leiden (bovenste paneel in figuur 2). Wanneer we ons model dat gedragssequenties kan leren vergelijken met de instrumentele versie van het Rescorla-Wagner model, is het duidelijk dat de kans op het kiezen van de juiste stimulus niet toeneemt als alleen stimulus-respons leren is toegestaan (figuur 2). Omdat bij stimulus-respons leren de v-waarden alleen worden bijgewerkt door de onmiddellijke bekrachtiger, heeft dit bovendien tot gevolg dat de kleine beloning zal worden gekozen ten gunste van de token en het gereedschap, omdat de token en het gereedschap geen waardevolle stimuli kunnen worden. Dit is te zien in figuur 2, waar de incorrecte keuze van kleine beloningen toeneemt over de trials wanneer alleen onze versie van stimulus-respons leren is toegestaan (gemarkeerd met R-W in figuur 2). Stimulus-response learning alleen kon de resultaten in de studie met de raaf noch in de studie met de mensaap verklaren.

Discussie

Simulaties van de twee planningsstudies met raven en mensapen suggereren dat gedrag waarvan eerder werd beweerd dat het door flexibele planning werd gegenereerd, kan worden verklaard door associatief leren. Zoals aangetoond in kunstmatige intelligentie onderzoek en dierlijk gedrag onderzoek, zijn deze modellen van associatief leren krachtig in het genereren van flexibele gedrag sequenties . De conclusie die zowel in de raafstudie als in de studie van de mensapen werd getrokken, namelijk dat raven en mensapen deze problemen oplossen door middel van een specifiek flexibel mechanisme, vindt dus weinig steun. De hier uitgevoerde simulaties ondersteunen de critici die deze resultaten interpreteerden als gevolgen van associatief leren. Als toekomstige studies gericht zijn op het onderscheiden van associatieve processen van andere soorten mentale mechanismen, zouden ze baat hebben bij een verbeterde experimentele opzet, met inbegrip van goede controles, gebruikmakend van state-of-the-art leermodellen.

Het was interessant om op te merken dat de simulaties het verschil tussen de studie op raven en mensapen vastlegden. Dit suggereert dat de simulaties de effecten van pre-training, extinctie fasen en beloningen gedurende de studies goed vastlegden. Hoge geconditioneerde versterkingswaarden (w-waarden) voor de juiste objecten (gereedschap en penning) en lage waarden voor de afleidende objecten werden vastgesteld vóór de eerste testen (figuur 2). Dit was vooral duidelijk in het token-gedeelte van het ravenexperiment, waar de raven werden onderworpen aan 35 pre-trainingsproeven waarbij de gedragssequentie Stoken → Btake token → Shuman → Bgive token → Sreward consequent werd beloond (onderste paneel, figuur 1).

Een andere belangrijke factor voor de positieve resultaten in de raven- en grote apenstudies was dat het kiezen van de juiste objecten gedurende de hele tests werd beloond. Hierdoor bleven de v- en w-waarden voor respectievelijk correct gedrag en correcte objecten hoog. Dit verklaart ook waarom de raven de kleine beloning negeerden wanneer deze samen met de functionele objecten werd gepresenteerd (figuur 1). De functionele objecten leidden gedurende de studie herhaaldelijk tot beloningen, zodat ze hoge stimuluswaarden hadden verworven. Zolang deze waarden hoger zijn dan de waarde van de kleine beloning, zullen deze functionele objecten het grootste deel van de tijd gekozen worden. Echter, met alleen stimulus-respons leren – alleen het toestaan van updates van v-waarden zoals in het Rescorla-Wagner model – zal de kleine beloning gekozen worden omdat dit model geconditioneerde bekrachtiging mist (figuur 2). Indien men leren tijdens tests wil vermijden, zijn er voordelen verbonden aan het uitvoeren van tests onder extinctie, zoals bijvoorbeeld in uitkomstherwaarderingsstudies (bv. ). Op deze manier kunnen tests de gevolgen van voorafgaande experimentele manipulaties aan het licht brengen.

De resultaten ondersteunen het idee dat zelfcontrole is ontstaan door associatief leren. We hebben eerder laten zien hoe dieren door associatief leren zelfbeheersing kunnen verwerven, mits ze voldoende informatie en ervaringen krijgen aangereikt. Kabadayi & Osvath heeft zelfbeheersing niet gedefinieerd, maar in een eerdere studie hebben zij het gedefinieerd als “de onderdrukking van onmiddellijke driften ten gunste van uitgestelde beloningen”. Deze functionele opvatting van zelfbeheersing past bij veel beschrijvingen van gedrag in de literatuur over dierlijk gedrag. Waarnemingen van dieren die leren kleine beloningen te verwerpen wanneer ze grote beloningen verwachten, of met andere woorden onrendabele prooien te verwerpen wanneer er winstgevende prooien in overvloed zijn, zijn bijvoorbeeld afkomstig van vissen (bluegill sunfish Lepomis macrochirus, ), schaaldieren (oeverkrabben, Carcinus maenas, ) en vogels (koolmezen Parus major, en tureluurs Tringa totanus, ). Dit soort studies is grotendeels genegeerd in studies waarin zelfbeheersing vaak wordt bestudeerd als een apart soort mentaal mechanisme en niet als iets dat onderhevig is aan leren (bijv. ). In plaats daarvan, in het licht van deze simulaties, kunnen eerdere studies van zelfbeheersing binnen dierlijk cognitie-onderzoek (zoals b.v. ) het best worden begrepen als veroorzaakt door leren, inclusief geconditioneerde bekrachtiging .

Theoretisch kan zelfbeheersing zich op meer dan één manier ontwikkelen. Zelfbeheersing kan ontstaan door de verwerving van hoge geconditioneerde bekrachtigingswaarden voor de functionele objecten. Het functionele object wordt waardevoller dan een kleine beloning. Maar zelfcontrole kan ook ontstaan als bijvoorbeeld “wachten” als een op zichzelf staand gedrag wordt beschouwd. In dat geval kan zelfcontrole ontstaan door een verhoogde v-waarde voor ‘wachten’ in aanwezigheid van een bepaalde stimulus. Zelfbeheersing bij jagende katten zou kunnen ontstaan door hoge v-waarden voor wachten bij een prooi die ver weg is. Meer onderzoek is nodig om beter te begrijpen hoe verschillende aspecten van leermechanismen op elkaar inwerken om tot patronen van zelfcontrole te komen. Genetische predisposities spelen waarschijnlijk een grote rol en werken samen met stimulus-respons associaties en stimuluswaarden.

Een ander belangrijk resultaat was dat het verschil tussen de prestaties van de raven in experiment 3 en experiment 4 werd opgevangen door de simulaties. De reden voor de perfecte prestaties in experiment 4 in zowel het ravenonderzoek als de simulatie was dat de vertraging tussen keuze en gedrag dat resulteerde in beloning werd weggelaten. In plaats daarvan was er direct na de gedwongen keuze de gelegenheid om het voorwerp te gebruiken om een beloning te innen. Om deze reden leidde elke proef potentieel direct tot beloning, terwijl het kiezen van het juiste voorwerp in experiment 3 pas na de vertraging werd beloond. Of met andere woorden, in experimenten 1-3 konden de raven alleen elke tweede keer dat ze het juiste voorwerp kozen een beloning krijgen, terwijl ze in experiment 4 elke keer en onmiddellijk na het kiezen en gebruiken van het functionele voorwerp een beloning kregen.

Een overeenkomst tussen ons leermodel en sommige reinforcement learning modellen in AI is dat deze mechanismen agenten en dieren in staat stellen om wereldtoestanden te identificeren die waardevol zijn, en welke gedragingen productief zijn in deze waardevolle toestanden. In operationele zin genereren deze leermodellen een planning wanneer een gedrag (in een apparaat stoppen of aan een mens geven) ten opzichte van een stimulus (steen of token) in een later stadium voedsel van hoge waarde zal opleveren. Dit gebeurt ondanks het feit dat het voedsel (of een andere belonende stimulus) afwezig is. Osvath & Kabadayi , in een antwoord aan critici , definieerde flexibele planning als “het nemen van beslissingen over toekomsten buiten iemands huidige zintuiglijke bereik in domeinen waarvoor men niet is gepredisponeerd”. Ongeacht of de modellen afkomstig zijn van AI of dierlijk gedrag, wanneer geconditioneerde bekrachtiging wordt opgenomen in leermodellen, zal planningsgedrag dat aan deze definitie voldoet ontstaan door het slimme samenspel van stimulus-responswaarden en stimuluswaarden. De sleutel is dat de op dat moment beschikbare stimuli informatie kunnen verschaffen over welk gedrag moet worden uitgevoerd om in toekomstige waardevolle toestanden te komen. Deze leermodellen kunnen echter niet mentaal verschillende uitkomsten simuleren, ze kunnen niet mentaal in de tijd reizen, noch intern informatie reorganiseren. Om Roberts te parafraseren, niet-menselijke dieren kunnen ‘vastzitten in de tijd’, terwijl ze toch planningsgedrag vertonen.

Mulcahy & Call probeerde instrumentele conditionering uit te sluiten als een verklaring voor het gedrag van de apen door experiment 4 uit te voeren. Deze fase was vergelijkbaar met experiment 3, maar de apen werden niet beloond voor het gebruik van het functionele hulpmiddel. In plaats van dat een aap de kamer binnenkwam met een functioneel werktuig dat kon worden gebruikt om een beloning te krijgen (zoals in experiment 3), kwam een aap de kamer binnen en vond een beloning als hij het functionele werktuig vanuit de wachtkamer naar de testkamer had gedragen. Er werd aangevoerd dat indien de apen in de andere experimenten beter presteerden dan in dit experiment, dit zou suggereren dat de apen flexibel planden. Mulcahy & Call concludeerde dat hun resultaten “een echt geval van toekomstplanning vertegenwoordigen”. Een advocaat van de duivel zou verschillen kunnen aanwijzen tussen experimenten 3 en 4, waardoor leren een meer waarschijnlijke verklaring wordt. In experiment 3 werden de apen expliciet beloond voor het gebruik van het gereedschap. Dit resulteert in een hoge geconditioneerde bekrachtigingswaarde voor het werktuig en een hoge stimulus-responswaarde voor het gebruik van het werktuig op het apparaat. In experiment 4 echter, wijst Mulcahy & Call erop dat er een langere tijd verstreek tussen het oppakken van het werktuig in de wachtkamer, het dragen van het werktuig naar de testkamer, om vervolgens een beloning te krijgen zonder het werktuig te gebruiken. Misschien werd de lage prestatie in experiment 4 veroorzaakt door het onduidelijke verband tussen het werktuig en de beloning, aangezien de vertraging de verwerving van het oprapen van het werktuig om later een beloning te krijgen remt. Goede controlecondities zijn belangrijk om hypotheses ondubbelzinnig te kunnen verwerpen (zie bijvoorbeeld recente discussies in ). Ons leermodel kan in toekomstig onderzoek worden gebruikt om dergelijke gedragsverschillen, veroorzaakt door variatie in leercontingenties, te analyseren.

De simulaties laten zien dat de apenstudie en de ravenstudie kunnen worden begrepen door associatief leren. Resultaten van experimenten met caching-specialisten, waarschijnlijk afhankelijk van genetische specialisaties, vallen momenteel echter buiten het bereik van ons leermodel. Caching gedrag en eetgedrag impliceren verschillende motivationele toestanden bij dieren. Motivationele toestanden kunnen worden beschouwd als interne stimuli en kunnen gemakkelijk worden geïntegreerd in een associatief leermodel, wat zou resulteren in een grotere flexibiliteit bij het nemen van beslissingen over foerageren en cachen. Ons model omvat momenteel geen verschillende motivationele toestanden, maar we hebben voorbeelden gegeven van hoe genetische predisposities kunnen worden geïntegreerd in het model . Een mogelijke oplossing zou zijn om context-afhankelijkheid in te voeren, zodat exploratie verschillend is voor verschillende externe stimuli en/of voor verschillende interne toestanden. Belangrijk is dat bij het maken van veronderstellingen over meer flexibele mentale mechanismen rekening moet worden gehouden met de hogere kosten van exploratie die het gevolg zijn van een grotere flexibiliteit (zie ). Wij verwachten dat de evolutie genetische predisposities heeft verfijnd die samen met associatief leren productieve en soortspecifieke gedragingen genereren.

Een ander belangrijk punt voor toekomstige studies is dat wanneer dieren leren over consequenties van gedrag, en stimulus-responswaarden en stimuluswaarden worden geactualiseerd, dit langetermijngeheugens zijn (b.v. , zie ook ). Een raaf die getraind is om fiches aan een mens te geven, is niet zomaar vergeten hoe hij dat een dag later moet doen. Gedragsmatig is de werktuigconditie van het ravenonderzoek identiek aan wanneer hondenbezitters hun harige vrienden leren “op te ruimen” door speelgoed in een daarvoor bestemde mand te leggen. In plaats van dat de raaf wordt beloond voor het leggen van een steen in een apparaat, krijgt een hond een beloning voor het leggen van een speeltje in een mand. Dergelijke lange-termijn geheugens die door associatief leren worden bijgewerkt zijn heel anders dan het korte-termijn geheugen van willekeurige stimuli .

In conclusie, de ontwikkeling van associatieve leermodellen is indrukwekkend in het AI onderzoek en modellen zijn krachtig gebleken in het genereren van complex gedrag. Men kan zich afvragen waarom deze krachtige modellen niet op grotere schaal worden toegepast op het gedrag van niet-menselijke dieren en waarom deze modellen worden onderschat als oorzaak van flexibel gedrag bij niet-menselijke dieren. Dit is vooral relevant gezien het feit dat onderzoek in dierlijke cognitie waarbij van niet-menselijke dieren wordt beweerd dat ze inzichten hebben, causaal redeneren vertonen, en het plan regelmatig wordt bekritiseerd omdat ze lijden aan grootse beweringen gebaseerd op een zwakke methodologie (bijv. ). Een manier om deze associatief leren paradox op te lossen is door het integreren van de gebieden van AI, leren van dieren, en dierlijke cognitie . Om mechanismen die gedrag genereren te begrijpen, zijn formele bottom-up associatieve modellen waarschijnlijk verhelderender dan verbale top-down “hogere-orde” cognitieve modellen. Bijvoorbeeld omdat laatstgenoemde modellen moeilijker te verwerpen zijn en ze niet kunnen worden geïmplementeerd in simulaties of gebruikt bij het bouwen van robots. Samenvattend wordt geconcludeerd dat niet kan worden uitgesloten dat flexibele planning bij apen en korvieren, en waarschijnlijk ook bij veel andere soorten, ontstaat door associatief leren.

Toegankelijkheid van gegevens

Figuren en gegevens van simulaties kunnen worden gegenereerd met behulp van software en code zoals gespecificeerd in het elektronisch aanvullend materiaal.

Bijdragen van auteurs

J.L. bedacht het onderzoek, voerde computersimulaties uit, analyseerde gegevens en schreef het manuscript.

Belangenafweging

Er zijn geen concurrerende belangen.

Funding

Dit werk werd ondersteund door de Knut en Alice Wallenberg Stichting, KAW 2015.005.

Acknowledgements

Dank aan Markus Jonsson, Magnus Enquist, Anna Jon-And en Stefano Ghirlanda. Ook dank aan twee anonieme referenten voor waardevol en inzichtelijk commentaar.

Footnotes

Elektronisch aanvullend materiaal is online beschikbaar op https://dx.doi.org/10.6084/m9.figshare.c.4302740.

© 2018 The Authors.

Gepubliceerd door de Royal Society onder de voorwaarden van de Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, die onbeperkt gebruik toestaat, mits de oorspronkelijke auteur en bron worden gecrediteerd.

  • Mnih Vet al.2015Besturing op menselijk niveau door middel van diep reinforcement learning. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
  • Emery NJ, Clayton NS. 2004The mentality of crows: convergente evolutie van intelligentie bij korvieren en apen. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
  • Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontane prosociale keuze door chimpansees. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
  • MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
  • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016Hoe chimpansees samenwerken in een competitieve wereld. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
  • Whiten A. 2017Sociaal leren en cultuur bij kind en chimpansee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
  • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
  • Tomasello M, Call J. 1997Primate cognition. Oxford, UK: Oxford University Press. Google Scholar
  • Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Insightful problem solving and creative tool modification by captive nonontool-using roeken. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Reply to Lind et al.: inzicht en leren. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
  • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Uiting the Aesop’s fable paradigm to investigate causal understanding of water displacement by New Caledonian crows. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
  • Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
  • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
  • Koops K, Furuichi T, Hashimoto C. 2015Chimpansees en bonobo’s verschillen in intrinsieke motivatie voor gereedschapsgebruik. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
  • Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behaviour. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
  • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, UK: Oxford University Press. Crossref, Google Scholar
  • Carew TJ, Sahley CL. 1986Invertebrate learning and memory: from behavior to molecules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
  • Bouton ME. 2007Leren en gedrag: een moderne synthese. Sinauer, MA: Sunderland. Google Scholar
  • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
  • Mulcahy NJ, Call J. 2006Apes bewaren gereedschappen voor toekomstig gebruik. Wetenschap 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
  • Naqshbandi M, Roberts WA. 2006Anticipatie van toekomstige gebeurtenissen bij doodshoofdaapjes (Saimiri sciureus) en ratten (Rattus norvegicus): tests van de Bischof-Köhler-hypothese. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
  • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planning voor de toekomst door westelijke scrub-jays. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
  • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobo’s en orang-oetans, maar niet chimpansees, plannen flexibel voor de toekomst in een token-uitwisselingstaak. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
  • Kabadayi C, Osvath M. 2017Ravens parallel grote apen in flexibele planning voor tool-gebruik en bartering. Wetenschap 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
  • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
  • Suddendorf T, Corballis MC. 2010Gedragsmatig bewijs voor mentale tijdreizen bij niet-menselijke dieren. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2010Menselijke tijdreizen bij dieren. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
  • Redshaw J, Taylor AH, Suddendorf T. 2017Flexibele planning bij raven?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Bulley A, Miloyan B. 2018Prospectie en natuurlijke selectie. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
  • Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, UK: Psychology Press. Google Scholar
  • Shettleworth S. 2010Cognition, evolution, and behavior. Oxford, UK: Oxford University Press. Google Scholar
  • Fox M. 1969Ontogeny of proy-killing behavior in Canidae. Gedrag 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
  • Eaton RL. 1970The predatory sequence, with emphasis on killing behavior and its ontogeny, in the cheetah (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
  • Kelleher RT, Gollub LR. 1962A review of positive conditioned reinforcement. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
  • Mackintosh NJ. 1974The psychology of animal learning. Londen, UK: Academic Press. Google Scholar
  • Williams BA. 1994Geconditioneerde bekrachtiging: experimentele en theoretische vraagstukken. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
  • McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Australië: Darlington Press. Google Scholar
  • Rescorla RA, Wagner AR. 1972Een theorie van Pavloviaanse conditionering: variaties in de effectiviteit van versterking en niet-versterking. In Classical conditioning II: current research and theory (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
  • Blough DS. 1975Steady state data and a quantitative model of operant generalization and discrimination. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Cross, Google Scholar
  • Sutton RS, Barto AG. 1998Refinforcement learning. Cambridge, MA: MIT Press. Google Scholar
  • Balleine B, Dickinson A. 1991Instrumental performance following reinforcer devaluation depends upon incentive learning. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
  • Dickinson A, Balleine B. 1994Motivational control of goal-directed action. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
  • Osvath M, Osvath H. 2008Chimpansee (Pan troglodytes) en orang-oetan (Pongo abelii) vooruitdenken: zelfbeheersing en voorervaring in het gezicht van toekomstig gereedschap gebruik. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
  • Werner EE, Hall DJ. 1974Optimal foraging and the size selection of proy by the bluegill sunfish (Lepomis macrochirus). Ecologie 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
  • Elner RW, Hughes RN. 1978Energy maximization in the diet of the shore crab Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
  • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimale prooiselectie bij de koolmees (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
  • Goss-Custard JD. 1977Optimal foraging and the size selection of worms by turshank, Tringa totanus, in the field. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
  • Osvath M, Kabadayi C. 2018Contrary to the gospel, raven do plan flexibly. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossrefref, PubMed, ISI, Google Scholar
  • Barto AJ. 2003Herhalingsleren. In The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
  • Roberts WA. 2002Zitten dieren vast in de tijd? Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Lind J. 2017’Aesop’s fabel’ experimenten tonen trial-and-error learning aan bij vogels, maar geen causaal begrip. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
  • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Meta-analytische technieken onthullen dat corvid causaal redeneren in het Aesop’s fabel paradigma wordt gedreven door trial-and-error leren. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
  • Correia SP, Dickinson A, Clayton NS. 2007Westelijke scrub-jays anticiperen op toekomstige behoeften onafhankelijk van hun huidige motivationele toestand. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2012Euraziatische gaaien (Garrulus glandarius) overwinnen hun huidige verlangens om te anticiperen op twee verschillende toekomstige behoeften en deze op de juiste manier te plannen. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
  • Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
  • Skinner BF. 1950Zijn theorieën over leren noodzakelijk? Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
  • Vaughan W, Greene SL. 1984Pigeon visual memory capacity. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
  • Gleitman H. 1971Forgetting of long-term memories in animals. In Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
  • Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwin’s mistake: explaining the discontinuity between human and nonhuman minds. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
  • Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
  • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
  • Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
  • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
  • Dymond S, Stewart I. 2016Relational and analogical reasoning in comparative cognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
  • Lindenfors P. 2017Vogelhersenen: zijn kraaien zo intelligent als sommige wetenschappers beweren?Skept. Mag. 22, 10-11. Google Scholar
  • Lind J, Enquist M. 2009Meer synthetisch werk is nodig. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.