Hvad kan associativ læring gøre for planlægning?

Indledning

Til verdens forbløffelse opnår associative læringsmodeller, der anvendes inden for forskning i kunstig intelligens (AI), nu færdigheder på menneskeligt niveau i videospil og slår menneskelige mestre i det kinesiske brætspil Go , skak og shogi . På trods af at associativ læring inden for AI-forskningen anerkendes for at producere menneskelignende adfærd, er associativ læring ofte enten ikke nævnt (f.eks. ), eller opfattes som uønsket eller ikke tilstrækkeligt sofistikeret (f.eks. ) til at give forklaringer på fleksibel adfærd hos ikke-menneskelige dyr. Det er et fascinerende paradoks, at associativ læring anerkendes for at producere kompleks fleksibel adfærd inden for AI-forskningen, men ofte afvises og negligeres som model for fleksibel adfærd i biologiske systemer (både mennesker og ikke-menneskelige dyr).

Om udviklingen af adfærdssekvenser hos ikke-menneskelige dyr kan forstås i form af associativ læring eller ej, har vidtrækkende konsekvenser for vores forståelse af studiet af adfærd. Hvis adfærd, der opfattes som avanceret eller kompleks, såsom chimpansers (Pan troglodytes) værktøjsbrug, kan udvikles gennem associative processer, kan man søge efter artsforskelle i form af genetiske forskelle i adfærdsrepertoirer, udforskende tendenser såsom nysgerrighed og motiverende og opmærksomhedsrelaterede faktorer. Hvis associative processer ikke er tilstrækkelige til at forklare, hvordan information behandles og erindringer opdateres for at skabe adfærd, må der identificeres alternative mekanismer, for at vi kan forstå, hvordan en sådan adfærd udvikles. I dag har forskerne meget modsatrettede synspunkter på dette spørgsmål. På den ene side antyder nogle, at associative processer sammen med faktorer som f.eks. adfærdsrepertoirets størrelse og udforskning er stærke og kan forklare en stor del af den måde, hvorpå dyr erhverver adfærd (f.eks. ). Andre fremhæver derimod alternative mekanismer og foreslår, at dyr har mange forskellige mekanismer, der løser forskellige specifikke problemer, og at disse mekanismer er finjusteret af evolutionen (f.eks. ). Ikke alle undersøgelser falder ind under disse to kategorier, og nogle undersøgelser tester alternative forklaringer og kontrollerer for associativ indlæring. Det er dog almindeligt, at sådanne undersøgelser kun antager de enkleste former for associativ læring. Dette vil sandsynligvis resultere i falske afvisninger af associative læringshypoteser. Dette skyldes, at de fleste hvirveldyr og hvirvelløse dyr har kapacitet til både instrumentel og pavlovsk læring , som sammen med specialiserede hukommelser gør de fleste dyr i stand til mere kompleks læring, end hvad de enkleste former for associativ læring tillader.

Sigtet med denne undersøgelse var at undersøge, om en læringsmodel , svarende til forstærkningslæring, der anvendes i AI-forskningen, kan hjælpe os med at forstå tilegnelsen af planlægningsadfærd hos corvider og aber, en adfærd, der undertiden opfattes som kompleks og menneskelignende. Det er blevet konkluderet, at flere arter planlægger fleksibelt for fremtiden, ikke ulig mennesker (f.eks. ). Ideen er, at denne form for planlægning er et resultat af en fleksibel mental mekanisme, der mentalt kan simulere forskellige fremtidige tilstande ud fra de aktuelle oplysninger. Disse påstande er imidlertid blevet anfægtet på grundlag af mindst to forskellige argumentationslinjer. For det første har forskerne rejst tvivl om fuglenes generelle evne til at planlægge, fordi planlægningsundersøgelser hos fugle typisk involverer cachingspecialister, der udfører cachingopgaver, som f.eks. krathejser (Aphelocoma californica), egernhejser (Garrulus glandarius) og sorthovedet mejse (Poecile atricapillus) . Disse resultater kan skyldes specialiserede hukommelsesrepertoirer (jf. ). Den anden grund til at afvise ideen om, at ikke-menneskelige dyr planlægger fleksibelt, er, at den observerede adfærd ikke var forårsaget af menneskelignende planlægning, men bedst forstås som resultater af associativ læring, og at metodologiske mangler gør disse undersøgelser tvetydige .

Hvorfor ville en associativ læringsmodel være nyttig til at forstå fremtidsorienteret adfærd? Associativ læring er velkendt for at forårsage foregribende adfærd, adfærd, der kan forudsige senere betydningsfulde begivenheder uden umiddelbare fordele . Desuden kan selvkontrol, der ofte nævnes som vigtig for planlægning , opstå gennem associativ læring . Man kunne antage, at selvkontrol ikke er mulig gennem associativ læring, fordi umiddelbart belønnet adfærd altid bør foretrækkes frem for ikke-belønnet adfærd. Men for mange dyr er “vente” eller “snige sig” adfærd, som kan forstærkes, når den følges op af senere muligheder for belønning. F.eks. lærer rovdyr at forfølge og vente, når de er unge.

Den model, der anvendes her, er en associativ læringsmodel, der er i stand til at lære optimal adfærd i en kompleks verden . Modellen omfatter to forskellige hukommelser og en beslutningstagningsmekanisme. Den ene hukommelse lagrer den associative styrke af at udføre adfærd B over for stimulus S, og den anden hukommelse lagrer den anslåede værdi af stimulus S. Modellen kan lære adfærdssekvenser ved at sammenkæde enkeltstående adfærdsformer ved hjælp af betinget forstærkning (sekundær forstærkning). På denne måde kan oprindeligt neutrale stimuli, der går forud for primære forstærkere, selv blive forstærkere og derved ændre tidligere ubelønnet adfærd . F.eks. har en klikkertrænet kanin hørt kliks gentagne gange før belønning med mad. For denne kanin bliver et klik i sig selv belønnende, og kaninen vil lære at udføre adfærd, der kun resulterer i, at kaninen hører et klik . Modellen forklares yderligere i afsnittet Materiale og metoder nedenfor.

Her tester jeg hypotesen om, at en associativ læringsmodel kan redegøre for resultater, der er fundet i ikke-menneskelige planlægningsundersøgelser. Indlæringsmodellen blev brugt til at simulere resultaterne af to planlægningsundersøgelser, en med orangutanger (Pongo pygmaeus) og bonobos (Pan paniscus) og en med ravne (Corvus corax) . Simuleringerne viste sig at følge de vigtigste mønstre inden for og mellem disse undersøgelser. Det konkluderes, at man ikke kan udelukke, at undersøgelser af fleksibel planlægning hos aber og corvide fugle kan forklares ved associativ læring. Derfor kan associativ læring ikke kun producere menneskelignende adfærd (f.eks. ), men er en kandidatforklaring på observationer af planlægning og selvkontrol hos ikke-menneskelige dyr.

Materiale og metoder

Her beskriver jeg vores læringsmodel , logikken i de to forskellige undersøgelser, der blev brugt til simuleringerne, og detaljer om simuleringerne.

2.1. En beskrivelse af modellen

Et dyr har et adfærdsrepertoire, og det kan bruge sine adfærdsmønstre til at navigere i en verden af registrerbare miljøtilstande. En adfærd fører dyret fra en tilstand til en anden. Hver tilstand, eller stimuli, har en primær forstærkningsværdi, som er genetisk fastsat. Disse værdier kan være negative, neutrale eller positive, og de styrer indlæringen, således at adfærd, der fremmer overlevelse og reproduktion, fremmes. Det antages, at dyrene træffer valg, der maksimerer den samlede værdi, og der kan udvikles forventninger om værdien af en fremtidig tilstand . Modellen kan således generere målstyret adfærd (se for en anden diskussion af målstyret adfærd og læring).

Kort sagt beskriver modellen indlæring af sekvenser af adfærd over for stimuli gennem ændringer i hukommelsen. Den omfatter beslutningstagning, der tager hensyn til hukommelsen for at bestemme, hvilken adfærd der skal vælges, når en given stimulus opfattes. Tag f.eks. indlæring af en enkelt adfærd, f.eks. når en hund lærer at give sin pote som svar på kommandoen “ryst”. At løfte poten er adfærden, kommandoen “ryst” og belønningen er stimuli. Den hændelsessekvens, der skal læres, er: kommando “ryst” → løft pote → belønning, eller

Kommando “ryst′→løft pote→foderbelønning

Modellen indsamler oplysninger om værdien af at udføre adfærd over for forskellige stimuli (eller tilstande), og oplysninger om værdien af forskellige stimuli (eller at være i bestemte tilstande) . Indlæring sker gennem opdateringer af to forskellige slags erindringer. Disse erindringer svarer til pavlovsk og instrumentel læring og opdateres efter en hændelsessekvens som i hundeeksemplet, eller i generelle vendinger hændelsessekvensen S → B → S′. Den første type hukommelse er en stimulus-responsassociation. Vi har brugt vS→B til at betegne den associative styrke mellem stimulus S og adfærd B. Funktionelt set kan vS→B beskrives som den estimerede værdi af at udføre adfærd B, når man opfatter stimulus S. Den anden hukommelse gemmer værdien af en stimulus. Vi har brugt wS til at betegne denne stimulusværdi, og den opdateres i overensstemmelse med værdien af en efterfølgende stimulus. Med andre ord er wS den konditionerede forstærkningsværdi af at være i tilstand S. Disse hukommelser opdateres i henhold til

ΔvS→B=αv(uS′+wS′-vS→B)ogΔwS=αw(uS′+wS′-wS)}2,1

efter at have oplevet hændelsessekvensen S → B → S′. Stimulus-responsassociationen vS→B opdateres i henhold til uS′ en primær medfødt fast værdi af stimulus S′ og wS′ den konditionerede forstærkningsværdi og den tidligere lagrede stimulus-responsassociation vS→B. Med betinget forstærkning er værdien af at udføre adfærd B, når stimulus S opfattes, summen af den primære og den betingede forstærkningsværdi af stimulus S′. Hvis kun den første ligning anvendes, og w ikke medregnes, repræsenterer den instrumentel stimulus-responsindlæring, dvs. en instrumentel version af den klassiske Rescorla-Wagner-indlæringsmodel . Indlæringshastighederne αv og αw bestemmer den hastighed, hvormed hukommelsesopdateringer finder sted.

For at læringsmodellen kan generere og udvælge adfærd, er der behov for en mekanisme til beslutningstagning. Vi anvendte en beslutningsmekanisme, der vælger adfærdsmæssige reaktioner og forårsager en vis variation i adfærd gennem udforskning. Dette specificerer sandsynligheden for adfærd B i tilstand S som

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

som omfatter en parameter β, der regulerer mængden af udforskning. Der er lige stor sandsynlighed for, at alle adfærdsformer vælges, hvis β = 0, uden at der tages hensyn til de estimerede værdier. Hvis β er stor, vil den adfærd med den højeste estimerede værdi (v) hovedsageligt blive valgt.

Lad os vende tilbage til hunden for at få et praktisk eksempel. Hunden hører kommandoen “ryst”, stimulus S. Hvis hunden bevæger sin pote opad, dvs. udfører adfærd B, vil den modtage belønningen S′. Fødebelønningen S′ har en primær medfødt værdi u. Når hunden modtager denne belønning efter at have reageret korrekt på kommandoen “shake”, vil stimulus-responshukommelsen vkommando `shake′→løft pote stige i overensstemmelse med den øverste række i ligning (2.1). Desuden vil stimulusværdien w for kommandoen “shake” blive opdateret i overensstemmelse med den nederste række i ligning (2.1). Denne værdi w af kommandoen “shake” vil nærme sig værdien u af madbelønningen og dermed få forstærkende egenskaber i sin egen ret; den er blevet en betinget forstærker. Den betingede forstærker kan bane vejen for indlæring af flere adfærdsmønstre, før poten flyttes opad. Dette kan ske, fordi adfærd, der resulterer i, at hunden hører kommandoen “ryste”, kan forstærkes.

2.2. Simulering af planlægningsstudier på menneskeaber og ravne

Simuleringerne af planlægningseksperimenterne var baseret på detaljerede beskrivelser af hændelsesforløbet i de to studier, hvor nøglebegivenheder blev identificeret. Nøglebegivenhederne omfattede, hvilken adfærd der blev trænet før forsøgene og mod hvilke objekter, og hvilke resultater der var resultatet af forskellige valg under prætræningen og forsøgene. Det er vigtigt at identificere detaljerne i disse undersøgelser , fordi testfaserne omfattede en blanding af belønnende og ikke-belønnende handlinger. Derfor forventedes både stimulus-respons (v) og stimulusværdier (w) at ændre sig i løbet af testene.

For både at gøre simuleringerne mulige og realistiske blev det antaget, at dyrene kom ind i disse undersøgelser med nogle nødvendige dagligdags færdigheder. Det blev antaget, at dyrene f.eks. tidligere havde lært at holde genstande, at bevæge sig mellem rum og afdelinger, hvor forskellige ting var placeret, og nogle grundlæggende færdigheder med hensyn til at interagere med forsøgsdeltagerne. Aberne blev f.eks. ledt ud af forsøgsrummet efter valg for senere at få lov til at komme ind i forsøgsrummet igen. Ved at se bort fra sådanne dagligdags færdigheder blev simuleringerne og adfærdsbeskrivelserne fokuseret på de unikke adfærdssekvenser, som dyrene skulle lære som led i eksperimenterne.

De to undersøgelser har centrale træk til fælles. Inden forsøgene startede, blev dyrene underkastet en fortræning. Her lærte de at udføre adfærd, der senere blev scoret som korrekt. Ud over pretraining af korrekt adfærd omfattede ravneundersøgelsen også udryddelsestræning. Under udryddelsestræningen fik ravnene mulighed for at lære, at ikke-funktionelle genstande ikke resulterede i belønninger. De vigtigste begivenheder i begge undersøgelser, der blev brugt til at score korrekte vs. ukorrekte valg, var tvungne valgprøver. Her blev dyrene tvunget til at vælge mellem et objekt, som de tidligere havde lært kunne resultere i en belønning, kontra andre objekter, som ikke kunne bruges til senere belønninger (distraktorobjekter). Ravnene lærte under udryddelsestræning, at disse distraktorobjekter ikke kunne resultere i belønninger. Efter det tvungne valg omfattede begge undersøgelser en tidsforsinkelse på et vist tidsrum, hvorefter dyrene fik lov til at udføre en adfærd ved hjælp af det tidligere valgte objekt. Hvis et dyr foretog et korrekt valg før forsinkelsen, kunne det senere bruge sit valgte objekt til at få en belønning. Hvis et dyr foretog et forkert valg før forsinkelsen, var der ingen muligheder for at belønne adfærd efter forsinkelsen.

De udførte simuleringer fulgte efter pretræningsfasen og testfasen i undersøgelserne. Sammenligningerne er foretaget med tilfældige niveauer for korrekte valg, der er fastsat af de to undersøgelser. Mulcahy & Call forventede, at aberne tilfældigt ville vælge det korrekte 25 % af gangene (et funktionelt objekt og tre distraktorobjekter). Kabadayi & Osvath forventede, at ravne tilfældigt ville foretage 25 % korrekte valg i forsøg 1 og 2 og 20 % korrekte valg i forsøg 3 og 4 (ét funktionelt objekt og tre distraktorobjekter i forsøg 1 og 2 og 1 funktionelt objekt, 1 lille belønning og tre distraktorobjekter i forsøg 3 og 4). Se simuleringsskripter for nøjagtige beskrivelser (se elektronisk supplerende materiale). For at gøre det lettere at følge simuleringerne er der her uddybende beskrivelser af de to forsøg.

2.3. En beskrivelse af Mulcahy og Call’s undersøgelse af menneskeaber

Disse forsøg blev udført med orangutanger og bonoboer . Undersøgelsen startede med fortræning. Her blev et dyr anbragt i et testrum og trænet i to forskellige værktøjsopgaver for at få en belønning fra et apparat. Disse funktionelle redskaber vil blive omtalt som funktionelle objekter. Den ene opgave bestod i at vælge et rør og sætte dette rør ind i et apparat. Den anden opgave bestod i at vælge en krog og bruge denne til at nå en flaske, som man ikke kunne nå uden at have krogen. Efter fortræning blev dyret udsat for en test med tvunget valg mellem funktionelle objekter og tre tilsvarende ikke-funktionelle objekter (senere benævnt distraktorobjekter). Men under dette tvungne valg blev adgangen til det apparat, der indeholdt en belønning, blokeret. Efter at valget var foretaget, blev dyret ført væk fra testrummet og ind i et venteværelse. De genstande, som dyret ikke havde taget, blev nu fjernet fra testrummet. På dette tidspunkt var der en forsinkelse. Efter denne forsinkelse blev dyret igen lukket ind i testrummet og fik adgang til apparatet. Hvis et funktionelt objekt var blevet valgt i testen med tvunget valg, kunne dyret nu bruge objektet til at få en belønning og derved udvise den adfærd, det havde lært under prætræningen.

Denne undersøgelse omfattede fire test, der var lidt forskellige. Testene varierede med hensyn til, hvilket redskab der var det funktionelle objekt, og varigheden af forsinkelserne. Desuden behøvede dyrene i den sidste test ikke at bruge værktøjet for at få en belønning. Bemærk, at her i forsøg 4 blev der anvendt to nye individer, som ikke deltog i forsøg 1, 2 eller 3. Denne sidste del var af ringe betydning her af de grunde, der er nævnt i afsnittet om resultater. Simuleringerne fulgte logikken i undersøgelsen, og her er detaljerne om de vigtigste begivenheder og forsinkelser, der blev anvendt i simuleringen:

  • Forberedelse: Før testene lærte alle forsøgspersoner at bruge de funktionelle værktøjer. I to trin blev der tilladt mindst tre plus otte fortræningsforsøg for røropgaven og mindst fem fortræningsforsøg for krogopgaven.

  • Forskning 1, rørbetingelse: (1) Tvunget valg med funktionelt rør og distraktorobjekter (16 forsøg). (2) Efter valg gå til et andet rum. (3) Vent 1 h. (4) Vend tilbage, og hvis funktionelt rør var blevet valgt, kunne dette bruges til at få en belønning.

  • Forskning 2, rørbetingelse: (1) Tvunget valg med funktionelt rør og distraktorobjekter (12 forsøg). (2) Efter valg gå til et andet rum. (3) Vent 14 h. (4) Vend tilbage, og hvis funktionelt rør var blevet valgt, kunne dette bruges til at få en belønning.

  • Experiment 3, krogbetingelse: (1) Tvunget valg med funktionel krog og distraktorobjekter (16 forsøg). (2) Efter valg gå til et andet rum. (3) Vent 1 h. (4) Vend tilbage, og hvis funktionel krog var blevet valgt, kunne dette bruges til at få en belønning.

  • Forskning 4, krogbetingelse: (1) Tvunget valg med funktionel krog og distraktorobjekter (16 forsøg). (2) Efter valg gå til et andet rum. (3) Vent 1 h. (4) Vend tilbage, og hvis funktionel krog var blevet valgt, blev der modtaget en belønning uden brug af krogen.

De adfærdssekvenser, der skulle læres, var følgende:

  • Rørbetingelse: Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Hook condition: Shook → Btake hook → Sapparatus → Buse hook → Sreward

I begge betingelser blev aberne aldrig belønnet for at vælge distraktorobjekterne, eller:

    • Distraktorer: Sdistractor → Btake distractor → Sno belønning

    2.4. En beskrivelse af Kabadayi & Osvaths undersøgelse af ravne

    Disse forsøg blev udført med ravne . Denne undersøgelse startede med fortræning. Her blev et dyr anbragt i et testrum og trænet i to forskellige værktøjsopgaver for at få en belønning fra et apparat. Som ovenfor vil funktionelle redskaber blive omtalt som funktionelle objekter. Den ene opgave bestod i at lægge en sten i et apparat for at få en belønning. Den anden opgave bestod i at tage en flaskehætte (kaldet token) og give den til et menneske. I modsætning til undersøgelsen af aberne fik ravnerne også lov til at udføre udryddelsesforsøg, før forsøgene begyndte. Her fik dyret lov til at interagere med de genstande, der ville være til stede under de tvungne valgforsøg, men som aldrig kunne bruges til at få belønninger (senere benævnt distraktorgenstande). Efter fortræning blev dyret udsat for en tvangsvalgsprøve mellem et funktionelt objekt og tre distraktorobjekter. Efter at der var truffet et valg, fik dyret ikke lov til at bruge det funktionelle objekt i et stykke tid. Med andre ord kunne der ikke indsamles nogen belønning umiddelbart efter valgprøven (med undtagelse af forsøg 4). På dette tidspunkt var der en forsinkelse. Efter forsinkelsen fik dyret lov til at bruge sit valgte objekt. Hvis der var blevet valgt et funktionelt objekt i den tvungne valgprøve, kunne dyret nu bruge dette objekt til at få en belønning og dermed udvise den adfærd, det havde lært under prætræningen.

    Denne undersøgelse omfattede også fire forsøg, der var lidt forskellige. Testene varierede med hensyn til antallet af forsøg, varigheden af forsinkelser, og i den sidste test behøvede dyrene ikke at vente, før de brugte et funktionelt objekt til at få en belønning. Det skal bemærkes, at der i denne undersøgelse blev anvendt to forskellige belønninger. Der blev anvendt én belønning af høj værdi i fortræningen og i alle forsøgene. Og i forsøg 3 og 4 blev en kendt belønning af ringe værdi anvendt i den tvungne valgsituation sammen med det funktionelle værktøj og distraktionsobjekterne. Bemærk, at eksperimenterne ikke blev udført i den samme rækkefølge, som de blev nummereret i den offentliggjorte undersøgelse. Jeg har valgt at præsentere forsøgene i den tidsmæssige rækkefølge, i hvilken de blev udført (1,3,2,4). Simuleringerne fulgte logikken i undersøgelsen, og her er detaljerne om de nøglebegivenheder, der blev anvendt i simuleringen: nøglebegivenhederne før og under forsøgene var:

    • Førtræning: Før forsøgene lærte alle forsøgspersoner at bruge de funktionelle værktøjer. I to trin blev der tilladt mindst tre plus fem fortræningsforsøg for værktøjsopgaven og 35 fortræningsforsøg for tokenopgaven.

    • Extinktionsforsøg: I denne fase fik forsøgspersoner lov til at manipulere distraktorobjekter i 5 min. uden at modtage belønninger.

    • Forskning 1: (1) Tvunget valg med funktionelt objekt og distraktorobjekter. 14 forsøg i værktøjsbetingelsen og 12 × 3 forsøg i tokenbetingelsen. (2) Vent 15 min. (3) Valgt objekt kan bruges igen, og hvis stenen eller tokenet var blevet valgt, kunne det bruges til at få en belønning.

    • Forskning 3: (1) Tvunget valg med funktionelt objekt, lille belønning og distraktorobjekter. 14 forsøg i værktøjsbetingelsen og 14 forsøg i tokenbetingelsen. (2) Vent 15 min. (3) Valgt objekt kan bruges igen, og hvis stenen eller tokenet var blevet valgt, kunne det bruges til at få en belønning.

    • Forskning 2: (1) Tvunget valg med funktionelt objekt og distraktorobjekter. 6 forsøg i værktøjsbetingelsen og 6 forsøg i tokenbetingelsen. (2) Vent 17 h. (3) Valgt objekt kan bruges igen, og hvis stenen eller symbolet var blevet valgt, kunne det bruges til at få en belønning.

    • Forskning 4: (1) Tvunget valg med funktionelt objekt, lille belønning og distraktorobjekter. 14 forsøg i værktøjsbetingelsen og 14 forsøg i tokenbetingelsen. (2). Hvis stenen eller tokenet var blevet valgt, kunne den bruges til at få en belønning.

    De adfærdssekvenser, der skulle læres, var følgende:

    • Værktøjsbetingelse: Taburet → Btake værktøj → Sapparatus → Buse værktøj → Sreward

    • Token betingelse: Stoken → Btake token → Shuman → Bgive token → Sreward

    Ravnene blev også under en udryddelsesfase lært, at det aldrig var givende at vælge eller bruge distraktorobjekter. Dette var også tilfældet under alle test, eller:

    • Distraktorer: Sdistractor → Btake distractor → Sno reward

    I selvkontrolfaserne af undersøgelsen havde ravnene mulighed for at vælge en lille belønning, der blev præsenteret sammen med det funktionelle objekt (værktøj eller token) og distraktorobjekterne. I forsøg 3 og 4 var disse adfærdssekvenser derfor også mulige:

    • Værktøjsbetingelse: Sdog kibble → Btake small reward → Ssmall reward

    • Token condition: Sdog kibble → Btake lille belønning → Ssmall belønning

    2.5. Illustration af hukommelsesopdateringer under fortræning

    For at illustrere, hvordan disse adfærdssekvenser påvirkes af indlæring, er her et eksempel på hukommelsesopdateringer for fortræning i ravneundersøgelsen. Den adfærdssekvens, der udviklede sig under fortræningen, kan beskrives som Stool → Btake tool → Sapparatus → Buse tool → Sreward, hvor værdien af at indsætte stenen i apparatet steg, således at vSapparatus → Buse tool≫0. Da modellen også omfatter konditioneret forstærkning, opdateres værdien af selve stenen i overensstemmelse med værdien af den efterfølgende stimulus, den store belønning. Ved gentagne erfaringer vil stimulusværdien (w) af Sreward få stimulusværdien af Stool til at vokse. Som det fremgår af vores beskrivelse af denne model , vil værktøjets værdi med tilstrækkelig mange erfaringer nærme sig værdien af den store belønning. Derimod kan udryddelsesforsøg med gentagne ubelønnede oplevelser af de tre distraktorobjekter uden belønning beskrives som Sdistractor → Bpick distractor → Sno reward . Denne hændelsessekvens vil medføre en reduktion i både den associative styrke ved at vælge en distraktor vSdistractor → Bpick distractor og den betingede forstærkningsværdi (wdistractor) af distraktoren. Når den første test starter med et tvunget valg, blev ravnenes adfærd påvirket af fortræningen med både stenen og distraktorerne.

    2.6. Simuleringsdetaljer

    Overstående model blev indarbejdet i et Python-program, hvor indlæring fandt sted i henhold til de detaljerede procedurer for de to undersøgelser, som defineret ovenfor, for at få estimater af sandsynlighederne for at vælge de forskellige stimuli og v- og w-værdierne i løbet af undersøgelserne. Der blev kørt to slags simuleringer. Først blev der kørt simuleringer med den fulde model og derefter simuleringer uden stimulusværdier (w), dvs. der blev kun tilladt vores version af stimulus-responsindlæring ved kun at bruge den første række i ligning (2.1) sammen med beslutningstagning (ligning (2.2)). Dette blev gjort for at undersøge forskellene mellem vores model, der omfatter konditioneret forstærkning, og en version af stimulus-responsindlæring alene . Denne version af stimulus-responsindlæring er identisk med den klassiske Rescorla-Wagner-indlæringsregel, men i vi betragtede den i form af en instrumentel i stedet for en pavlovsk indstilling.

    For at tage højde for forsinkelser blev der medtaget et tidstrin pr. minut i simuleringen på tidspunkter med forsinkelse. I disse tidstrin blev der kun oplevet en baggrundsstimulus. Dette er ikke særlig vigtigt af hensyn til hukommelsesopdateringer, fordi både stimulus-respons- og stimulusværdihukommelser er langtidshukommelser. At dyrene husker stimulus-responsassociationer og stimulusværdier i meget lang tid blev ikke nævnt i nogen af de simulerede undersøgelser .

    Der blev anvendt de samme indlæringsparametre i alle simuleringer. Alle adfærdsformer startede med en indledende stimulus-responsværdi v = 1, både v- og w-værdier blev opdateret med læringshastigheden α = 0,2, udforskning blev sat til β = 1, og belønninger blev sat til u = 6 bortset fra belønninger med lav værdi i forsøg 3 og 4 i Kabadayi & Osvath, der blev sat til u = 2. Adfærdsomkostningerne for alle adfærdsformer var 0,1 bortset fra passive reaktioner, der blev sat til 0 (se oplysninger om alle adfærdsformer og stimuluselementer, der indgår i simuleringer, i det elektroniske supplerende materiale). Alle simuleringer blev udført for 500 forsøgspersoner, og antallet af forsøg fulgte nogenlunde det samme som i eksperimenterne. At antallet af forsøg ikke stemte helt overens med de empiriske undersøgelser skyldes den probabilistiske karakter af beslutningstagningsligningen. Manglen på oplysninger om dyrenes begyndelsesværdier gør nøjagtige kvantitative sammenligninger vanskelige.

    Men selv om både ravne og aber havde rige baggrunde, blev tidligere indlært adfærd ignoreret, og begyndelsesværdierne blev antaget at være de samme for distraktorobjekter og funktionelle objekter. For at være konservativ blev alle associative styrker mellem adfærd og stimuli antaget at være lige store ved starten af simuleringerne. Kabadayi & Osvath kalibrerede ikke ravnernes præferencer med hensyn til værdien af de to forskellige fødevarebelønninger, så der er ingen kvantitative oplysninger om forskellene mellem de tilgængelige belønninger. De angav i metoden, at fødevarebelønningen af høj kvalitet var både større og mere attraktiv. Der manglede nøjagtige oplysninger om mængden af udryddelse fra ravneundersøgelsen, og derfor blev det antaget, at raverne havde fem udryddelsesoplevelser med distraktorerne.

    De adfærdsmønstre og stimuluselementer, der blev anvendt i simuleringerne, var som følger:

    2.6.1. Adfærd
    • Mulcahy & Call Tube: tage tube, bruge tube, tage distraktor, være passiv

    • Mulcahy & Call Hook: tage hook, bruge hook, tage distraktor, være passiv

    • Kabadayi & Osvath Tool: tage værktøj, bruge værktøj, tage distraktor, være passiv, tage lille belønning

    • Kabadayi & Osvath Token: tage token, bruge token, tage distraktor, være passiv, tage lille belønning

    2.6.2. Stimuluselementer
    • Mulcahy & Call Tube: baggrund, tube, tube opgave, distraktor, belønning

    • Mulcahy & Call Hook: baggrund, hook, hook opgave, distraktor, belønning

    • Kabadayi & Osvath Værktøj: baggrund, værktøj, apparat, distraktor, belønning, lille belønning

    • Kabadayi & Osvath Token: baggrund, token, menneske, distraktor, belønning, lille belønning

    2.7. Data fra de empiriske undersøgelser

    For at sammenligne simuleringsresultaterne med de empiriske data fra de to undersøgelser , blev der beregnet gennemsnit ud fra de tilgængelige data i de to respektive undersøgelser (se figurer i Resultater). Dette resulterede i den gennemsnitlige andel af rigtige og forkerte valg i de tvungne valgprøver. Bemærk, at forsøg 4 i abeundersøgelsen ikke omfattede nogen korrekt adfærd ved brug af værktøjet, når man vendte tilbage til apparatet efter forsinkelsen, hvilket gør dette forsøg vanskeligt at fortolke. Desuden var data om valg for forsøg 4 ikke tilgængelige i teksten, og derfor blev data fra anvendt for dette datapunkt. Det er uheldigt at blande data på denne måde, men jeg valgte dette til fordel for at udelade data fra eksperiment 4.

    Resultater

    Overordnet set matchede simuleringerne resultaterne af både ravne- og menneskeabestudiet. Simuleringerne viser, hvordan to faktorer tilsammen kan bidrage til den fremtidsorienterede adfærd, som menneskeaber og ravne udviser. For det første var konditionerede forstærkningsværdier af funktionelle objekter, der blev etableret gennem fortræning og udryddelse, i stand til at styre de første korrekte valg. Dette er vist i figur 1, hvor andelen af korrekte valg er vist. For det andet blev korrekte valg belønnet i alle undersøgelserne, bortset fra forsøg 4 i abeforsøget . At brugen af funktionelle objekter var belønnende hele vejen igennem var tilstrækkeligt til at drive præstationerne langt over tilfældige niveauer (figur 1). I ravneundersøgelsen forklarer de belønninger, der blev givet i løbet af forsøget, godt den næsten perfekte præstation i de to sidste dele af denne undersøgelse.

    Figur 1. Resultater fra empiriske (prikker) og simuleringsdata (linjer), der viser andelen af korrekte svar på funktionelle objekter, og for ravneundersøgelsen den simulerede andel af svar på små belønninger (stiplede linjer). Bonoboer og orangutanger er i det øverste panel og ravne i det nederste panel. For aberne var det korrekt at vælge røret i eksperiment 1 og 2 (venstre linje), og det var korrekt at vælge en krog i eksperiment 3 og 4 (højre linje). Bemærk, at X-aksen i det øverste panel er brudt, fordi eksperiment 4 blev udført med nye individer, som kun havde gennemgået pretraining forud for eksperimentet. For ravnene var det korrekte valg i den første halvdel af forsøget et værktøj (venstre linje). En token var det korrekte valg i anden del af eksperimentet (højre linje). De vandrette linjer er de forventede tilfældige niveauer af korrekte valg i forsøgsfaserne (dvs. henholdsvis rør, krog, værktøj og symbol). Empiriske data er gennemsnit af data fra slutningen af hver fase i de to undersøgelser . Bonobo og ravnegrafik blev downloadet fra openclipart.org.

    Passformen var god mellem de empiriske test (vist som fyldte cirkler i figur 1) og simuleringer, idet funktionelle objekter var mere sandsynlige at blive valgt end distraherende objekter. Simuleringerne fulgte også de generelle tendenser, idet præstationen steg i storabestudiet i løbet af forsøg 1 og 2, og at præstationen blev reduceret i forsøg 3. Selv om simuleringerne undervurderede præstationen i værktøjsbetingelsen i ravneundersøgelsen, fulgte simuleringerne nøje mønstret, idet præstationen var høj i forsøg 1, faldt i forsøg 3 for at nå næsten perfekt præstation i forsøg 4. En af grundene til, at simuleringen havde en lavere succesrate i værktøjsbetingelsen, kunne være, at ravnene var veltrænede og havde en rig baggrund, som er nyttig i test-situationer. Disse fugle blev opdrættet af mennesker og interagerer regelmæssigt med mennesker. De er også fortrolige med mange forskellige genstande, forsøgsopsætninger og belønninger. I modsætning hertil startede simuleringerne med at forudsætte ingen forudgående viden. Der var en tæt overensstemmelse mellem simuleringerne og de empiriske data for tokenbetingelsen, men reduktionen i præstation i løbet af forsøg 3 var større i de empiriske data.

    Simuleringerne fangede også, at de store aber udviste en generelt lavere succesrate end ravnefuglene. Mindst to faktorer kunne have bidraget til denne forskel. Aberne oplevede mindre fortræning end ravnene, og i modsætning til ravnene fik aberne ikke lov til at udryddelsestræne med distraktorobjekterne forud for testen. Dette fremgår af figur 1, hvor sandsynligheden for at vælge det korrekte objekt er meget højere ved starten af forsøg 1 i ravneundersøgelsen sammenlignet med abeundersøgelsen. At mange førtræningsforsøg (35 i token-betingelsen) kombineret med udryddelsesforsøg kan resultere i en høj præstation i de tvungne valg, fremgår tydeligst af token-betingelsen i ravneundersøgelsen. Her fulgte simuleringen nøje den observerede høje succesrate.

    Fortræning og udryddelsestræning havde ikke kun indflydelse på sandsynligheden for at træffe korrekte beslutninger. Simuleringer afslører, hvordan fortræning og udryddelse også påvirker andelen af valg af de forkerte objekter, f.eks. små belønninger (figur 1). Effekten af fortræning og udryddelse var mest udtalt i tokenbetingelsen i ravneundersøgelsen, hvor simuleringen tyder på, at sandsynligheden for, at raverne skulle vælge de små belønninger frem for de funktionelle objekter, var tæt på nul. Den store mængde belønningsoplevelser med de funktionelle genstande (værktøj og token) resulterede i store konditionerede forstærkningsværdier for disse genstande (figur 2). Simuleringerne bekræftede det mønster, at ravne ikke valgte små belønninger i stedet for funktionelle objekter, og at selvkontrol forventes at opstå ved associativ læring.

    Figur 2. Resultater fra simuleringer for at muliggøre sammenligninger mellem output fra vores læringsmodel, der omfatter konditioneret forstærkning (stimulusværdier), med en instrumentel version af Rescorla-Wagner (R-W)-modellen . Simuleringer af ravneundersøgelsen er til venstre, og simuleringer af abeundersøgelsen er til højre. De øverste paneler viser hukommelsesopdateringer: stimulus-responsassociationer v for adfærd over for funktionelle objekter og stimulusværdier w for disse objekter. Da de funktionelle objekter ikke i sig selv er belønnende, viser simuleringer, at stimulus-responsassociationer til valg af funktionelle objekter ikke vil udvikle sig med den enklere læringsmodel (R-W). Og de nederste paneler viser, at stimulus-responsindlæringsmodellen (R-W) ikke kan reproducere de adfærdsmønstre, der er observeret i de to undersøgelser, hvilket står i skarp kontrast til vores indlæringsmodel, der tillader konditioneret forstærkning. Forsøgsfaserne er de samme som i figur 1, men her er faserne ikke vist af hensyn til overskueligheden. Bemærk, at X-akserne i de højre paneler er brudt, fordi eksperiment 4 blev udført med nye individer, der kun oplevede pretraining forud for eksperimentet. Rav- og abegrafikken blev downloadet fra openclipart.org.

    Væksten i stimulus-responsværdierne og stimulusværdierne er vist i det øverste panel i figur 2.

    Bemærk, at eksperiment 4 i storabestudiet matcher simuleringerne mindst. Her fik to nye menneskeaber lov til at få belønningen uden at bruge det tidligere funktionelle værktøj, og de vendte tilbage med et korrekt værktøj 2 ud af 16 gange, hvilket er lavere end i simuleringen. Denne forskel mellem det empiriske forsøg og simuleringen kunne reduceres ved at øge omkostningerne ved adfærden. En forøgelse af omkostningerne ved en adfærd, der ikke fører til en belønning, vil føre til en reduktion i udførelsen af adfærden. Men det er uklart, hvad man kan forvente af dyrene i denne situation, når aberne står over for en situation med en mindre klar forbindelse mellem et redskab og en belønning. Og to af de fire aber forsøgte aldrig at løse problemet. Afslutningsvis er det vanskeligt at vurdere præcisionen og betydningen af dette datapunkt (se ).

    Simuleringerne viser også forskellene mellem associative læringsmodeller af forskellig kompleksitet. Grænserne for vores version af stimulus-responsindlæring bliver tydelige, når de sammenlignes med simuleringer med vores indlæringsmodel, der inkorporerer både pavlovsk og instrumentel indlæring . Ved stimulus-responsindlæring alene kan man ikke lære adfærdssekvenser, hvor en adfærd ikke umiddelbart efterfølges af en belønning (figur 2). For at adfærdssekvenser kan udvikles, skal stimuli, der ligger mere end et skridt før belønningen, blive belønnende gennem konditioneret forstærkning. Når en tidligere neutral stimulus får en positiv w-værdi, dvs. at den bliver belønnende, kan den føre til erhvervelse af positive v-værdier for adfærd, der ikke resulterer i umiddelbar belønning (øverste panel i figur 2). Når man sammenligner vores model, der kan lære sekvenser af adfærd, med den instrumentelle version af Rescorla-Wagner-modellen, er det klart, at sandsynligheden for at vælge den korrekte stimulus ikke øges, hvis kun stimulus-responslæring er tilladt (figur 2). Da v-værdierne desuden kun opdateres af den umiddelbare forstærker ved stimulus-responsindlæring, har dette også den konsekvens, at den lille belønning vil blive valgt til fordel for symbolet og værktøjet, da symbolet og værktøjet ikke kan blive værdifulde stimuli. Dette fremgår af figur 2, idet det forkerte valg af små belønninger stiger på tværs af forsøg, når kun vores version af stimulus-responsindlæring er tilladt (markeret med R-W i figur 2). Stimulus-responsindlæring alene kunne ikke forklare resultaterne i hverken ravnestudiet eller abestudiet.

    Diskussion

    Simuleringer af de to planlægningsstudier på ravne og menneskeaber tyder på, at adfærd, der tidligere hævdedes at være genereret af fleksibel planlægning, kan forklares ved associativ indlæring. Som det er vist i forskning i kunstig intelligens og i dyreadfærd, er disse modeller for associativ læring stærke til at generere fleksible adfærdssekvenser . Derfor har den konklusion, der blev draget i både ravne- og menneskeabestudierne , nemlig at ravne og menneskeaber løser disse problemer ved hjælp af en specifik fleksibel mekanisme, ikke megen støtte. De simuleringer, der er udført her, støtter de kritikere, der har fortolket disse resultater som konsekvenser af associativ indlæring . Hvis fremtidige undersøgelser har til formål at skelne associative processer fra andre former for mentale mekanismer, ville de drage fordel af et forbedret eksperimentelt design, herunder ordentlige kontroller, der udnytter de nyeste læringsmodeller.

    Det var interessant at bemærke, at simuleringerne fangede forskellen mellem undersøgelsen af ravne og menneskeaber . Dette tyder på, at simuleringerne fangede godt virkningerne af prætræning-, udryddelsesfaser og belønninger i hele undersøgelserne. Der blev fastsat høje konditionerede forstærkningsværdier (w-værdier) for de korrekte objekter (værktøj og token) og lave værdier for distraktorobjekterne før de første forsøg (figur 2). Dette var især tydeligt i token-delen af ravneforsøget, hvor raverne blev udsat for 35 fortræningsforsøg, hvor adfærdssekvensen Stoken → Btake token → Shuman → Bgive token → Sreward konsekvent blev belønnet (nederste panel, figur 1).

    En anden vigtig faktor for de positive resultater i ravne- og menneskeabestudierne var, at valg af de korrekte objekter blev belønnet under hele forsøgene. Dette opretholdt høje v- og w-værdier for henholdsvis korrekt adfærd og korrekte genstande. Dette forklarer også, hvorfor ravnene negligerede den lille belønning, når den blev præsenteret sammen med de funktionelle objekter (figur 1). De funktionelle objekter førte til belønninger gentagne gange i løbet af undersøgelsen, så de havde opnået høje stimulusværdier. Så længe disse værdier er højere end værdien af den lille belønning, vil disse funktionelle objekter blive valgt det meste af tiden. Men med kun stimulus-responsindlæring – der kun tillader opdateringer af v-værdier som i Rescorla-Wagner-modellen – vil den lille belønning blive valgt, fordi denne model mangler konditioneret forstærkning (figur 2). Hvis man ønsker at undgå læring under prøverne, er der fordele ved at udføre prøverne under udryddelse, som f.eks. i revalueringsundersøgelser af resultaterne (f.eks. ). På denne måde kan testene afsløre konsekvenserne af tidligere eksperimentelle manipulationer.

    Resultaterne støtter ideen om, at selvkontrol opstod gennem associativ læring. Vi har tidligere vist, hvordan dyr gennem associativ indlæring kan tilegne sig selvkontrol, forudsat at de får tilstrækkelig information og erfaringer . Kabadayi & Osvath definerede ikke selvkontrol, men i en tidligere undersøgelse definerede de det som ” undertrykkelse af umiddelbare drifter til fordel for forsinkede belønninger”. Denne funktionelle opfattelse af selvkontrol passer til mange beskrivelser af adfærd i litteraturen om dyreadfærd. Observationer af dyr, der lærer at afvise små belønninger, når de forventer store belønninger, eller med andre ord afvise urentable byttedyr, når der er rigeligt med rentable byttedyr, stammer f.eks. fra fisk (bluegill sunfish Lepomis macrochirus, ), krebsdyr (strandkrabber, Carcinus maenas, ) og fugle (stormmåger Parus major, og rødben Tringa totanus, ). Denne type undersøgelser er i vid udstrækning blevet ignoreret i undersøgelser, hvor selvkontrol ofte undersøges som en særskilt form for mental mekanisme og ikke som noget, der er underlagt indlæring (f.eks. ). I stedet kan tidligere undersøgelser af selvkontrol inden for forskning i dyrs kognition (som f.eks. ) i lyset af disse simuleringer bedst forstås som værende forårsaget af indlæring, herunder konditioneret forstærkning .

    Theoretisk set kan selvkontrol udvikles på mere end én måde. Selvkontrol kan fremkomme gennem erhvervelse af høje konditionerede forstærkningsværdier for de funktionelle objekter. Det funktionelle objekt bliver mere værdifuldt end en lille belønning. Men selvkontrol kan også opstå, hvis f.eks. “vente” betragtes som en adfærd i sig selv. I dette tilfælde kan selvkontrol opstå gennem en øget v-værdi for “vente” i nærvær af en bestemt stimulus. Selvkontrol hos jagende katte kan fremkomme gennem høje v-værdier for at vente, når de udsættes for et bytte, der er langt væk. Der er behov for mere forskning for bedre at forstå, hvordan forskellige aspekter af indlæringsmekanismer interagerer for at give anledning til mønstre af selvkontrol. Genetiske dispositioner spiller sandsynligvis en stor rolle og interagerer med stimulus-responsassociationer og stimulusværdier.

    Et andet vigtigt resultat var, at forskellen mellem ravnernes præstationer i eksperiment 3 og eksperiment 4 blev fanget af simuleringerne. Årsagen til den perfekte præstation i forsøg 4 i både ravneundersøgelsen og simuleringen var, at forsinkelsen mellem valg og adfærd, der resulterede i belønning, blev udeladt. I stedet var der en mulighed for at bruge genstanden til at indsamle en belønning lige efter det tvungne valg. Af denne grund førte hvert forsøg potentielt direkte til belønninger, hvorimod valget af den korrekte genstand i forsøg 3 først blev belønnet efter forsinkelsen. Eller med andre ord kunne ravnene i forsøg 1-3 kun få en belønning hver anden gang, de valgte den korrekte genstand, mens de i forsøg 4 fik belønninger hver gang og umiddelbart efter at have valgt og brugt den funktionelle genstand.

    En lighed mellem vores indlæringsmodel og nogle forstærkningsindlæringsmodeller inden for AI er, at disse mekanismer gør det muligt for agenter og dyr at identificere verdenstilstande, der er værdifulde, og hvilken adfærd der er produktiv i disse værdifulde tilstande. I operationel forstand genererer disse læringsmodeller planlægning, når en adfærd (putte i apparat eller give til menneske) over for en stimulus (sten eller token) vil producere mad af høj værdi på et senere tidspunkt. Dette sker på trods af, at maden (eller en anden belønnende stimulus) er fraværende. Osvath & Kabadayi definerede i et svar til kritikere fleksibel planlægning som “at træffe beslutninger om fremtiden uden for ens nuværende sanseområde inden for områder, som man ikke er disponeret for”. Uanset om modellerne stammer fra AI eller dyreadfærd , vil der, når konditioneret forstærkning indgår i læringsmodellerne, opstå planlægningsadfærd, der svarer til denne definition, gennem et smart samspil mellem stimulus-responsværdier og stimulusværdier. Nøglen er, at de aktuelt tilgængelige stimuli kan give oplysninger om, hvilken adfærd der bør udføres for at komme ind i fremtidige værdifulde tilstande. Disse læringsmodeller kan imidlertid ikke simulere forskellige resultater mentalt, de kan ikke rejse mentalt i tid og heller ikke reorganisere information internt. For at parafrasere Roberts , kan ikke-menneskelige dyr være “fastlåst i tiden”, mens de stadig udviser planlægningsadfærd.

    Mulcahy & Call forsøgte at udelukke instrumentel konditionering som forklaring på abernes adfærd ved at udføre forsøg 4. Denne fase lignede forsøg 3, men aberne blev ikke belønnet for at bruge det funktionelle værktøj. I stedet for at en abe kom ind i rummet med et funktionelt værktøj, der kunne bruges til at få en belønning (som i forsøg 3), kom en abe ind i rummet og fandt en belønning, hvis den havde båret det funktionelle værktøj til forsøgsrummet fra venteværelset. Det blev hævdet, at hvis aberne klarede sig bedre i de andre eksperimenter end i dette forsøg, ville det tyde på, at aberne planlagde fleksibelt. Mulcahy & Call konkluderede, at deres resultater “repræsenterer et ægte tilfælde af fremtidsplanlægning”. En djævleadvokat kunne identificere forskelle mellem eksperiment 3 og 4, hvilket gjorde læring til en mere sandsynlig forklaring. I eksperiment 3 blev aberne eksplicit belønnet for at bruge værktøjet. Dette resulterer i en høj konditioneret forstærkningsværdi for værktøjet og en høj stimulus-responsværdi for at bruge værktøjet på apparatet. I eksperiment 4 påpeger Mulcahy & Call imidlertid, at der gik længere tid mellem at samle værktøjet op i venteværelset, bære værktøjet til forsøgsrummet for efterfølgende at få en belønning uden at bruge værktøjet. Måske skyldtes den lave præstation i forsøg 4 den uklare forbindelse mellem værktøjet og belønningen, da forsinkelsen hæmmer tilegnelsen af at samle værktøjet op for senere at få en belønning. Korrekte kontrolbetingelser er vigtige for at gøre det muligt at forkaste hypoteser utvetydigt (f.eks. nylige diskussioner i ). Vores indlæringsmodel kan bruges i fremtidig forskning til at analysere sådanne adfærdsforskelle, der skyldes variation i indlæringskontingenser.

    Simuleringerne viser, at abeundersøgelsen og ravneundersøgelsen kan forstås gennem associativ indlæring. Resultater fra eksperimenter med cachingspecialister , der sandsynligvis er afhængige af genetiske specialiseringer , ligger imidlertid i øjeblikket uden for vores læringsmodels anvendelsesområde. Caching-adfærd og fodringsadfærd indebærer forskellige motivationstilstande hos dyr . Motivationstilstande kan betragtes som interne stimuli og let integreres i en associativ læringsmodel, hvilket ville resultere i øget fleksibilitet med hensyn til at træffe beslutninger om fouragering og caching. Vores model omfatter ikke forskellige motivationstilstande i sin nuværende form, men vi har givet eksempler på, hvordan genetiske prædispositioner kan integreres i modellen . En mulig løsning ville være at indføre kontekstafhængighed, således at udforskningen er forskellig for forskellige eksterne stimuli og/eller for forskellige interne tilstande. Det er vigtigt, at der ved antagelser om mere fleksible mentale mekanismer tages hensyn til de højere omkostninger ved udforskning, der er forbundet med øget fleksibilitet (se ). Vi forventer, at evolutionen har finjusteret genetiske dispositioner, der sammen med associativ læring genererer produktiv og artsspecifik adfærd.

    Et andet vigtigt punkt for fremtidige undersøgelser er, at når dyr lærer om konsekvenserne af adfærd, og stimulus-responsværdier og stimulusværdier opdateres, er der tale om langtidshukommelser (f.eks. , se også ). En ravn, der er trænet til at give poletter til et menneske, glemmer ikke bare, hvordan man gør det en dag senere. Adfærdsmæssigt set er værktøjsbetingelsen i ravneundersøgelsen identisk med, når hundeejere lærer pelsede venner at “rydde op” ved at lægge legetøj i en bestemt kurv. I stedet for at ravnen bliver belønnet for at lægge en sten i et apparat, får en hund en belønning for at lægge et stykke legetøj i en kurv. Sådanne langtidshukommelser, der opdateres gennem associativ læring, er meget forskellige fra korttidshukommelsen af vilkårlige stimuli .

    Sammenfattende er udviklingen af associative læringsmodeller imponerende inden for AI-forskningen, og modellerne har vist sig at være effektive til at generere kompleks adfærd. Man kan spørge, hvorfor disse kraftfulde modeller ikke i højere grad anvendes på adfærd hos ikke-menneskelige dyr, og hvorfor disse modeller er undervurderet som årsag til fleksibel adfærd hos ikke-menneskelige dyr. Dette er især relevant i betragtning af, at forskning i dyrs kognition, hvor ikke-menneskelige dyr hævdes at have indsigt, udvise kausal ræsonnement og planen, jævnligt kritiseres for at lide af storslåede påstande baseret på en svag metodologi (f.eks. ). En måde at løse dette associative læringsparadoks på er ved at integrere områderne AI, dyreindlæring og kognition hos dyr . For at forstå de mekanismer, der genererer adfærd, vil formelle bottom-up associative modeller sandsynligvis være mere oplysende end verbale top-down “højere-ordnings”-kognitive modeller. F.eks. fordi sidstnævnte modeller er vanskeligere at forkaste, og fordi de ikke kan gennemføres i simuleringer eller anvendes, når man bygger robotter. Sammenfattende konkluderes det, at man ikke kan udelukke, at fleksibel planlægning hos aber og corvider, og sandsynligvis mange andre arter, opstår gennem associativ læring.

    Datatilgængelighed

    Figurer og data fra simuleringer kan genereres ved hjælp af software og kode som angivet i det elektroniske supplerende materiale.

    Autors bidrag

    J.L. udtænkte forskningen, udførte computersimuleringer, analyserede data og skrev manuskriptet.

    Konkurrerende interesser

    Der er ingen konkurrerende interesser.

    Finansiering

    Dette arbejde blev støttet af Knut og Alice Wallenbergs Fond, KAW 2015.005.

    Anerkendelser

    Tak til Markus Jonsson, Magnus Enquist, Anna Jon-And og Stefano Ghirlanda. Tak også til to anonyme dommere for værdifulde og indsigtsfulde kommentarer.

    Fodnoter

    Elektronisk supplerende materiale er tilgængeligt online på https://dx.doi.org/10.6084/m9.figshare.c.4302740.

    © 2018 The Authors.

    Publiceret af Royal Society i henhold til vilkårene i Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, som tillader ubegrænset brug, forudsat at den oprindelige forfatter og kilde angives.

    • Mnih Vet al.2015Kontrol på menneskeligt niveau gennem dyb forstærkningsindlæring. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
    • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
    • Silver Det al.2017Mastering chess and shogi by self-play by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
    • Emery NJ, Clayton NS. 2004The mentality of crows: konvergerende evolution af intelligens hos corvider og aber. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
    • Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontane prosociale valg hos chimpanser. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
    • MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
    • Suchak M, Eppley TM, Campbell MW, Feldman RA, Feldman RA, Quarles LF, de Waal FB. 2016Hvordan chimpanser samarbejder i en konkurrencepræget verden. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
    • Whiten A. 2017Social learning and culture in child and chimpanzee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
    • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
    • Tomasello M, Call J. 1997Primatkognition. Oxford, UK: Oxford University Press. Google Scholar
    • Mulcahy NJ, Call J. 2006Hvordan store menneskeaber klarer sig på en modificeret trap-tube-opgave. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
    • Bird CD, Emery NJ. 2009Insigtsfuld problemløsning og kreativ værktøjsmodifikation af ikke værktøjsbrugende rokker i fangenskab. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.090101008106) Crossref, ISI, Google Scholar
    • Bird CD, Emery NJ. 2009Svar til Lind et al.: indsigt og læring. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
    • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Udnyttelse af Æsops fabelparadigme til at undersøge kausal forståelse af nykaledoniske kragernes vandforflytning. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
    • Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
    • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
    • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
    • Koops K, Furuichi T, Hashimoto C. 2015Chimpanser og bonobos adskiller sig i intrinsisk motivation for værktøjsbrug. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
    • Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behaviour. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
    • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, UK: Oxford University Press. Crossref, Google Scholar
    • Carew TJ, Sahley CL. 1986Invertebrate læring og hukommelse: fra adfærd til molekyler. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
    • Bouton ME. 2007Læring og adfærd: en moderne syntese. Sinauer, MA: Sunderland. Google Scholar
    • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
    • Mulcahy NJ, Call J. 2006Apes save tools for future use. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
    • Naqshbandi M, Roberts WA. 2006Anticipation af fremtidige begivenheder hos egernaber (Saimiri sciureus) og rotter (Rattus norvegicus): test af Bischof-Köhler-hypotesen. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
    • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planlægning for fremtiden af vestlige kratluser. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
    • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobos og orangutanger, men ikke chimpanser, planlægger fleksibelt for fremtiden i en opgave med token-udveksling. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
    • Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
    • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
    • Suddendorf T, Corballis MC. 2010Adfærdsmæssigt bevis for mentale tidsrejser hos ikke-menneskelige dyr. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
    • Suddendorf T, Corballis MC, Collier-Baker E. 2009Hvor stor er den store abes forudseenhed?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
    • Cheke LG, Clayton NS. 2010Mentale tidsrejser hos dyr. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
    • Redshaw J, Taylor AH, Suddendorf T. 2017Fleksibel planlægning hos ravne?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
    • Suddendorf T, Bulley A, Miloyan B. 2018Prospection and natural selection. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
    • Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, UK: Psychology Press. Google Scholar
    • Shettleworth S. 2010Cognition, evolution, and behavior. Oxford, UK: Oxford University Press. Google Scholar
    • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/15685396969X00233) Crossref, ISI, Google Scholar
    • Eaton RL. 1970Røversekvensen, med vægt på drabsadfærd og dens ontogenese, hos geparden (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
    • Kelleher RT, Gollub LR. 1962En gennemgang af positiv betinget forstærkning. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
    • Mackintosh NJ. 1974Psykologien om dyrs indlæring. London, UK: Academic Press. Google Scholar
    • Williams BA. 1994Conditioned reinforcement: eksperimentelle og teoretiske spørgsmål. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
    • McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training (gulerødder og pinde: principper for dyretræning). Sydney, Australien: Darlington Press. Google Scholar
    • Rescorla RA, Wagner AR. 1972En teori om pavlovsk konditionering: variationer i effektiviteten af forstærkning og ikke-forstærkning. I Klassisk konditionering II: aktuel forskning og teori (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
    • Blough DS. 1975Steady state data og en kvantitativ model for operant generalisering og diskrimination. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
    • Sutton RS, Barto AG. 1998Reinforcement learning. Cambridge, MA: MIT Press. Google Scholar
    • Balleine B, Dickinson A. 1991Instrumentel præstation efter devaluering af forstærkere afhænger af incitamentsindlæring. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
    • Dickinson A, Balleine B. 1994Motivationel kontrol af målstyret handling. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
    • Osvath M, Osvath H. 2008Chimpansee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
    • Werner EE, Hall DJ. 1974Optimal fouragering og størrelsesvalg af byttedyr hos bluegill sunfish (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
    • Elner RW, Hughes RN. 1978Energimaksimering i kosten hos strandkrabben Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
    • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimalt valg af bytte hos karmindompap (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
    • Goss-Custard JD. 1977Optimal fouragering og størrelsesvalg af orme hos rødspætter, Tringa totanus, i felten. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
    • Osvath M, Kabadayi C. 2018Contrary to the gospel, ravens do planlægger fleksibelt. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
    • Barto AJ. 2003Reinforcement learning. In The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
    • Roberts WA. 2002Are animals stuck in time?Psychol. Bull. 128, 473-489. (doi:10.1037/003333-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
    • Ghirlanda S, Lind J. 2017’Aesop’s fable’ eksperimenter demonstrerer trial-and-error læring hos fugle, men ingen kausal forståelse. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
    • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Meta-analytiske teknikker afslører, at corvide kausale ræsonnementer i Æsops fabelparadigmet er drevet af trial-and-error-læring. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
    • Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays forudser fremtidige behov uafhængigt af deres nuværende motivationstilstand. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
    • Cheke LG, Clayton NS. 2012Eurasiske høge (Garrulus glandarius) overvinder deres nuværende ønsker for at forudse to forskellige fremtidige behov og planlægge dem hensigtsmæssigt. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
    • Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
    • Skinner BF. 1950Er teorier om læring nødvendige?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
    • Vaughan W, Greene SL. 1984Pigeon visuel hukommelseskapacitet. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
    • Gleitman H. 1971Forgetting of long-term memories in animals. I Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
    • Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwins fejl: Forklaring af diskontinuiteten mellem menneskelig og ikke-menneskelig hjerne. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
    • Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
    • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
    • Shettleworth SJ. 2010Smarteste dyr og dræberforklaringer i komparativ psykologi. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
    • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
    • Dymond S, Stewart I. 2016Relationelle og analoge ræsonnementer i komparativ kognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
    • Lindenfors P. 2017Bird brains: are crows as intelligent as some scientists claim?Skept. Mag. 22, 10-11. Google Scholar
    • Lind J, Enquist M. 2009Mere syntetisk arbejde er nødvendigt. Adapt. Behav. 17, 329-330. (doi:10.1177/1077/1059712309340860) Crossref, ISI, Google Scholar

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.