Ce poate face învățarea asociativă pentru planificare? | Royal Society Open Science

Introducere

Pentru uimirea lumii, modelele de învățare asociativă folosite în cercetarea inteligenței artificiale (AI) ating acum abilități de nivel uman în jocurile video și învinge maeștrii umani în jocul de societate chinezesc Go , șah și shogi . În ciuda faptului că învățarea asociativă în cadrul cercetării în domeniul inteligenței artificiale este recunoscută pentru producerea unui comportament asemănător cu cel uman, învățarea asociativă este adesea fie nemenționată (de ex. ), fie percepută ca fiind nedorită sau insuficient de sofisticată (de ex. ) pentru a oferi explicații pentru comportamentul flexibil al animalelor non-umane. Este un paradox intrigant faptul că învățarea asociativă este recunoscută pentru producerea unui comportament flexibil complex în cadrul cercetării în domeniul inteligenței artificiale, dar este adesea respinsă și neglijată ca model pentru comportamentul flexibil în sistemele biologice (atât la oameni, cât și la animalele neumane).

Dacă dezvoltarea secvențelor de comportament la animalele neumane poate fi înțeleasă sau nu în termeni de învățare asociativă are consecințe profunde pentru înțelegerea noastră în ceea ce privește studiul comportamentului. Dacă un comportament perceput ca fiind avansat sau complex, cum ar fi utilizarea uneltelor de către cimpanzeu (Pan troglodytes), se poate dezvolta prin procese asociative, diferențele dintre specii pot fi căutate în ceea ce privește diferențele genetice în repertoriile comportamentale, tendințele exploratorii, cum ar fi curiozitatea, și factorii motivaționali și atenționali. În cazul în care procesele asociative nu sunt suficiente pentru a explica modul în care informațiile sunt procesate și amintirile sunt actualizate pentru a genera un comportament, atunci trebuie identificate mecanisme alternative pentru ca noi să înțelegem cum se dezvoltă un astfel de comportament. În prezent, cercetătorii au puncte de vedere foarte contrastante în această privință. Pe de o parte, unii sugerează că procesele asociative, împreună cu factori precum dimensiunea repertoriului de comportamente și explorarea, sunt puternice și pot explica o mare parte din modul în care animalele dobândesc comportamente (de exemplu, ). În schimb, alții pun accentul pe mecanismele alternative și propun că animalele au multe mecanisme diferite care rezolvă diferite probleme specifice și că aceste mecanisme sunt reglate fin prin evoluție (de exemplu, ). Nu toate studiile se încadrează în aceste două categorii, iar unele studii testează explicații alternative și controlează învățarea asociativă. Cu toate acestea, este obișnuit ca astfel de studii să presupună doar cele mai simple forme de învățare asociativă. Este probabil ca acest lucru să ducă la respingeri false ale ipotezelor învățării asociative. Acest lucru se datorează faptului că majoritatea vertebratelor și nevertebratelor prezintă capacități atât pentru învățarea instrumentală, cât și pentru învățarea pavloviană , care, împreună cu memoriile specializate, fac ca majoritatea animalelor să fie capabile de o învățare mai complexă decât ceea ce permit cele mai simple forme de învățare asociativă.

Obiectivul acestui studiu a fost de a explora dacă un model de învățare , similar învățării prin întărire utilizat în cercetarea în domeniul inteligenței artificiale, ne poate ajuta să înțelegem dobândirea comportamentului de planificare la corvide și maimuțe, comportamente percepute uneori ca fiind complexe și asemănătoare cu cele umane. S-a ajuns la concluzia că mai multe specii planifică în mod flexibil pentru viitor, nu spre deosebire de oameni (de exemplu, ). Ideea este că acest tip de planificare este un rezultat al unui mecanism mental flexibil care poate simula, mental, diferite stări viitoare pornind de la informațiile actuale. Totuși, aceste afirmații au fost contestate pe baza a cel puțin două linii de argumente diferite. În primul rând, cercetătorii au ridicat îndoieli cu privire la capacitatea generală a păsărilor de a planifica, deoarece studiile de planificare la păsări implică, de obicei, specialiști în caching care îndeplinesc sarcini de caching, cum ar fi gaițele (Aphelocoma californica), gaițele eurasiatice (Garrulus glandarius) și gaițele cu cap negru (Poecile atricapillus) . Aceste rezultate pot fi cauzate de repertorii de memorie specializate (cf. ). Al doilea motiv de respingere a ideii că animalele non-umane planifică în mod flexibil este acela că comportamentul observat nu a fost cauzat de o planificare asemănătoare celei umane, ci este mai bine înțeles ca rezultat al învățării asociative și că deficiențele metodologice fac ca aceste studii să fie echivoce .

De ce ar fi util un model de învățare asociativă pentru a înțelege comportamentul orientat spre viitor? Învățarea asociativă este bine cunoscută pentru faptul că provoacă comportamente anticipative, comportamente care pot prezice evenimente semnificative ulterioare fără beneficii imediate . În plus, autocontrolul, adesea menționat ca fiind important pentru planificare , poate apărea prin învățarea asociativă . S-ar putea presupune că autocontrolul nu este posibil prin învățarea asociativă, deoarece un comportament recompensat imediat ar trebui să fie întotdeauna preferat unui comportament nerecunoscător. Dar, pentru multe animale, „a aștepta” sau „a pândi” sunt comportamente care pot fi întărite atunci când sunt urmate de posibilități ulterioare de recompensă. De exemplu, prădătorii învață abilitățile de urmărire și așteptare atunci când sunt tineri .

Modelul folosit aici este un model de învățare asociativă capabil să învețe comportamentul optim într-o lume complexă . Modelul include două memorii diferite și un mecanism de luare a deciziilor. O memorie stochează forța asociativă a efectuării comportamentului B față de stimulul S, iar cealaltă memorie stochează valoarea estimată a stimulului S. Modelul poate învăța secvențe de comportament prin legarea comportamentelor individuale împreună prin întărire condiționată (întărire secundară). În acest fel, stimulii inițial neutri care preced întăriri primare pot deveni ei înșiși întăriri, modificând astfel un comportament nerecompensat anterior . De exemplu, un iepure antrenat cu clickerul a auzit clicuri în mod repetat înainte de recompensele alimentare. Pentru acest iepure, un clic devine o recompensă în sine, iar iepurele va învăța să realizeze comportamente care au ca rezultat doar auzirea unui clic . Modelul este explicat mai detaliat în secțiunea Material și metode de mai jos.

Aici testez ipoteza că un model de învățare asociativă poate explica rezultatele găsite în studiile de planificare non-umană. Modelul de învățare a fost folosit pentru a simula rezultatele a două studii de planificare, unul cu urangutani (Pongo pygmaeus) și bonobo (Pan paniscus) și unul cu corbi (Corvus corax) . S-a constatat că simulările au urmărit modelele cheie în cadrul și între aceste studii. Se concluzionează că nu se poate exclude faptul că studiile privind planificarea flexibilă la maimuțe și corvide pot fi explicate prin învățarea asociativă. Prin urmare, învățarea asociativă nu poate produce doar comportamente asemănătoare cu cele umane (de exemplu ), ci este o explicație candidată pentru observațiile privind planificarea și autocontrolul la animalele non-umane.

Materiale și metode

Descriu aici modelul nostru de învățare , logica celor două studii diferite care au fost folosite pentru simulări și detalii ale simulărilor.

2.1. Descrierea modelului

Un animal are un repertoriu de comportamente și își poate folosi comportamentele pentru a naviga într-o lume cu stări de mediu detectabile. Un comportament duce animalul de la o stare la alta. Fiecare stare, sau stimul, are o valoare de întărire primară care este fixată genetic. Aceste valori pot fi negative, neutre sau pozitive și ghidează învățarea astfel încât să fie promovate comportamentele care favorizează supraviețuirea și reproducerea. Se presupune că animalele fac alegeri care maximizează valoarea totală, iar așteptările privind valoarea unei stări viitoare se pot dezvolta . Modelul poate astfel să genereze un comportament orientat spre scop (a se vedea pentru o altă discuție despre comportamentul orientat spre scop și învățare).

În concluzie, modelul descrie învățarea secvențelor de comportament față de stimuli prin modificări ale memoriei. Acesta include procesul de luare a deciziilor care ia în considerare memoria pentru a determina ce comportament ar trebui să fie selectat atunci când este perceput un anumit stimul. Să luăm, de exemplu, învățarea unui singur comportament, cum ar fi atunci când un câine învață să dea din lăbuță ca răspuns la comanda „scutură”. Ridicarea labei este comportamentul, comanda „scutură” și recompensa sunt stimulii. Secvența de evenimente care trebuie învățată este: comanda „scutură” → ridică laba → recompensă, sau

Scomandă „scutură′→Suspendă laba→Recompensă alimentară

Modelul colectează informații despre valoarea îndeplinirii comportamentelor față de diferiți stimuli (sau stări) și informații despre valoarea diferiților stimuli (sau a faptului de a fi în anumite stări) . Învățarea are loc prin actualizarea a două tipuri diferite de memorii. Aceste memorii corespund învățării pavloviane și instrumentale și sunt actualizate după o secvență de evenimente ca în exemplul câinelui sau, în termeni generali, secvența de evenimente S → B → S′. Primul tip de memorie este o asociere stimul-răspuns. Am folosit vS→B pentru a denota puterea asociativă dintre stimulul S și comportamentul B. În termeni funcționali, vS→B poate fi descrisă ca fiind valoarea estimată a realizării comportamentului B atunci când se percepe stimulul S. Cea de-a doua memorie stochează valoarea unui stimul. Am utilizat wS pentru a desemna această valoare a stimulului și este actualizată în funcție de valoarea unui stimul ulterior. Cu alte cuvinte, wS este valoarea de întărire condiționată de a fi în starea S. Aceste memorii sunt actualizate în conformitate cu

ΔvS→B=αv(uS′+wS′-vS→B)șiΔwS=αw(uS′+wS′-wS)}2.1

după ce se experimentează secvența de evenimente S → B → S′. Asocierea stimul-răspuns vS→B este actualizată în funcție de uS′ o valoare fixă primară înnăscută a stimulului S′ și de wS′ valoarea de întărire condiționată și de asocierea stimul-răspuns vS→B stocată anterior. În cazul întăririi condiționate, valoarea realizării comportamentului B atunci când se percepe stimulul S este suma dintre valoarea primară și valoarea de întărire condiționată a stimulului S′. Dacă se utilizează doar prima ecuație și se exclude w, atunci aceasta reprezintă învățarea instrumentală stimul-răspuns, adică o versiune instrumentală a modelului clasic de învățare Rescorla-Wagner . Ratele de învățare αv și αw determină rata la care au loc actualizările memoriei.

Pentru ca modelul de învățare să genereze și să selecteze un comportament, este necesar un mecanism de luare a deciziilor. Am utilizat un mecanism de luare a deciziilor care selectează răspunsurile comportamentale și determină o anumită variație a comportamentului prin explorare. Acesta specifică probabilitatea comportamentului B în starea S ca

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

care include un parametru β care reglează cantitatea de explorare. Toate comportamentele au aceeași probabilitate de a fi selectate dacă β = 0, fără a lua în considerare valorile estimate. Dacă β este mare, atunci comportamentul cu cea mai mare valoare estimată (v) va fi selectat în principal.

Să ne întoarcem la câine pentru un exemplu practic. Câinele aude comanda „scutură”, stimulul S. Dacă câinele își mișcă laba în sus, adică realizează comportamentul B, va primi recompensa S′. Recompensa alimentară S′ are o valoare primară înnăscută u. Atunci când câinele primește această recompensă după ce a răspuns corect la comanda „scutură”, memoria stimul-răspuns vcomandă `shake′→ ridică laba va crește în conformitate cu rândul de sus din ecuația (2.1). În plus, valoarea stimulului w a comenzii „scutură” va fi actualizată în conformitate cu rândul de jos din ecuația (2.1). Această valoare w a comenzii „scutură” se va apropia de valoarea u a recompensei alimentare și, astfel, va dobândi proprietăți de întărire de sine stătătoare; aceasta a devenit un întăritor condiționat. Întărirea condiționată poate deschide calea pentru învățarea mai multor comportamente înainte de a muta laba în sus. Acest lucru se poate întâmpla deoarece comportamentele care au ca rezultat audierea de către câine a comenzii „scutură” pot fi întărite.

2.2. Simularea studiilor de planificare pe maimuțe mari și corbi

Simularea experimentelor de planificare s-a bazat pe descrieri detaliate ale desfășurării evenimentelor din cele două studii în care au fost identificate evenimente cheie. Evenimentele-cheie au inclus ce comportamente au fost antrenate înainte de teste și față de ce obiecte, precum și ce rezultate au rezultat din diferite alegeri în timpul antrenamentului prealabil și al testelor. Este important să se identifice detaliile în aceste studii , deoarece fazele de testare au inclus un amestec de acțiuni recompensatoare și non-recompensatoare. Prin urmare, era de așteptat ca atât stimulul-răspuns (v), cât și valorile stimulilor (w) să se schimbe pe parcursul testelor.

Pentru ca simulările să fie atât posibile, cât și realiste, s-a presupus că animalele au intrat în aceste studii cu anumite abilități zilnice necesare. S-a presupus că animalele au învățat anterior, de exemplu, să țină în mână obiecte, cum să se deplaseze între încăperi și compartimente, unde se aflau diferite lucruri, precum și unele abilități de bază privind modul de interacțiune cu experimentatorii. De exemplu, maimuțele au fost scoase din camera de testare după ce au făcut alegeri, pentru ca mai târziu să li se permită să revină în camera de testare. Ignorând astfel de abilități cotidiene, simulările și descrierile comportamentului s-au concentrat pe secvențele unice de comportament pe care animalele trebuiau să le învețe în cadrul experimentelor.

Cele două studii au în comun caracteristici cheie. Înainte de începerea testelor, animalele au fost supuse unei pre-antrenări. Aici au învățat să realizeze comportamente care ulterior au fost notate ca fiind corecte. În afară de pre-antrenarea comportamentelor corecte, studiul cu corbi a inclus și antrenamentul de extincție. În timpul antrenamentului de extincție, corbii au avut șansa de a învăța că obiectele nefuncționale nu aduc recompense. Evenimentele cheie din ambele studii utilizate pentru a puncta alegerile corecte față de cele incorecte au fost testele de alegere forțată. Aici, animalele au fost forțate să aleagă între un obiect pe care învățaseră anterior că ar putea duce la o recompensă, față de alte obiecte care nu puteau fi folosite pentru recompense ulterioare (obiecte distractoare). Corbii au învățat în timpul antrenamentului de extincție că aceste obiecte distractoare nu puteau duce la recompense. După alegerea forțată, ambele studii au inclus o întârziere de ceva timp, după care animalelor li s-a permis să realizeze un comportament folosind obiectul ales anterior. În cazul în care un animal făcea o alegere corectă înainte de întârziere, acesta putea utiliza ulterior obiectul ales pentru a obține o recompensă. Dacă un animal făcea o alegere incorectă înainte de întârziere, nu existau oportunități pentru comportamente de recompensare după întârziere.

Simulările efectuate au urmat faza de preformare și faza de testare a studiilor. Comparațiile sunt făcute cu nivelurile de șansă ale alegerilor corecte stabilite de cele două studii. Mulcahy & Call se aștepta ca maimuțele să aleagă corect din întâmplare în 25% din cazuri (un obiect funcțional și trei obiecte distractoare). Kabadayi & Osvath se aștepta ca corbii să facă din întâmplare 25% alegeri corecte în experimentele 1 și 2 și 20% alegeri corecte în experimentele 3 și 4 (un obiect funcțional și trei obiecte distractoare în experimentele 1 și 2 și un obiect funcțional, o recompensă mică și trei obiecte distractoare în experimentele 3 și 4). Consultați scripturile de simulare pentru descrieri exacte (a se vedea materialul electronic suplimentar). Pentru a facilita urmărirea simulărilor, iată descrierile în profunzime ale celor două studii.

2.3. O descriere a studiului lui Mulcahy și Call asupra maimuțelor mari

Aceste teste au fost efectuate cu urangutani și bonobo . Studiul a început cu o pre-antrenare. În acest caz, un animal a fost plasat într-o cameră de testare și a fost antrenat în două sarcini diferite pentru a obține o recompensă de la un aparat. Aceste instrumente funcționale vor fi denumite obiecte funcționale. Una dintre sarcini a fost aceea de a alege un tub și de a introduce acest tub într-un aparat. Cealaltă sarcină a fost de a alege un cârlig și de a-l folosi pentru a ajunge la o sticlă care nu putea fi atinsă fără a avea cârligul. După preformare, animalul a fost supus unui test de alegere forțată între obiectele funcționale și trei obiecte nefuncționale corespunzătoare (denumite ulterior obiecte distractoare). Dar în timpul acestei alegeri forțate, accesul la aparatul care conținea o recompensă a fost blocat. După ce a fost făcută alegerea, animalul a fost îndepărtat din sala de testare și dus într-o sală de așteptare. Obiectele care nu au fost luate de animal au fost acum evacuate din sala de testare. În acest moment, a existat o întârziere. După această întârziere, animalul a fost din nou lăsat să intre în sala de testare și i s-a dat acces la aparat. Dacă un obiect funcțional fusese ales în testul de alegere forțată, animalul putea acum să folosească obiectul pentru a obține o recompensă, manifestând astfel comportamentul pe care îl învățase în timpul preformării.

Acest studiu a inclus patru teste care au fost ușor diferite. Testele au variat în ceea ce privește instrumentul care era obiectul funcțional și durata întârzierilor. În plus, în ultimul test, animalele nu au fost nevoite să folosească unealta pentru a obține o recompensă. Rețineți că aici, în experimentul 4, au fost utilizați doi indivizi noi, care nu au luat parte la experimentele 1, 2 sau 3. Această ultimă parte a avut puțină importanță aici din motivele menționate în secțiunea Rezultate. Simulările au urmat logica studiului și iată detaliile evenimentelor și întârzierilor cheie utilizate în cadrul simulării:

Pregătire: Înainte de teste, toți subiecții au învățat să utilizeze instrumentele funcționale. În două etape, un minim de trei plus opt încercări de preformare au fost permise pentru sarcina cu tubul și un minim de cinci încercări de preformare au fost permise pentru sarcina cu cârligul.
Experimentul 1, condiția cu tubul: (1) Alegerea forțată cu tub funcțional și obiecte distractoare (16 încercări). (2) După alegere se merge în altă cameră. (3) Așteptați 1 h. (4) Întoarceți-vă și dacă a fost ales tubul funcțional, acesta putea fi folosit pentru a obține o recompensă.
Experimentul 2, condiția tubului: (1) Alegerea forțată cu tub funcțional și obiecte distractoare (12 încercări). (2) După alegere mergeți în altă cameră. (3) Așteptați 14 h. (4) Întoarceți-vă și dacă a fost ales tubul funcțional acesta putea fi folosit pentru a obține o recompensă.
Experimentul 3, condiția cârligului: (1) Alegerea forțată cu cârlig funcțional și obiecte distractoare (16 încercări). (2) După alegere, mergeți în altă cameră. (3) Așteptați 1 h. (4) Întoarceți-vă și dacă a fost ales cârligul funcțional acesta putea fi folosit pentru a obține o recompensă.
Experimentul 4, condiția cârligului: (1) Alegerea forțată cu cârlig funcțional și obiecte distractoare (16 încercări). (2) După alegere, mergeți în altă cameră. (3) Așteptare 1 h. (4) Întoarcere și dacă a fost ales cârligul funcțional s-a primit o recompensă fără a folosi cârligul.

Secvențele de comportament de învățat au fost următoarele:

Condiția tub: Stube → Btake tube → Sapparatus → Buse tube → Sreward
Condiția cârligului: Shook → Btake hook → Sapparatus → Buse hook → Sreward

În ambele condiții, maimuțele nu au fost niciodată recompensate pentru alegerea obiectelor distractoare, sau:

Distractoare: Sdistractor → Btake distractor → Sno recompensă

2.4. O descriere a lui Kabadayi & Studiul lui Osvath asupra corbilor

Aceste teste au fost efectuate cu corbi . Acest studiu a început cu o pre-antrenare. Aici un animal a fost plasat într-o cameră de testare și a fost antrenat pe două sarcini diferite cu instrumente pentru a obține o recompensă de la un aparat. Ca și mai sus, uneltele funcționale vor fi denumite obiecte funcționale. Una dintre sarcini a constat în introducerea unei pietre într-un aparat pentru a obține o recompensă. Cealaltă sarcină a fost de a lua un capac de sticlă (numit token) și de a-l da unui om. Spre deosebire de studiul asupra maimuțelor, înainte de începerea testelor, corbilor li s-au permis, de asemenea, încercări de extincție. Aici, animalului i s-a permis să interacționeze cu obiectele care urmau să fie prezente în timpul testelor de alegere forțată, dar care nu puteau fi folosite niciodată pentru a obține recompense (denumite ulterior obiecte distractoare). După preformare, animalul a fost supus unui test de alegere forțată între un obiect funcțional și trei obiecte distractoare. După ce a fost făcută o alegere, animalului nu i s-a permis să folosească obiectul funcțional pentru o perioadă de timp. Cu alte cuvinte, nicio recompensă nu a putut fi colectată imediat după testul de alegere (cu excepția experimentului 4). În acest moment, a existat o întârziere. După această întârziere, animalului i s-a permis să folosească obiectul ales. Dacă un obiect funcțional fusese ales în testul de alegere forțată, animalul putea acum să folosească acel obiect pentru a obține o recompensă, manifestând astfel comportamentul pe care îl învățase în timpul preformării.

Acest studiu a inclus, de asemenea, patru teste care au fost ușor diferite. Testele au variat în ceea ce privește numărul de încercări, durata întârzierilor, iar în ultimul test, animalele nu trebuiau să aștepte înainte de a folosi un obiect funcțional pentru a obține o recompensă. Trebuie remarcat faptul că, în acest studiu, au fost utilizate două recompense diferite. O recompensă cu valoare ridicată a fost utilizată în preformare și în toate experimentele. Iar în experimentele 3 și 4, o recompensă cunoscută de valoare mică a fost utilizată în situația de alegere forțată, alături de instrumentul funcțional și de obiectele distractoare. Rețineți că experimentele nu au fost efectuate în aceeași ordine în care au fost numerotate în studiul publicat. Am ales să prezint testele în ordinea temporală în care au fost efectuate (1,3,2,4). Simulările au urmat logica studiului și iată detaliile evenimentelor cheie folosite în simulare: Evenimentele cheie înainte și în timpul experimentelor au fost:

Pregătirea: Înainte de teste, toți subiecții au învățat să utilizeze instrumentele funcționale. În două etape, au fost permise minimum trei plus cinci încercări de preînvățare pentru sarcina cu instrumente și 35 de încercări de preînvățare pentru sarcina cu jetoane.
Încercări de extincție: În această fază, subiecților li s-a permis să manipuleze obiectele distractoare timp de 5 min fără a primi nicio recompensă.
Experimentul 1: (1) Alegerea forțată cu obiect funcțional și obiecte distractoare. 14 încercări în condiția cu instrumente și 12 × 3 încercări în condiția cu jetoane. (2) Așteptare 15 min. (3) Obiectul ales poate fi folosit din nou, iar dacă piatra sau jetonul fusese ales, acesta putea fi folosit pentru a obține o recompensă.
Experimentul 3: (1) Alegerea forțată cu obiect funcțional, recompensă mică și obiecte distractoare. 14 încercări în condiția instrumentului și 14 încercări în condiția jetonului. (2) Așteptare 15 min. (3) Obiectul ales poate fi folosit din nou, iar dacă piatra sau jetonul fusese ales, acesta putea fi folosit pentru a obține o recompensă.
Experimentul 2: (1) Alegerea forțată cu obiect funcțional și obiecte distractoare. 6 încercări în condiția instrumentului și 6 încercări în condiția jetonului. (2) Așteptare 17 h. (3) Obiectul ales poate fi folosit din nou, iar dacă piatra sau jetonul fusese ales, acesta putea fi folosit pentru a obține o recompensă.
Experimentul 4: (1) Alegerea forțată cu obiect funcțional, recompensă mică și obiecte distractoare. 14 încercări în condiția instrumentului și 14 încercări în condiția jetonului. (2). Dacă piatra sau jetonul fusese ales, acesta putea fi folosit pentru a obține o recompensă.

Secvențele de comportament de învățat au fost următoarele:

Condiția instrument: Stool → Btake tool → Sapparatus → Buse tool → Sreward
Condiția simbolului: Stoken → Btake token → Shuman → Bgive token → Sreward

Corbii au fost învățați, de asemenea, în timpul unei faze de extincție, că nu este niciodată recompensant să aleagă sau să folosească obiecte distractoare. Acest lucru s-a întâmplat și în timpul tuturor testelor, sau:

Distractori: Sdistractor → Btake distractor → Sno recompensă

În fazele de autocontrol ale studiului, corbii au avut posibilitatea de a alege o mică recompensă care a fost prezentată alături de obiectul funcțional (unealtă sau jeton) și de obiectele distractoare. Prin urmare, în experimentele 3 și 4, au fost posibile și aceste secvențe de comportament:

Condiția instrument: Sdog kibble → Btake small reward → Ssmall reward
Token condition: Sdog kibble → Btake small reward → Ssmall reward

2.5. Ilustrarea actualizărilor memoriei în timpul preînvățării

Pentru a ilustra modul în care aceste secvențe de comportament sunt afectate de învățare, iată un exemplu de actualizare a memoriei pentru preînvățarea în studiul cu corbii. Secvența comportamentală care s-a dezvoltat în timpul preînvățării poate fi descrisă ca Stool → Btake tool → Sapparatus → Buse tool → Sreward, unde valoarea introducerii pietrei în aparat a crescut, astfel încât vSapparatus → Buse tool≫0. Deoarece modelul include, de asemenea, o întărire condiționată, valoarea pietrei în sine este actualizată în funcție de valoarea stimulului următor, recompensa mare. Odată cu experiențele repetate, valoarea stimulului (w) al Srecompensă va determina creșterea valorii stimulului de Stool. După cum se arată în descrierea noastră a acestui model , cu suficiente experiențe, valoarea sculei se va apropia de valoarea recompensei mari. Prin contrast, încercările de extincție cu experiențe repetate nerecompensate ale celor trei obiecte distractoare pot fi descrise ca Sdistractor → Bpick distractor → Sno recompensă. Această secvență de evenimente va determina o reducere atât a forței asociative a alegerii unui distractor vSdistractor → Bpick distractor, cât și a valorii de întărire condiționată (wdistractor) a distractorului. Atunci când primul test începe cu o alegere forțată, comportamentul corbilor a fost influențat de pre-antrenamentul atât cu piatra, cât și cu distractorii.

2.6. Detalii de simulare

Modelul de mai sus a fost încorporat într-un program Python în care învățarea a avut loc în conformitate cu procedurile detaliate ale celor două studii, așa cum au fost definite mai sus, pentru a obține estimări ale probabilităților de alegere a diferiților stimuli, precum și ale valorilor v și w, pe parcursul studiilor. Au fost rulate două tipuri de simulări. Mai întâi au fost rulate simulări cu modelul complet, iar apoi simulări fără valorile stimulilor (w), adică permițând doar versiunea noastră de învățare stimul-răspuns folosind doar primul rând din ecuația (2.1) împreună cu luarea deciziilor (ecuația (2.2)). Acest lucru a fost făcut pentru a explora diferențele dintre modelul nostru care include întărirea condiționată și o versiune de învățare stimul-răspuns singură . Acea versiune de învățare stimul-răspuns este identică cu regula clasică de învățare Rescorla-Wagner, dar în am considerat-o în termenii unui cadru instrumental în loc de un cadru pavlovian.

Pentru a lua în considerare întârzierile, un pas de timp pe minut a fost inclus în simulare în momentele de întârziere. În timpul acestor pași de timp, a fost experimentat doar un stimul de fond. Acest lucru nu este foarte important de dragul actualizării memoriei, deoarece atât memoria stimul-răspuns, cât și cea a valorii stimulului sunt memorii pe termen lung. Faptul că animalele își amintesc asociațiile stimul-răspuns și valorile stimulilor pentru o perioadă foarte lungă de timp nu a fost menționat în niciunul dintre studiile simulate .

În toate simulările au fost utilizați aceiași parametri de învățare. Toate comportamentele au început cu o valoare inițială stimul-răspuns v = 1, atât valorile v- cât și w au fost actualizate cu rata de învățare α = 0,2, explorarea a fost setată la β = 1, iar recompensele au fost setate la u = 6, cu excepția recompenselor de valoare mică din experimentele 3 și 4 din Kabadayi & Osvath care au fost setate la u = 2. Costul comportamentului pentru toate comportamentele a fost de 0,1, cu excepția răspunsurilor pasive care au fost setate la 0 (a se vedea informațiile pentru toate comportamentele și elementele de stimulare incluse în simulări în materialul electronic suplimentar). Toate simulările au fost rulate pentru 500 de subiecți, iar numărul de încercări l-a urmat aproximativ pe cel al experimentelor. Faptul că numărul de încercări nu a corespuns perfect studiilor empirice s-a datorat naturii probabilistice a ecuației de luare a deciziilor. Lipsa de informații privind valorile inițiale ale animalelor face ca comparațiile cantitative exacte să fie dificile.

Deși atât corbii, cât și maimuțele aveau un trecut bogat, comportamentul învățat anterior a fost ignorat și s-a presupus că valorile inițiale sunt aceleași pentru obiectele distractoare și pentru obiectele funcționale. Pentru a fi conservatori, toate intensitățile asociative dintre comportamente și stimuli au fost presupuse a fi egale la începutul simulărilor. Kabadayi & Osvath nu a calibrat preferințele corbilor în ceea ce privește valoarea celor două recompense alimentare diferite, astfel încât nu există informații cantitative despre diferențele dintre recompensele disponibile. Ei au afirmat în metodă că recompensa alimentară de înaltă calitate era atât mai mare, cât și mai atractivă. Informațiile exacte despre cantitatea de extincție au lipsit din studiul asupra corbilor, prin urmare s-a presupus că corbii au avut cinci experiențe de extincție cu distractorii.

Comportamentele și elementele de stimulare utilizate în simulări au fost următoarele:

2.6.1. Comportamente

Mulcahy & Chemarea tubului: a lua tubul, a folosi tubul, a lua distractorul, a fi pasiv
Mulcahy & Chemarea cârligului: a lua cârligul, a folosi cârligul, a lua distractorul, a fi pasiv
Kabadayi & Instrumentul Osvath: ia unealta, folosește unealta, ia distractorul, fiind pasiv, primește o mică recompensă
Kabadayi & Osvath Token: ia jetonul, folosește jetonul, ia distractorul, fiind pasiv, primește o mică recompensă

2.6.2. Elemente de stimulare

Mulcahy & Call Tube: fundal, tub, sarcină tub, distractor, recompensă
Mulcahy & Call Hook: fundal, cârlig, sarcină cârlig, distractor, recompensă
Kabadayi & Osvath Tool: fundal, unealtă, aparat, distractor, recompensă, recompensă mică
Kabadayi & Osvath Token: fundal, token, om, distractor, recompensă, recompensă mică

2.7. Date din studiile empirice

Pentru a compara rezultatele simulării cu datele empirice din cele două studii , au fost calculate mediile din datele disponibile în cele două studii respective (a se vedea figurile din Rezultate). Astfel s-a obținut proporția medie de alegeri corecte și incorecte în testele cu alegere forțată. Rețineți că experimentul 4 din studiul cu maimuțe nu a implicat niciun comportament corect de utilizare a instrumentului la revenirea la aparat după întârziere, ceea ce face ca acest experiment să fie dificil de interpretat. În plus, datele privind alegerile pentru experimentul 4 nu au fost disponibile în text, prin urmare, datele din au fost utilizate pentru acest punct de date. Este nefericit să amesteci datele în acest fel, dar am ales acest lucru în favoarea faptului că am lăsat datele din experimentul 4 pe dinafară.

Rezultate

În general, simulările au corespuns cu rezultatele atât ale studiului cu corbul, cât și ale studiului cu maimuța mare. Simulările arată modul în care doi factori pot contribui împreună la comportamentul orientat spre viitor manifestat de maimuțele mari și de corbi. În primul rând, valorile de întărire condiționate ale obiectelor funcționale, stabilite prin preformare și extincție, au fost capabile să conducă alegerile corecte inițiale. Acest lucru este ilustrat în figura 1, unde este prezentată proporția de alegeri corecte. În al doilea rând, alegerile corecte au fost recompensate pe tot parcursul studiilor, cu excepția experimentului 4 din experimentul cu maimuțe . Faptul că utilizarea obiectelor funcționale a fost recompensată pe tot parcursul studiului a fost suficient pentru a conduce performanța cu mult peste nivelurile întâmplătoare (figura 1). În studiul cu corbii, recompensele oferite în timpul experimentului explică bine performanța aproape perfectă în cele două părți finale ale acelui studiu.

Apotrivirea a fost bună între testele empirice (prezentate sub formă de cercuri umplute în figura 1) și simulări, în sensul că obiectele funcționale au fost mai susceptibile de a fi alese decât obiectele distractoare. Simulările au urmat, de asemenea, tendințele generale în sensul că performanța a crescut în studiul cu maimuțe mari în timpul experimentelor 1 și 2 și că performanța a fost redusă în experimentul 3. Deși simulările au subestimat performanța în condiția instrumentului din cadrul studiului asupra corbului, simulările au urmat îndeaproape tiparul în sensul că performanța a fost ridicată în experimentul 1, a scăzut în experimentul 3 pentru a ajunge la o performanță aproape perfectă în experimentul 4. Unul dintre motivele pentru care simularea a avut o rată de succes mai mică în condiția instrumentului ar putea fi faptul că corbii erau bine antrenați și aveau un trecut bogat care este util în situațiile de testare. Aceste păsări au fost crescute de oameni și interacționează în mod regulat cu oamenii. De asemenea, ele sunt familiarizate cu multe obiecte, setări experimentale și recompense diferite. În schimb, simulările au pornit de la premisa că nu aveau cunoștințe anterioare. A existat o potrivire apropiată între simulări și datele empirice pentru condiția simbolică, dar reducerea performanței în timpul experimentului 3 a fost mai mare în datele empirice.

Simulările au surprins, de asemenea, faptul că maimuțele mari au prezentat o rată de succes în general mai mică decât corbii. Cel puțin doi factori ar fi putut contribui la această diferență. Maimuțele au experimentat o pregătire prealabilă mai mică decât corbii și, spre deosebire de corbi, maimuțelor nu li s-a permis o pregătire de extincție cu obiectele distractoare înainte de testare. Acest lucru este ilustrat în figura 1, unde probabilitatea de a alege obiectul corect este mult mai mare la începutul experimentului 1 în studiul cu corbi, comparativ cu studiul cu maimuțe. Faptul că un număr mare de încercări de preformare (35 în condiția cu jetoane) combinate cu încercări de extincție pot duce la performanțe ridicate în alegerile forțate este cel mai clar demonstrat în condiția cu jetoane din studiul cu corbi. Aici, simularea a urmărit îndeaproape rata mare de succes observată.

Învățarea de preformare și de extincție nu a influențat doar probabilitatea de a lua decizii corecte. Simulările relevă modul în care preformarea și extincția afectează, de asemenea, proporția alegerii obiectelor incorecte, cum ar fi recompensele mici (figura 1). Efectul preformării și al extincției a fost cel mai pronunțat în condiția simbolică a studiului cu corbi, unde simularea sugerează că probabilitatea ca corbii să aleagă recompensele mici în locul obiectelor funcționale era aproape de zero. Cantitatea mare de experiențe recompensatoare cu obiectele funcționale (instrument și jeton) a dus la valori mari de întărire condiționată pentru aceste obiecte (figura 2). Simulările au coroborat modelul conform căruia corbii nu au ales recompensele mici în locul obiectelor funcționale și că se așteaptă ca autocontrolul să apară din învățarea asociativă.

Figura 2. Rezultatele simulărilor pentru a permite comparații între rezultatul modelului nostru de învățare care include întărirea condiționată (valorile stimulilor), cu o versiune instrumentală a modelului Rescorla-Wagner (R-W) . Simulările studiului cu corbi sunt în partea stângă, iar simulările studiului cu maimuțe sunt în partea dreaptă. Panourile de sus arată actualizările de memorie: asociațiile stimul-răspuns v pentru comportamentele față de obiectele funcționale și valorile stimulilor w ale acestor obiecte. Deoarece obiectele funcționale nu sunt ele însele recompensatoare, simulările arată că asociațiile stimul-răspuns pentru alegerea obiectelor funcționale nu se vor dezvolta cu modelul de învățare mai simplu (R-W). Iar panourile de jos arată că modelul de învățare stimul-răspuns (R-W) nu poate reproduce modelele de comportament observate în cele două studii, în contrast puternic cu modelul nostru de învățare care permite întărirea condiționată. Fazele experimentale sunt aceleași ca în figura 1, dar aici fazele nu sunt prezentate pentru claritate. Rețineți că axele X din panourile din dreapta sunt întrerupte deoarece experimentul 4 a fost realizat cu indivizi noi care au experimentat doar o preformare înainte de experiment. Grafica corbului și a maimuței au fost descărcate de pe openclipart.org.

Creșterea valorilor stimulilor-răspunsuri și a valorilor stimulilor sunt prezentate în panoul superior al figurii 2.

Rețineți că experimentul 4 din studiul cu maimuțe mari se potrivește cel mai puțin cu simulările. Aici, două maimuțe noi au fost lăsate să obțină recompensa fără a folosi unealta funcțională anterior și s-au întors cu o unealtă corectă de 2 din 16 ori, mai puțin decât în simulare. Această diferență între testul empiric și simulare ar putea fi redusă prin creșterea costului comportamentului. Creșterea costului unui comportament care nu duce la o recompensă va duce la o reducere a efectuării comportamentului respectiv. Dar nu este clar la ce să ne așteptăm de la animale în această situație atunci când maimuțele se confruntă cu o situație cu o legătură mai puțin clară între un instrument și o recompensă. Iar două dintre cele patru maimuțe nu au încercat niciodată să rezolve problema. În concluzie, este dificil de judecat precizia și semnificația acestui punct de date (vezi ).

Simulările arată, de asemenea, diferențele dintre modelele de învățare asociativă de complexitate diferită. Limitele versiunii noastre de învățare stimul-răspuns devin evidente atunci când sunt comparate cu simulările care utilizează modelul nostru de învățare care încorporează atât învățarea pavloviană, cât și cea instrumentală . Numai în învățarea stimul-răspuns, secvențele de comportament în care un comportament nu este urmat imediat de o recompensă nu pot fi învățate (figura 2). Pentru ca secvențele de comportament să se dezvolte, stimulii cu mai mult de un pas înainte de recompensă trebuie să devină recompensatori prin întărire condiționată. Atunci când un stimul anterior neutru dobândește o valoare w pozitivă, adică devine recompensator, acesta poate conduce la dobândirea unor valori v pozitive pentru comportamente care nu duc la recompense imediate (panoul de sus din figura 2). Atunci când se compară modelul nostru care poate învăța secvențe de comportament cu versiunea instrumentală a modelului Rescorla-Wagner, este clar că probabilitatea de a alege stimulul corect nu va crește dacă este permisă doar învățarea stimul-răspuns (figura 2). În plus, deoarece valorile v sunt actualizate doar de către întăritorul imediat în învățarea stimul-răspuns, acest lucru are, de asemenea, consecința că recompensa mică va fi aleasă în favoarea jetonului și a instrumentului, deoarece jetonul și instrumentul nu pot deveni stimuli valoroși. Acest lucru este ilustrat în figura 2, deoarece alegerea incorectă a recompenselor mici crește de-a lungul încercărilor atunci când este permisă doar versiunea noastră de învățare stimul-răspuns (marcată cu R-W în figura 2). Învățarea stimul-răspuns singur nu ar putea explica rezultatele nici în studiul asupra corbului, nici în studiul asupra maimuțelor.

Discuție

Simulările celor două studii de planificare asupra corbilor și maimuțelor mari sugerează că un comportament despre care s-a afirmat anterior că ar fi fost generat de o planificare flexibilă poate fi explicat prin învățare asociativă. Așa cum s-a demonstrat în cercetările privind inteligența artificială și comportamentul animalelor, aceste modele de învățare asociativă sunt puternice în generarea de secvențe de comportament flexibil . Prin urmare, concluzia trasă atât în studiile privind corbii, cât și în cele privind maimuțele mari , conform căreia corbii și maimuțele rezolvă aceste probleme printr-un mecanism flexibil specific, are puțin suport. Simulările efectuate aici susțin criticii care au interpretat aceste rezultate ca fiind consecințe ale învățării asociative . În cazul în care studiile viitoare au ca scop să distingă procesele asociative de alte tipuri de mecanisme mentale, acestea ar beneficia de un design experimental îmbunătățit care să includă controale adecvate, profitând de modele de învățare de ultimă generație.

A fost interesant de observat că simulările au surprins diferența dintre studiul asupra corbilor și maimuțelor mari . Acest lucru sugerează că simulările au captat bine efectele preînvățării, ale fazelor de extincție și ale recompenselor pe parcursul studiilor. Înainte de primele teste au fost stabilite valori ridicate de întărire condiționată (valori w) pentru obiectele corecte (instrument și jeton) și valori scăzute pentru obiectele distractoare (figura 2). Acest lucru a fost deosebit de evident în partea cu jetoane a experimentului cu corbi, unde corbii au fost supuși la 35 de încercări de preformare în care secvența comportamentală Stoken → Btake token → Shuman → Bgive token → Sreward a fost recompensată în mod constant (panoul inferior, figura 1).

Un alt factor important pentru rezultatele pozitive din studiile cu corbi și maimuțe mari a fost faptul că alegerea obiectelor corecte a fost recompensată pe tot parcursul testelor. Acest lucru a menținut valorile v și w ridicate pentru comportamentele corecte și, respectiv, pentru obiectele corecte. Acest lucru explică, de asemenea, de ce corbii au neglijat recompensa mică atunci când a fost prezentată împreună cu obiectele funcționale (figura 1). Obiectele funcționale au condus la recompense în mod repetat pe parcursul studiului, astfel încât au dobândit valori de stimulare ridicate. Atâta timp cât aceste valori sunt mai mari decât valoarea recompensei mici, aceste obiecte funcționale vor fi alese de cele mai multe ori. Cu toate acestea, cu doar învățarea stimul-răspuns – permițând doar actualizări ale valorilor v, ca în modelul Rescorla-Wagner – recompensa mică va fi aleasă, deoarece acestui model îi lipsește întărirea condiționată (figura 2). Dacă se dorește evitarea învățării în timpul testelor, există avantaje în cazul efectuării testelor în condiții de extincție, cum ar fi, de exemplu, în studiile de reevaluare a rezultatelor (de exemplu, ). În acest fel, testele pot dezvălui consecințele manipulărilor experimentale anterioare.

Rezultatele susțin ideea că autocontrolul a apărut prin învățare asociativă. Am arătat anterior cum animalele pot, prin învățare asociativă, să dobândească autocontrolul, în condițiile în care li se oferă suficiente informații și experiențe . Kabadayi & Osvath nu a definit autocontrolul, dar într-un studiu anterior l-au definit ca fiind ” suprimarea impulsurilor imediate în favoarea recompenselor întârziate”. Această viziune funcțională a autocontrolului se potrivește cu multe descrieri ale comportamentului din literatura privind comportamentul animalelor. Observațiile privind animalele care învață să respingă recompense mici atunci când se așteaptă la recompense mari sau, cu alte cuvinte, să respingă prada neprofitabilă atunci când prada profitabilă este abundentă, provin, de exemplu, de la pești (peștele soare albastru Lepomis macrochirus, ), crustacee (crabii de țărm, Carcinus maenas, , și păsări (mârțoaga mare Parus major, și roșioara Tringa totanus, ). Aceste tipuri de studii au fost în mare măsură ignorate în studiile în care autocontrolul este adesea studiat ca un tip separat de mecanism mental și nu ca ceva care face obiectul învățării (de exemplu, ). În schimb, în lumina acestor simulări, studiile anterioare privind autocontrolul în cadrul cercetărilor privind cogniția animală (ca de ex. ) pot fi cel mai bine înțelese ca fiind cauzate de învățare, inclusiv de întărirea condiționată .

Teoretic, autocontrolul se poate dezvolta în mai multe moduri. Autocontrolul poate apărea prin dobândirea unor valori ridicate de întărire condiționată pentru obiectele funcționale. Obiectul funcțional devine mai valoros decât o recompensă mică. Dar autocontrolul poate apărea, de asemenea, dacă, de exemplu, „așteptarea” este considerată ca un comportament de sine stătător. În acest caz, autocontrolul poate apărea printr-o valoare v crescută pentru „așteptare” în prezența unui anumit stimul. Autocontrolul la pisicile care vânează ar putea apărea prin valori v ridicate pentru așteptare atunci când sunt supuse unei prăzi care se află la distanță. Sunt necesare mai multe cercetări pentru a înțelege mai bine modul în care diferite aspecte ale mecanismelor de învățare interacționează pentru a da naștere unor modele de autocontrol. Este probabil ca predispozițiile genetice să joace un rol important și să interacționeze cu asociațiile stimul-răspuns și cu valorile stimulilor.

Un alt rezultat important a fost că diferența dintre performanța corbilor în experimentul 3 și experimentul 4 a fost captată de simulări. Motivul pentru performanța perfectă din experimentul 4, atât în studiul corbilor, cât și în simulare, a fost faptul că a fost omisă întârzierea dintre alegere și comportamentul care a dus la recompensă. În schimb, a existat posibilitatea de a folosi obiectul pentru a colecta o recompensă imediat după alegerea forțată. Din acest motiv, fiecare încercare a condus potențial direct la recompense, în timp ce alegerea obiectului corect în experimentul 3 a fost recompensată doar după întârziere. Sau, cu alte cuvinte, în experimentele 1-3, corbii puteau obține o recompensă doar la fiecare a doua oară când alegeau obiectul corect, în timp ce în experimentul 4 primeau recompense de fiecare dată și imediat după ce alegeau și foloseau obiectul funcțional.

O asemănare între modelul nostru de învățare și unele modele de învățare prin întărire din AI este că aceste mecanisme permit agenților și animalelor să identifice stările lumii care sunt valoroase și ce comportamente sunt productive în aceste stări valoroase. Într-un sens operațional, aceste modele de învățare generează planificarea atunci când un comportament (a pune în aparat sau a da la om) față de un stimul (piatră sau jeton) va produce hrană de mare valoare într-o etapă ulterioară. Acest lucru se întâmplă în ciuda faptului că mâncarea (sau un alt stimul recompensator) este absentă. Osvath & Kabadayi , într-un răspuns la critici , a definit planificarea flexibilă ca fiind „luarea de decizii cu privire la viitor în afara domeniului senzorial actual al cuiva, în domenii pentru care nu este predispus”. Indiferent dacă modelele provin din inteligența artificială sau din comportamentul animalelor , atunci când întărirea condiționată este inclusă în modelele de învățare, comportamentele de planificare care corespund acestei definiții vor apărea prin interacțiunea inteligentă a valorilor stimulilor-răspunsuri și a valorilor stimulilor. Cheia este că stimulii disponibili în prezent pot furniza informații despre ce comportamente ar trebui să fie efectuate pentru a intra în viitoarele stări valoroase. Cu toate acestea, aceste modele de învățare nu pot simula mental diferite rezultate, nu pot călători mental în timp și nici nu pot reorganiza informațiile la nivel intern. Pentru a-l parafraza pe Roberts , animalele non-umane pot fi „blocate în timp”, în timp ce prezintă în continuare un comportament de planificare.

Mulcahy & Call a încercat să excludă condiționarea instrumentală ca o explicație pentru comportamentul maimuțelor prin realizarea experimentului 4. Această fază a fost similară cu experimentul 3, dar maimuțele nu au fost recompensate pentru utilizarea instrumentului funcțional. În loc ca o maimuță să intre în cameră cu o unealtă funcțională care putea fi folosită pentru a obține o recompensă (ca în experimentul 3), o maimuță a intrat în cameră și a găsit o recompensă dacă a transportat unealta funcțională în camera de testare din sala de așteptare. S-a argumentat că, dacă maimuțele s-au descurcat mai bine în celelalte experimente decât în acesta, acest lucru ar sugera că maimuțele au planificat în mod flexibil. Mulcahy & Call a concluzionat că rezultatele lor „reprezintă un caz autentic de planificare viitoare”. Un avocat al diavolului ar putea identifica diferențe între experimentele 3 și 4, făcând din învățare o explicație mai probabilă. În experimentul 3, maimuțele au fost recompensate în mod explicit pentru utilizarea instrumentului. Acest lucru are ca rezultat o valoare de întărire condiționată ridicată pentru unealtă și o valoare stimul-răspuns ridicată pentru utilizarea uneltei pe aparat. Cu toate acestea, în experimentul 4, Mulcahy & Call semnalează faptul că a existat un timp mai lung între momentul în care se ridica unealta în sala de așteptare, transportarea uneltei în sala de testare, pentru a obține ulterior o recompensă fără a folosi unealta. Poate că performanța scăzută din experimentul 4 a fost cauzată de legătura neclară dintre unealtă și recompensă, deoarece întârzierea inhibă achiziția de a ridica unealta pentru a primi ulterior o recompensă. Condițiile de control adecvate sunt importante pentru a permite respingerea fără ambiguitate a ipotezelor (de exemplu, discuții recente în ). Modelul nostru de învățare poate fi utilizat în cercetări viitoare pentru a analiza astfel de diferențe comportamentale cauzate de variația în contingențele de învățare.

Simulările arată că studiul maimuțelor și studiul corbilor pot fi înțelese prin învățare asociativă. Cu toate acestea, rezultatele experimentelor cu specialiști în caching , care depind probabil de specializări genetice, sunt în prezent în afara domeniului de aplicare a modelului nostru de învățare. Comportamentul de cache și comportamentul de hrănire implică stări motivaționale diferite la animale . Stările motivaționale pot fi considerate stimuli interni și pot fi integrate cu ușurință într-un model de învățare asociativă, ceea ce ar duce la o mai mare flexibilitate în ceea ce privește luarea deciziilor privind căutarea hranei și păstrarea în cache. Modelul nostru nu include diferite stări motivaționale în stadiul său actual, dar am dat exemple despre modul în care predispozițiile genetice pot fi integrate în model . O soluție posibilă ar fi introducerea dependenței de context, astfel încât explorarea să fie diferită pentru diferiți stimuli externi și/sau pentru diferite stări interne. Este important faptul că, atunci când se fac ipoteze despre mecanisme mentale mai flexibile, trebuie să se ia în considerare costurile mai mari de explorare care sunt suportate de o flexibilitate sporită (a se vedea ). Ne așteptăm ca evoluția să fi pus la punct predispoziții genetice care, împreună cu învățarea asociativă, generează comportamente productive și specifice speciei.

Un alt punct important pentru studiile viitoare este că atunci când animalele învață despre consecințele comportamentului, iar valorile stimulilor-răspunsuri și valorile stimulilor sunt actualizate, acestea sunt amintiri pe termen lung (de exemplu , vezi și ). Un corb antrenat să dea jetoane unui om nu uită pur și simplu cum să facă acest lucru o zi mai târziu. Din punct de vedere comportamental, condiția instrumentului din studiul asupra corbului este identică cu cea în care proprietarii de câini își învață prietenii blănoși să „curețe” punând jucăriile într-un coș desemnat. În loc ca corbul să fie recompensat pentru că pune o piatră într-un aparat, un câine primește o recompensă pentru că pune o jucărie într-un coș. Astfel de memorii pe termen lung care sunt actualizate prin învățare asociativă sunt foarte diferite de memoria pe termen scurt a unor stimuli arbitrari .

În concluzie, dezvoltarea modelelor de învățare asociativă este impresionantă în cercetarea în domeniul IA, iar modelele s-au dovedit a fi puternice în generarea de comportamente complexe. Ne putem întreba de ce aceste modele puternice nu sunt aplicate pe scară mai largă la comportamentul animalelor non-umane și de ce aceste modele sunt subestimate ca o cauză a comportamentului flexibil la animalele non-umane. Acest lucru este deosebit de relevant, având în vedere că cercetarea în domeniul cunoașterii animalelor în care se pretinde că animalele non-umane au intuiții, prezintă un raționament cauzal, iar planul este criticat în mod regulat pentru că suferă de afirmații grandioase bazate pe o metodologie slabă (de exemplu, ). O modalitate de a rezolva acest paradox al învățării asociative este prin integrarea domeniilor inteligenței artificiale, învățării animale și cogniției animale . Pentru a înțelege mecanismele care generează comportamentul, este probabil ca modelele asociative formale de jos în sus să fie mai lămuritoare decât modelele cognitive verbale de sus în jos „de ordin superior”. De exemplu, deoarece aceste din urmă modele sunt mai greu de respins și nu pot fi implementate în simulări sau utilizate la construirea de roboți. În concluzie, se concluzionează că nu se poate exclude faptul că planificarea flexibilă la maimuțe și corvide, și probabil la multe alte specii, apare prin învățare asociativă.

Accesibilitatea datelor

Figurile și datele din simulări pot fi generate folosind software-ul și codul, așa cum este specificat în materialul electronic suplimentar.

Contribuțiile autorilor

J.L. a conceput cercetarea, a efectuat simulările pe calculator, a analizat datele și a redactat manuscrisul.

Interesele concurente

Nu există interese concurente.

Finanțare

Această lucrare a fost susținută de Fundația Knut și Alice Wallenberg, KAW 2015.005.

Recunoștințe

Mulțumim lui Markus Jonsson, Magnus Enquist, Anna Jon-And și Stefano Ghirlanda. Mulțumim, de asemenea, celor doi referenți anonimi pentru comentariile valoroase și pătrunzătoare.

Notele de subsol

Materialul electronic suplimentar este disponibil online la https://dx.doi.org/10.6084/m9.figshare.c.4302740.

Publicat de Royal Society în conformitate cu termenii Licenței Creative Commons Attribution http://creativecommons.org/licenses/by/4.0/, care permite utilizarea fără restricții, cu condiția ca autorul original și sursa să fie creditate.

Mnih Vet al.2015Controlul la nivel uman prin învățare de întărire profundă. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
Emery NJ, Clayton NS. 2004The mentality of crows: Convergent evolution of intelligence in corvids and apes. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontaneous prosocial choice by chimpanzees. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016Cum cooperează cimpanzeii într-o lume competitivă. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
Whiten A. 2017Social learning and culture in child and chimpanzee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
Tomasello M, Call J. 1997Primate cognition. Oxford, Marea Britanie: Oxford University Press. Google Scholar
Mulcahy NJ, Call J. 2006Cum se comportă maimuțele mari în cadrul unei sarcini modificate a tubului capcană. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
Bird CD, Emery NJ. 2009Soluționarea perspicace a problemelor și modificarea creativă a uneltelor de către ciorile captive care nu folosesc unelte. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
Bird CD, Emery NJ. 2009Replică la Lind et al.: înțelegere și învățare. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Utilizarea paradigmei fabulei lui Esop pentru a investiga înțelegerea cauzală a deplasării apei de către ciorile din Noua Caledonie. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
Heyes C. 2012Simple minds: a qualified defence of associative learning (Minți simple: o apărare calificată a învățării asociative). Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees and bonobos differ in intrinsic motivation for tool use. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behaviour. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, Marea Britanie: Oxford University Press. Crossref, Google Scholar
Carew TJ, Sahley CL. 1986Învățarea și memoria nevertebratelor: de la comportament la molecule. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
Bouton ME. 2007Învățarea și comportamentul: o sinteză modernă. Sinauer, MA: Sunderland. Google Scholar
Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
Mulcahy NJ, Call J. 2006Apele salvează instrumente pentru utilizare viitoare. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
Naqshbandi M, Roberts WA. 2006Anticiparea evenimentelor viitoare la maimuțele veveriță (Saimiri sciureus) și la șobolani (Rattus norvegicus): teste ale ipotezei Bischof-Köhler. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planning for the future by western scrub-jays. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobii și urangutanii, dar nu și cimpanzeii, planifică în mod flexibil pentru viitor într-o sarcină de schimb de jetoane. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
Suddendorf T, Corballis MC. 2010Probe comportamentale pentru călătoria mentală în timp la animalele non-umane. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
Cheke LG, Clayton NS. 2010Călătoria mentală în timp la animale. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
Suddendorf T, Bulley A, Miloyan B. 2018Prospecție și selecție naturală. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, Marea Britanie: Psychology Press. Google Scholar
Shettleworth S. 2010Cognition, evolution, and behavior. Oxford, Marea Britanie: Oxford University Press. Google Scholar
Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
Eaton RL. 1970Secvența prădătoare, cu accent pe comportamentul de ucidere și ontogenia sa, la ghepard (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
Kelleher RT, Gollub LR. 1962O trecere în revistă a întăririi condiționate pozitive. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
Mackintosh NJ. 1974Psihologia învățării la animale. Londra, Marea Britanie: Academic Press. Google Scholar
Williams BA. 1994Conditioned reinforcement: experimental and theoretical issues. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Australia: Darlington Press. Google Scholar
Rescorla RA, Wagner AR. 1972A theory of Pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement. În Classical conditioning II: current research and theory (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
Blough DS. 1975Date în stare stabilă și un model cantitativ de generalizare și discriminare operantă. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
Sutton RS, Barto AG. 1998Reinforcement learning. Cambridge, MA: MIT Press. Google Scholar
Balleine B, Dickinson A. 1991Performanța instrumentală după devalorizarea întăritorului depinde de învățarea stimulării. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
Dickinson A, Balleine B. 1994Motivational control of goal-directed action. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
Werner EE, Hall DJ. 1974Optimal foraging and the size selection of prey by the bluegill sunfish (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
Elner RW, Hughes RN. 1978Maximizarea energiei în dieta crabului de țărm Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Selecția optimă a prăzii la marele mierlă (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
Goss-Custard JD. 1977Optimal foraging and the size selection of worms by redshank, Tringa totanus, in the field. Anim. Behav. 25, 10-29. (doi:10.10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
Osvath M, Kabadayi C. 2018Contrazicând evanghelia, corbii planifică în mod flexibil. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
Barto AJ. 2003Reinforcement learning. În The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
Roberts WA. 2002Are animals stuck in time?Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
Ghirlanda S, Lind J. 2017 Experimentele „Fabula lui Esop” demonstrează învățarea prin încercare și eroare la păsări, dar nu și înțelegerea cauzală. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Tehnicile meta-analitice dezvăluie că raționamentul cauzal al corvidelor în paradigma fabulei lui Esop este condus de învățarea prin încercare și eroare. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays anticipează nevoile viitoare independent de starea lor motivațională actuală. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
Cheke LG, Clayton NS. 2012Gaițele eurasiatice (Garrulus glandarius) își depășesc dorințele actuale pentru a anticipa două nevoi viitoare distincte și pentru a le planifica în mod corespunzător. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
Skinner BF. 1950Are theories of learning necessary?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
Vaughan W, Greene SL. 1984Capacitatea memoriei vizuale a porumbeilor. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.10.1037/0097-7403.10.2.256) Crossrefref, Google Scholar
Gleitman H. 1971Forgetting of long-term memories in animals. În Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwin’s mistake: explaining the discontinuity between human and nonhuman minds. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
Dymond S, Stewart I. 2016Raționament rațional și analogic în cogniția comparativă. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
Lindenfors P. 2017Bird brains: are crows as intelligent as some scientists claim?Skept. Mag. 22, 10-11. Google Scholar
Lind J, Enquist M. 2009Sunt necesare mai multe lucrări sintetice. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar