Mitä assosiatiivinen oppiminen voi tehdä suunnittelussa?

Esittely

Maailman hämmästykseksi tekoälytutkimuksessa käytetyt assosiatiivisen oppimisen mallit saavuttavat nykyään ihmisen tasoisia taitoja videopeleissä ja päihittävät ihmismestarit kiinalaisissa lautapeleissä Go , shakki ja shogi . Huolimatta siitä, että tekoälytutkimuksessa tunnustetaan assosiatiivisen oppimisen tuottavan ihmisen kaltaista käyttäytymistä, assosiatiivista oppimista ei usein joko mainita (esim. ) tai sitä pidetään epätoivottuna tai liian kehittymättömänä (esim. ) selittämään muiden kuin ihmiseläinten joustavaa käyttäytymistä. On kiehtova paradoksi, että assosiatiivinen oppiminen tunnustetaan tekoälytutkimuksessa monimutkaisen joustavan käyttäytymisen tuottajaksi, mutta se jätetään usein huomiotta ja laiminlyödään biologisten järjestelmien (sekä ihmisten että muiden kuin ihmiseläinten) joustavan käyttäytymisen mallina.

Voidaanko käyttäytymissekvenssien kehittymistä muissa kuin ihmiseläimissä ymmärtää assosiatiivisen oppimisen avulla vai ei, sillä on kauaskantoisia seurauksia ymmärryksellemme käyttäytymisen tutkimisesta. Jos kehittyneeksi tai monimutkaiseksi koettu käyttäytyminen, kuten simpanssin (Pan troglodytes) työkalujen käyttö, voi kehittyä assosiatiivisten prosessien kautta, lajieroja voidaan etsiä käyttäytymisrepertuaarien geneettisten erojen, uteliaisuuden kaltaisten tutkimushalujen sekä motivaatio- ja tarkkaavaisuustekijöiden perusteella. Jos assosiatiiviset prosessit eivät riitä selittämään, miten tietoa käsitellään ja muistoja päivitetään käyttäytymisen synnyttämiseksi, on löydettävä vaihtoehtoisia mekanismeja, jotta voimme ymmärtää, miten tällainen käyttäytyminen kehittyy. Nykyään tutkijoilla on hyvin vastakkaisia näkemyksiä tästä asiasta. Toisaalta jotkut katsovat, että assosiatiiviset prosessit yhdessä käyttäytymisrepertuaarin koon ja eksploraation kaltaisten tekijöiden kanssa ovat voimakkaita ja voivat selittää suuren osan siitä, miten eläimet omaksuvat käyttäytymistä (esim. ). Toiset taas korostavat vaihtoehtoisia mekanismeja ja ehdottavat, että eläimillä on monia erilaisia mekanismeja, jotka ratkaisevat erilaisia erityisongelmia ja että nämä mekanismit ovat evoluution hienosäätämiä (esim. ). Kaikki tutkimukset eivät kuulu näihin kahteen kategoriaan, ja joissakin tutkimuksissa testataan vaihtoehtoisia selityksiä ja kontrolloidaan assosiatiivista oppimista. On kuitenkin yleistä, että tällaisissa tutkimuksissa oletetaan vain yksinkertaisimmat assosiatiivisen oppimisen muodot. Tämä johtaa todennäköisesti assosiatiivisen oppimisen hypoteesien väärään hylkäämiseen. Tämä johtuu siitä, että useimmat selkärankaiset ja selkärangattomat eläimet kykenevät sekä instrumentaaliseen että Pavlovin oppimiseen , jotka yhdessä erikoistuneiden muistien kanssa tekevät useimmista eläimistä kykeneviä monimutkaisempaan oppimiseen kuin mitä assosiatiivisen oppimisen yksinkertaisimmat muodot mahdollistavat.

Tässä tutkimuksessa pyrittiin selvittämään, voisiko tekoälytutkimuksessa käytetyn vahvistusoppimisen kaltainen oppimismalli auttaa ymmärtämään suunnittelukäyttäytymisen hankkimista korvideilla ja ihmisapinoilla, jotka ovat käyttäytymismuotoja, jotka toisinaan koetaan monimutkaisiksi ja ihmisen kaltaisiksi. On todettu, että useat lajit suunnittelevat joustavasti tulevaisuutta, toisin kuin ihmiset (esim. ). Ajatuksena on, että tällainen suunnittelu on tulosta joustavasta mentaalisesta mekanismista, joka voi simuloida mentaalisesti erilaisia tulevia tiloja nykyisten tietojen perusteella. Nämä väitteet on kuitenkin kyseenalaistettu ainakin kahden eri väitelinjan perusteella. Ensinnäkin tutkijat ovat esittäneet epäilyjä lintujen yleisestä kyvystä suunnitella, koska linnuilla tehdyissä suunnittelututkimuksissa on tyypillisesti mukana kätköilyyn erikoistuneita lintuja, jotka suorittavat kätköilytehtäviä, kuten pensastaskujen (Aphelocoma californica), räkättirastasien (Garrulus glandarius) ja mustakurkku-uikkujen (Poecile atricapillus) . Nämä tulokset voivat johtua erikoistuneesta muistirepertuaarista (ks. ). Toinen syy hylätä ajatus siitä, että muut kuin ihmiseläimet suunnittelevat joustavasti, on se, että havaittu käyttäytyminen ei johtunut ihmisen kaltaisesta suunnittelusta, vaan se ymmärretään parhaiten assosiatiivisen oppimisen tuloksina, ja että metodologiset puutteet tekevät näistä tutkimuksista epäselviä .

Miksi assosiatiivisen oppimisen malli olisi hyödyllinen tulevaisuuteen suuntautuneen käyttäytymisen ymmärtämiseksi? Assosiatiivinen oppiminen on tunnettu siitä, että se aiheuttaa ennakoivaa käyttäytymistä, käyttäytymistä, joka voi ennustaa myöhempiä merkityksellisiä tapahtumia ilman välitöntä hyötyä . Lisäksi itsekontrolli, joka usein mainitaan tärkeäksi suunnittelun kannalta, voi syntyä assosiatiivisen oppimisen kautta. Voidaan olettaa, että itsekontrolli ei ole mahdollista assosiatiivisen oppimisen kautta, koska välittömästi palkitun käyttäytymisen pitäisi aina olla mieluummin kuin palkitsemattoman käyttäytymisen. Monille eläimille ”odottaminen” tai ”kyttääminen” ovat kuitenkin käyttäytymismuotoja, joita voidaan vahvistaa, kun niitä seuraa myöhempi mahdollisuus palkitsemiseen. Esimerkiksi petoeläimet oppivat kyttäämisen ja odottamisen taidot nuorina .

Tässä käytetty malli on assosiatiivisen oppimisen malli, joka kykenee oppimaan optimaalisen käyttäytymisen monimutkaisessa maailmassa . Malli sisältää kaksi erilaista muistia ja päätöksentekomekanismin. Toinen muisti tallentaa käyttäytymisen B suorittamisen assosiatiivisen voimakkuuden ärsykkeeseen S, ja toinen muisti tallentaa ärsykkeen S arvioidun arvon. Malli voi oppia käyttäytymissarjoja yhdistämällä yksittäisiä käyttäytymisiä toisiinsa ehdollisen vahvistamisen avulla (toissijainen vahvistaminen). Tällä tavoin alun perin neutraaleista ärsykkeistä, jotka edeltävät ensisijaisesti vahvistavia ärsykkeitä, voi tulla itse vahvistavia ärsykkeitä, mikä muuttaa aiemmin palkitsematta jäänyttä käyttäytymistä. Esimerkiksi klikkaimella koulutettu kani on kuullut toistuvia klikkauksia ennen ruokapalkintoja. Tälle kanille klikkauksesta tulee itsessään palkitsevaa, ja kani oppii tekemään käyttäytymistä, joka johtaa vain siihen, että kani kuulee klikkauksen. Mallia selitetään tarkemmin jäljempänä kohdassa Aineisto ja menetelmät.

Testaan tässä hypoteesia, jonka mukaan assosiatiivinen oppimismalli voi selittää muiden kuin ihmisten suunnittelututkimuksissa havaitut tulokset. Oppimismallia käytettiin simuloimaan kahden suunnittelututkimuksen tuloksia, toinen orankien (Pongo pygmaeus) ja bonobojen (Pan pan paniscus) ja toinen korppien (Corvus corax) kanssa . Simulaatioiden havaittiin seuraavan keskeisiä malleja näiden tutkimusten sisällä ja niiden välillä. Johtopäätöksenä on, että ei voida sulkea pois sitä, että apinoiden ja korppikotkien joustavaa suunnittelua koskevat tutkimukset voidaan selittää assosiatiivisella oppimisella. Assosiatiivinen oppiminen ei siis voi tuottaa vain ihmisen kaltaista käyttäytymistä (esim ), vaan se on selitysehdokas muiden kuin ihmiseläinten suunnittelua ja itsekontrollia koskeville havainnoille.

Materiaali ja menetelmät

Tässä kuvaan oppimismallimme , simulaatioissa käytettyjen kahden eri tutkimuksen logiikan ja simulaatioiden yksityiskohdat.

2.1. Aineisto ja menetelmät. Mallin kuvaus

Eläimellä on käyttäytymisrepertuaari ja se voi käyttää käyttäytymistapojaan navigoidakseen havaittavien ympäristötilojen maailmassa. Käyttäytyminen vie eläimen tilasta toiseen. Jokaisella tilalla eli ärsykkeellä on ensisijainen vahvistusarvo, joka on geneettisesti kiinnitetty. Nämä arvot voivat olla negatiivisia, neutraaleja tai positiivisia, ja ne ohjaavat oppimista siten, että selviytymistä ja lisääntymistä edistävä käyttäytyminen edistyy. Eläinten oletetaan tekevän valintoja, jotka maksimoivat kokonaisarvon, ja odotukset tulevan tilan arvosta voivat kehittyä . Malli voi siten tuottaa tavoitteellista käyttäytymistä (ks. toinen keskustelu tavoitteellisesta käyttäytymisestä ja oppimisesta).

Lyhyesti sanottuna malli kuvaa käyttäytymisjaksojen oppimista ärsykkeitä kohtaan muistin muutosten kautta. Siihen sisältyy päätöksenteko, jossa otetaan huomioon muisti sen määrittämiseksi, millainen käyttäytyminen valitaan, kun tietty ärsyke havaitaan. Otetaan esimerkiksi yksittäisen käyttäytymisen oppiminen, esimerkiksi kun koira oppii antamaan tassunsa vastauksena käskyyn ”ravista”. Käpälän nostaminen on käyttäytyminen, käsky ”ravista” ja palkkio ovat ärsykkeitä. Opittava tapahtumasekvenssi on: käsky ’ravista’ → tassun nosto → palkkio, tai

Käsky ’ravista′→Tassun nosto→Ruokapalkkio

Malli kerää tietoa eri ärsykkeisiin (tai tiloihin) kohdistuvan käyttäytymisen suorittamisen arvosta ja tietoa eri ärsykkeiden (tai tietyissä tiloissa olemisen) arvosta. Oppiminen tapahtuu kahden erilaisen muistin päivittämisen kautta. Nämä muistit vastaavat pavlovilaista ja instrumentaalista oppimista, ja ne päivittyvät koiraesimerkin kaltaisen tapahtumasarjan tai yleisesti ottaen tapahtumasarjan S → B → S′ jälkeen. Ensimmäisen tyyppinen muisti on ärsyke-vaste-assosiaatio. Käytimme vS→B:tä merkitsemään ärsykkeen S ja käyttäytymisen B välistä assosiaation voimakkuutta. Toiminnallisesti vS→B voidaan kuvata käyttäytymisen B suorittamisen arvioiduksi arvoksi ärsykkeen S havaitsemisen yhteydessä. Käytimme wS:ää kuvaamaan tätä ärsykkeen arvoa, ja se päivitetään seuraavan ärsykkeen arvon mukaan. Toisin sanoen wS on tilassa S olemisen ehdollistettu vahvistusarvo. Nämä muistit päivittyvät

ΔvS→B=αv(uS′+wS′-vS→B)jaΔwS=αw(uS′+wS′-wS)}2.1

mukaisesti sen jälkeen, kun on koettu tapahtumakokonaisuus S → B → S′. Ärsyke-vaste-assosiaatio vS→B päivitetään ärsykkeen S′ ensisijaisen synnynnäisen kiinteän arvon uS′ ja ehdollistetun vahvistusarvon wS′ sekä aiemmin tallennetun ärsyke-vaste-assosiaation vS→B mukaan. Kun kyseessä on ehdollinen vahvistus, käyttäytymisen B suorittamisen arvo ärsykkeen S havaitsemisen yhteydessä on ärsykkeen S′ ensisijaisen ja ehdollisen vahvistusarvon summa. Jos käytetään vain ensimmäistä yhtälöä ja jätetään w pois, se edustaa instrumentaalista ärsyke-vaste-oppimista eli instrumentaalista versiota klassisesta Rescorla-Wagnerin oppimismallista. Oppimisnopeudet αv ja αw määrittelevät nopeuden, jolla muistin päivitykset tapahtuvat.

Jotta oppimismalli voisi tuottaa ja valita käyttäytymistä, tarvitaan päätöksentekomekanismi. Käytimme päätöksentekomekanismia, joka valitsee käyttäytymisvasteet ja aiheuttaa jonkin verran vaihtelua käyttäytymisessä tutkimisen kautta. Tämä määrittää käyttäytymisen B todennäköisyyden tilassa S seuraavasti

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

joka sisältää parametrin β, joka säätelee eksploraation määrää. Kaikki käyttäytymismuodot valitaan yhtä todennäköisesti, jos β = 0 ottamatta huomioon estimoituja arvoja. Jos β on suuri, valitaan pääasiassa se käyttäytyminen, jolla on korkein estimoitu arvo (v).

Palaamme koiran pariin käytännön esimerkin vuoksi. Koira kuulee käskyn ”ravista”, ärsyke S. Jos koira liikuttaa tassuaan ylöspäin, eli suorittaa käyttäytymisen B, se saa palkkion S′. Kun koira saa tämän palkkion sen jälkeen, kun se on reagoinut oikein käskyyn ”ravista”, ärsyke-vaste-muisti vKäsky `ravista′→nosta tassua kasvaa yhtälön (2.1) ylimmän rivin mukaisesti. Lisäksi käskyn ”ravista” ärsykearvo w päivittyy yhtälön (2.1) alimman rivin mukaisesti. Käskyn ”ravista” arvo w lähestyy ruokapalkkion arvoa u ja saa siten vahvistavia ominaisuuksia itsessään; siitä on tullut ehdollistettu vahvistin. Ehdollistettu vahvistin voi tasoittaa tietä useampien käyttäytymistapojen oppimiselle ennen käpälän siirtämistä ylöspäin. Näin voi tapahtua, koska käyttäytymiset, jotka johtavat siihen, että koira kuulee käskyn ”ravista”, voivat saada vahvistuksen.

2.2. Suunnittelututkimusten simulointi ihmisapinoilla ja korppeilla

Suunnittelukokeiden simuloinnit perustuivat yksityiskohtaisiin kuvauksiin tapahtumien kulusta niissä kahdessa tutkimuksessa, joissa keskeiset tapahtumat tunnistettiin. Keskeisiä tapahtumia olivat muun muassa se, mitä käyttäytymistä harjoiteltiin ennen testejä ja mitä kohteita kohtaan ja mitä tuloksia eri valinnoista seurasi esiharjoittelun ja testien aikana. Yksityiskohtien tunnistaminen näissä tutkimuksissa on tärkeää, koska testivaiheisiin sisältyi sekoitus palkitsevia ja ei-palkitsevia toimia. Siksi sekä ärsyke-vaste (v) että ärsykearvot (w) oletettiin muuttuvan testien aikana.

Simulaatioiden mahdollistamiseksi ja realistiseksi tekemiseksi oletettiin, että eläimillä oli näihin tutkimuksiin tullessaan joitakin tarvittavia arkipäivän taitoja. Oletettiin, että eläimet olivat esimerkiksi aiemmin oppineet pitelemään esineitä, liikkumaan huoneiden ja osastojen välillä, tietämään, missä eri asiat sijaitsivat, sekä joitakin perustaitoja koskien vuorovaikutusta kokeilijoiden kanssa. Apinat esimerkiksi ohjattiin ulos koehuoneesta valintojen jälkeen, jotta heidät päästettiin myöhemmin takaisin koehuoneeseen. Kun tällaiset arkipäiväiset taidot jätettiin huomiotta, simulaatioissa ja käyttäytymisen kuvauksissa keskityttiin niihin ainutlaatuisiin käyttäytymisjaksoihin, jotka eläinten oli opittava osana kokeita.

Kahdessa tutkimuksessa on yhteisiä keskeisiä piirteitä. Ennen testien aloittamista eläimille suoritettiin esivalmennusta. Tässä ne oppivat suorittamaan käyttäytymismalleja, jotka myöhemmin pisteytettiin oikeiksi. Oikeiden käyttäytymistapojen esiharjoittelun lisäksi korppitutkimukseen sisältyi myös sukupuuttoharjoittelua. Sammutusharjoittelun aikana korpit saivat oppia, että ei-toiminnalliset esineet eivät tuottaneet palkintoja. Molemmissa tutkimuksissa, joita käytettiin oikeiden ja väärien valintojen pisteyttämiseen, keskeiset tapahtumat olivat pakotettuja valintakokeita. Tässä eläimet pakotettiin valitsemaan yhden esineen, jonka ne olivat aiemmin oppineet voivan johtaa palkkioon, ja muiden esineiden välillä, joita ei voitu käyttää myöhempiin palkkioihin (häiritseviä esineitä). Korpit oppivat sukupuuttoharjoittelun aikana, että nämä häiriökohteet eivät voineet johtaa palkkioihin. Pakotetun valinnan jälkeen molempiin tutkimuksiin sisältyi jonkin aikaa kestävä viive, jonka jälkeen eläimet saivat suorittaa käyttäytymisen käyttäen aiemmin valittua esinettä. Jos eläin teki oikean valinnan ennen viivettä, se saattoi myöhemmin käyttää valitsemaansa esinettä saadakseen palkkion. Jos eläin teki väärän valinnan ennen viivettä, ei viiveen jälkeen ollut mahdollisuuksia palkitsevaan käyttäytymiseen.

Toteutetut simulaatiot seurasivat tutkimusten esiharjoitteluvaihetta ja testivaihetta. Vertailut on tehty molemmissa tutkimuksissa asetettujen oikeiden valintojen sattumanvaraisilla tasoilla. Mulcahy & Call odotti apinoiden valitsevan sattumalta oikean 25 % kerroista (yksi toiminnallinen objekti ja kolme häiritsevää objektia). Kabadayi & Osvath odotti korppien tekevän sattumalta 25 % oikeita valintoja kokeissa 1 ja 2 ja 20 % oikeita valintoja kokeissa 3 ja 4 (yksi toiminnallinen objekti ja kolme häiritsevää objektia kokeissa 1 ja 2 ja yksi toiminnallinen objekti, yksi pieni palkkio ja kolme häiritsevää objektia kokeissa 3 ja 4). Tarkat kuvaukset löytyvät simulointiskripteistä (ks. sähköinen lisämateriaali). Simulaatioiden seuraamisen helpottamiseksi tässä on syvälliset kuvaukset kahdesta tutkimuksesta.

2.3. Kuvaus Mulcahyn ja Callin ihmisapinoilla tekemästä tutkimuksesta

Nämä kokeet tehtiin orankien ja bonobojen kanssa . Tutkimus aloitettiin esivalmennuksella. Tässä tapauksessa eläin sijoitettiin koehuoneeseen ja koulutettiin kahteen eri työkalutehtävään saadakseen palkinnon laitteesta. Näitä toiminnallisia työkaluja kutsutaan toiminnallisiksi esineiksi. Yksi tehtävä oli valita putki ja asettaa tämä putki laitteeseen. Toinen tehtävä oli valita koukku ja käyttää sitä saavuttaakseen pullon, johon ei päässyt ilman koukkua. Esiharjoittelun jälkeen eläimelle tehtiin pakotettu valintakoe toiminnallisten esineiden ja kolmen vastaavan ei-toiminnallisen esineen (joista myöhemmin käytetään nimitystä häiritseviä esineitä) välillä. Pakotetun valinnan aikana pääsy palkinnon sisältävään laitteeseen estettiin. Kun valinta oli tehty, eläin ohjattiin pois koehuoneesta odotushuoneeseen. Esineet, joita eläin ei ollut ottanut, poistettiin nyt koehuoneesta. Tässä vaiheessa tapahtui viive. Viiveen jälkeen eläin päästettiin jälleen koehuoneeseen ja hänelle annettiin pääsy laitteeseen. Jos pakotetun valinnan testissä oli valittu toiminnallinen esine, eläin saattoi nyt käyttää esinettä saadakseen palkkion, jolloin se osoitti esivalmennuksessa oppimaansa käyttäytymistä.

Tässä tutkimuksessa oli neljä testiä, jotka olivat hieman erilaisia. Testit vaihtelivat sen suhteen, mikä väline oli toiminnallinen esine, ja viivytysten keston suhteen. Lisäksi viimeisessä testissä eläinten ei tarvinnut käyttää työkalua saadakseen palkkion. Huomaa, että tässä kokeessa 4 käytettiin kahta uutta yksilöä, jotka eivät osallistuneet kokeisiin 1, 2 tai 3. Viimeksi mainitulla osalla ei ollut tässä yhteydessä juurikaan merkitystä tulososiossa mainituista syistä. Simuloinnit noudattivat tutkimuksen logiikkaa, ja tässä ovat yksityiskohdat simuloinnissa käytetyistä keskeisistä tapahtumista ja viiveistä:

  • Harjoittelu: Ennen testejä kaikki koehenkilöt opettelivat käyttämään toiminnallisia työkaluja. Kahdessa vaiheessa putkitehtävää varten sallittiin vähintään kolme plus kahdeksan esiharjoittelukertaa ja koukkutehtävää varten vähintään viisi esiharjoittelukertaa.

  • Koe 1, putkitehtävä: (1) Pakotettu valinta toiminnallisella putkella ja häiritsevillä esineillä (16 koetta). (2) Valinnan jälkeen siirtyminen toiseen huoneeseen. (3) Odotettiin 1 h. (4) Palattiin takaisin ja jos toiminnallinen putki oli valittu, tätä voitiin käyttää palkkion saamiseen.

  • Koe 2, putkiolosuhde: (1) Pakotettu valinta toiminnallisella putkella ja häiritsevillä esineillä (12 koetta). (2) Valinnan jälkeen siirtyminen toiseen huoneeseen. (3) Odotetaan 14 h. (4) Palataan takaisin ja jos toiminnallinen putki oli valittu, tätä voitiin käyttää palkkion saamiseen.

  • Koe 3, koukkuehto: (1) Pakotettu valinta toiminnallisella koukulla ja häiritsevillä esineillä (16 koetta). (2) Valinnan jälkeen siirtyminen toiseen huoneeseen. (3) Odotettiin 1 h. (4) Palattiin takaisin ja jos toiminnallinen koukku oli valittu, tätä voitiin käyttää palkkion saamiseen.

  • Koe 4, koukkuehto: (1) Pakotettu valinta toiminnallisella koukulla ja häiritsevillä esineillä (16 koetta). (2) Valinnan jälkeen siirtyminen toiseen huoneeseen. (3) Odotettiin 1 h. (4) Palattiin takaisin ja jos toiminnallinen koukku oli valittu, saatiin palkkio ilman koukun käyttöä.

Opeteltavat käyttäytymisjaksot olivat seuraavat:

  • putki-ehto: Stube → Btake-putki → Sapparatus → Buse-putki → Sreward

  • Koukkuehto: Stook → Btake-koukku → Sapparatus → Buse-koukku → Sreward

Kummassakaan olosuhteessa apinoita ei koskaan palkittu siitä, että he valitsivat häiritseviä kohteita, tai:

  • Distractors: Sdistractor → Btake distractor → Sno reward

2.4. Kuvaus Kabadayi & Osvathin tutkimus korpeilla

Nämä testit tehtiin korpeilla . Tämä tutkimus aloitettiin esivalmennuksella. Tässä eläin sijoitettiin koehuoneeseen ja koulutettiin kahteen eri työkalutehtävään saadakseen palkinnon laitteesta. Kuten edellä, toiminnallisiin työkaluihin viitataan toiminnallisina esineinä. Toinen tehtävä oli laittaa kivi laitteeseen saadakseen palkkion. Toisessa tehtävässä piti ottaa pullonkorkki (ns. merkki) ja antaa se ihmiselle. Toisin kuin apinoilla tehdyssä tutkimuksessa, ennen testien aloittamista korpeille annettiin myös sammutuskokeita. Tässä eläimen annettiin olla vuorovaikutuksessa sellaisten esineiden kanssa, jotka olisivat läsnä pakotettujen valintakokeiden aikana, mutta joita ei koskaan voitu käyttää palkintojen saamiseen (myöhemmin niitä kutsuttiin häiritseviksi esineiksi). Esiharjoittelun jälkeen eläimelle tehtiin pakotettu valintakoe toiminnallisen esineen ja kolmen häiritsevän esineen välillä. Kun valinta oli tehty, eläin ei saanut käyttää toiminnallista esinettä vähään aikaan. Toisin sanoen palkkiota ei voitu kerätä heti valintakokeen jälkeen (lukuun ottamatta koetta 4). Tässä vaiheessa oli viive. Viiveen jälkeen eläin sai käyttää valitsemaansa esinettä. Jos pakotetussa valintakokeessa oli valittu toiminnallinen esine, eläin saattoi nyt käyttää tätä esinettä saadakseen palkkion, jolloin se osoitti esiharjoittelun aikana oppimaansa käyttäytymistä.

Tässä tutkimuksessa oli myös neljä hieman erilaista koetta. Testit vaihtelivat kokeiden lukumäärän ja viiveiden keston suhteen, ja viimeisessä testissä eläinten ei tarvinnut odottaa ennen kuin he käyttivät toiminnallista esinettä palkkion saamiseksi. On huomattava, että tässä tutkimuksessa käytettiin kahta eri palkkiota. Yhtä arvokasta palkkiota käytettiin esiharjoittelussa ja kaikissa kokeissa. Kokeissa 3 ja 4 pakkovalintatilanteessa käytettiin tunnettua, arvoltaan vähäistä palkkiota toiminnallisen välineen ja häiritsevien esineiden rinnalla. Huomaa, että kokeita ei suoritettu samassa järjestyksessä kuin ne oli numeroitu julkaistussa tutkimuksessa. Olen päättänyt esittää kokeet siinä ajallisessa järjestyksessä, jossa ne suoritettiin (1,3,2,4). Simuloinnit noudattivat tutkimuksen logiikkaa, ja tässä ovat yksityiskohdat simuloinnissa käytetyistä avaintapahtumista: Avaintapahtumat ennen kokeita ja kokeiden aikana olivat:

  • Harjoittelu: Ennen kokeita kaikki koehenkilöt opettelivat käyttämään toiminnallisia työkaluja. Kahdessa vaiheessa sallittiin vähintään kolme plus viisi esiharjoittelukokeilua työkalutehtävää varten ja 35 esiharjoittelukokeilua merkkitehtävää varten.

  • Häivytyskokeet: Tässä vaiheessa koehenkilöt saivat manipuloida häiritseviä esineitä 5 minuutin ajan saamatta mitään palkintoja.

  • Koe 1: (1) Pakotettu valinta toiminnallisella esineellä ja häiritsevillä esineillä. 14 koetta työkaluehdossa ja 12 × 3 koetta merkkiehdossa. (2) Odota 15 min. (3) Valittua esinettä voi käyttää uudelleen, ja jos kivi tai merkki oli valittu, sitä voi käyttää palkkion saamiseksi.

  • Koe 3: (1) Pakotettu valinta toiminnallisella esineellä, pienellä palkkiolla ja häiritsevillä esineillä. 14 kokeilua työkaluehdossa ja 14 kokeilua token-ehdossa. (2) Odota 15 min. (3) Valittua esinettä voi käyttää uudelleen, ja jos kivi tai merkki oli valittu, sitä voi käyttää palkkion saamiseksi.

  • Koe 2: (1) Pakotettu valinta toiminnallisella esineellä ja häiritsevillä esineillä. 6 koetta väline-ehdossa ja 6 koetta merkki-ehdossa. (2) Odotusaika 17 h. (3) Valittua esinettä voi käyttää uudelleen, ja jos kivi tai merkki olisi valittu, sitä voisi käyttää palkkion saamiseksi.

  • Koe 4: (1) Pakotettu valinta toiminnallisella esineellä, pienellä palkkiolla ja häiritsevillä esineillä. 14 koetta työkaluehdossa ja 14 koetta merkkiehdossa. (2). Jos kivi tai merkki oli valittu, sen avulla voitiin saada palkkio.

Opeteltavat käyttäytymisjaksot olivat seuraavat:

  • Työkaluehto: Jakkara → Btake tool → Sapparatus → Buse tool → Sreward

  • Token condition: Stoken → Btake-token → Shuman → Bgive-token → Sreward

Korpit opetettiin myös sukupuuttovaiheen aikana, ettei häiritsevien esineiden valitseminen tai käyttäminen koskaan palkitse. Näin tapahtui myös kaikkien testien aikana eli:

  • Distraktorit: Sdistractor → Btake distractor → Sno reward

Tutkimuksen itsekontrollivaiheissa korpit saivat valita pienen palkkion, joka esitettiin toiminnallisen esineen (työkalu tai merkki) ja distraktori-esineiden rinnalla. Näin ollen kokeissa 3 ja 4 myös nämä käyttäytymisjaksot olivat mahdollisia:

  • Työkaluehto: Sdog kibble → Btake small reward → Ssmall reward

  • Token-ehto: Sdog kibble → Btake small reward → Ssmall reward

2.5. Havainnollistus muistin päivityksistä esiharjoittelun aikana

Vaikuttaaksemme siihen, miten oppiminen vaikuttaa näihin käyttäytymisjaksoihin, seuraavassa on esimerkki muistin päivityksistä esiharjoittelun aikana korppitutkimuksessa. Käyttäytymissekvenssi, joka kehittyi esiharjoittelun aikana, voidaan kuvata seuraavasti: Stool → Btake tool → Sapparatus → Buse tool → Sreward, jossa kiven asettamisen arvo laitteeseen kasvoi niin, että vSapparatus → Buse tool≫0. Koska malli sisältää myös ehdollisen vahvistuksen, itse kiven arvo päivittyy seuraavan ärsykkeen, suuren palkkion, arvon mukaan. Toistuvien kokemusten myötä Srewardin ärsykearvo (w) saa Stoolin ärsykearvon kasvamaan. Kuten tämän mallin kuvauksesta käy ilmi , riittävän monen kokemuksen myötä työkalun arvo lähestyy suuren palkkion arvoa. Sitä vastoin sukupuuttokokeet, joissa on toistuvia palkitsemattomia kokemuksia kolmesta häiriökohteesta, voidaan kuvata seuraavasti: Sdhäiriökohde → Bpick häiriökohde → Sno palkkio. Tämä tapahtumasekvenssi aiheuttaa sekä häiriötekijän valinnan assosiatiivisen voimakkuuden vSdistractor → Bpick distractor että häiriötekijän ehdollistetun vahvistusarvon (wdistractor) vähenemisen. Kun ensimmäinen koe alkaa pakotetulla valinnalla, korppien käyttäytymiseen vaikutti esiharjoittelu sekä kiven että distraktoreiden kanssa.

2.6. Simuloinnin yksityiskohdat

Yllä oleva malli sisällytettiin Python-ohjelmaan, jossa oppiminen tapahtui edellä määriteltyjen kahden tutkimuksen yksityiskohtaisten menettelytapojen mukaisesti, jotta saatiin arvioita eri ärsykkeiden valintatodennäköisyyksistä sekä v- ja w-arvoista koko tutkimuksen ajan. Ohjelmassa suoritettiin kahdenlaisia simulaatioita. Ensin suoritettiin simulaatioita täydellä mallilla ja sitten simulaatioita ilman ärsykkeen arvoja (w), eli sallittiin vain meidän versiomme ärsyke-vaste-oppimisesta käyttäen vain yhtälön (2.1) ensimmäistä riviä yhdessä päätöksenteon kanssa (yhtälö (2.2)). Näin tutkittiin eroja ehdollistetun vahvistuksen sisältävän mallimme ja pelkän ärsyke-vaste-oppimisen version välillä. Tämä versio ärsyke-vaste-oppimisesta on identtinen klassisen Rescorla-Wagnerin oppimissäännön kanssa, mutta tarkastelimme sitä instrumentaalisen eikä pavlovilaisen asetelman kannalta.

Viiveiden huomioimiseksi simulaatioon otettiin mukaan yksi aika-askel minuutissa viiveiden aikana. Näiden aika-askelten aikana koettiin vain taustaärsyke. Tämä ei ole kovin tärkeää muistin päivittämisen kannalta, koska sekä ärsyke-vaste- että ärsykearvomuistot ovat pitkäkestoisia muistoja. Sitä, että eläimet muistavat ärsyke-vaste-assosiaatioita ja ärsykearvoja hyvin pitkään, ei mainittu kummassakaan simulointitutkimuksessa .

Samoja oppimisparametreja käytettiin kaikissa simulaatioissa. Kaikki käyttäytymiset alkoivat alkuperäisellä ärsyke-vaste-arvolla v = 1, sekä v- että w-arvoja päivitettiin oppimisnopeudella α = 0,2, eksploraatio asetettiin β = 1:ksi ja palkkiot asetettiin u = 6:ksi lukuun ottamatta Kabadayi & Osvathin kokeissa 3 ja 4 esiintyneitä matala-arvoisia palkkioita, jotka asetettiin u = 2:ksi. Käyttäytymiskustannukset kaikille käyttäytymismuodoille olivat 0,1 lukuun ottamatta passiivisia reaktioita, joiden arvoksi asetettiin 0 (ks. tiedot kaikista simulaatioihin sisältyvistä käyttäytymismuodoista ja ärsyke-elementeistä sähköisessä lisäaineistossa). Kaikki simulaatiot suoritettiin 500 koehenkilölle, ja kokeiden määrä noudatti suunnilleen kokeiden määrää. Se, että kokeiden määrä ei vastannut täysin empiirisiä tutkimuksia, johtui päätöksentekoyhtälön todennäköisyydestä. Eläinten alkuarvoja koskevien tietojen puuttuminen vaikeuttaa tarkkaa kvantitatiivista vertailua.

Vaikka sekä korpeilla että apinoilla oli rikas tausta, aiemmin opittua käyttäytymistä ei huomioitu, ja alkuarvojen oletettiin olevan samat häiritseville objekteille ja toiminnallisille objekteille. Konservatiivisuuden vuoksi kaikkien käyttäytymisen ja ärsykkeiden välisten assosiaatioiden voimakkuuden oletettiin olevan sama simulaatioiden alussa. Kabadayi & Osvath ei kalibroinut korppien mieltymyksiä kahden eri ruokapalkkion arvon suhteen, joten saatavilla olevien palkkioiden välisistä eroista ei ole määrällistä tietoa. He totesivat menetelmässä, että korkealaatuinen ruokapalkinto oli sekä suurempi että houkuttelevampi. Korppitutkimuksesta puuttui tarkka tieto sammutuksen määrästä, joten oletettiin, että korpeilla oli viisi sammutuskokemusta häiriötekijöiden kanssa.

Simulaatioissa käytetyt käyttäytymismallit ja ärsyke-elementit olivat seuraavat:

2.6.1. Käyttäytyminen ja ärsykkeet. Käyttäytymiset
  • Mulcahy & Kutsuputki: ota putki, käytä putkea, ota distraktori, ole passiivinen

  • Mulcahy & Kutsukoukku: ota koukku, käytä koukkua, ota distraktori, ole passiivinen

  • Kabadayi & Osvath-työkalu: Ota työkalu, käytä työkalua, ota häiriötekijä, ole passiivinen, ota pieni palkkio

  • Kabadayi & Osvath Token: ota merkki, käytä merkkiä, ota häiriötekijä, ole passiivinen, ota pieni palkkio

2.6.2. Stimuluselementit
  • Mulcahy & Kutsuputki: tausta, putki, putkitehtävä, distraktori, palkkio

  • Mulcahy & Kutsukoukku: tausta, koukku, koukkutehtävä, distraktori, palkkio

  • Kabadayi & Osvath-työkalu: Tausta, työkalu, laite, häiriötekijä, palkkio, pieni palkkio

  • Kabadayi & Osvath Token: tausta, token, ihminen, häiriötekijä, palkkio, pieni palkkio

2.7. Empiirisistä tutkimuksista saadut tiedot

Simulointitulosten vertaamiseksi kahden tutkimuksen empiirisiin tietoihin laskettiin keskiarvot kahdessa kyseisessä tutkimuksessa käytettävissä olleista tiedoista (ks. kuvat kohdassa Tulokset). Näin saatiin oikeiden ja väärien valintojen keskimääräinen osuus pakotettujen valintojen testeissä. Huomattakoon, että apinatutkimuksen kokeeseen 4 ei sisältynyt oikeaa käyttäytymistä työkalun käytössä, kun palattiin laitteeseen viiveen jälkeen, joten tätä koetta on vaikea tulkita. Lisäksi kokeeseen 4 liittyviä valintoja koskevia tietoja ei ollut saatavilla tekstissä, joten kyseiseen tietopisteeseen käytettiin kokeen 4 tietoja. On valitettavaa sekoittaa tietoja tällä tavalla, mutta valitsin tämän sen hyväksi, että jätin kokeen 4 tiedot pois.

Tulokset

Kaiken kaikkiaan simulaatiot vastasivat sekä korppi- että ihmisapinatutkimuksen tuloksia. Simulaatiot osoittavat, miten kaksi tekijää yhdessä voivat vaikuttaa ihmisapinoiden ja korppien tulevaisuuteen suuntautuvaan käyttäytymiseen. Ensinnäkin toiminnallisten kohteiden ehdollistetut vahvistusarvot, jotka muodostettiin esiharjoittelun ja sukupuuttoon kuolemisen avulla, kykenivät ohjaamaan alkuperäisiä oikeita valintoja. Tämä näkyy kuvassa 1, jossa esitetään oikeiden valintojen osuus. Toiseksi, oikeista valinnoista palkittiin kaikissa tutkimuksissa, lukuun ottamatta apinakokeen koetta 4. Se, että funktionaalisten esineiden käyttö oli palkitsevaa koko ajan, riitti ajamaan suorituksen selvästi yli sattumanvaraisen tason (kuva 1). Korppitutkimuksessa kokeen aikana annetut palkkiot selittävät hyvin lähes täydellisen suorituksen kyseisen tutkimuksen kahdessa viimeisessä osassa.

Kuva 1. Empiiristen (pisteet) ja simulaatiotulosten (viivat) tulokset, jotka osoittavat toiminnallisiin kohteisiin annettujen oikeiden vastausten osuuden ja korppitutkimuksen osalta pieniin palkintoihin annettujen vastausten simuloidun osuuden (katkoviivat). Bonobot ja oranki ovat yläpaneelissa ja korpit alapaneelissa. Apinoilla putken valitseminen oli oikein kokeissa 1 ja 2 (vasen viiva), ja koukun valitseminen oli oikea valinta kokeissa 3 ja 4 (oikea viiva). Huomaa, että yläpaneelin X-akseli on katkonainen, koska koe 4 tehtiin uusilla yksilöillä, jotka olivat kokeneet vain esiharjoittelun ennen koetta. Korppien kohdalla oikea valinta kokeen alkupuoliskolla oli työkalu (vasen viiva). Merkki oli oikea valinta kokeen toisessa osassa (oikea viiva). Vaakasuorat viivat kuvaavat oikeiden valintojen odotettua sattumanvaraisuutta koevaiheiden aikana (eli putki, koukku, työkalu ja merkki). Empiiriset tiedot ovat molempien tutkimusten kunkin vaiheen lopun tietojen keskiarvoja. Bonobo- ja korppigrafiikat ladattiin osoitteesta openclipart.org.

Empiiristen testien (esitetty kuvassa 1 täytettyinä ympyröinä) ja simulaatioiden välillä oli hyvä yhteensopivuus sikäli, että funktionaaliset objektit valittiin todennäköisemmin kuin häiritsevät objektit. Simulaatiot noudattivat myös yleisiä trendejä siinä mielessä, että suorituskyky kasvoi ihmisapinatutkimuksessa kokeiden 1 ja 2 aikana ja että suorituskyky heikkeni kokeessa 3. Vaikka simulaatiot aliarvioivat suorituskykyä korppitutkimuksen työkalutilanteessa, simulaatiot seurasivat tarkasti mallia, jonka mukaan suorituskyky oli korkea kokeessa 1, laski kokeessa 3 ja saavutti lähes täydellisen suorituskyvyn kokeessa 4. Simulaatioiden tulokset olivat kuitenkin hyvin samansuuntaisia. Yksi syy siihen, että simulaatioiden onnistumisprosentti oli alhaisempi työkalutilanteessa, voi olla se, että korpit olivat hyvin koulutettuja ja niillä oli rikas tausta, josta on hyötyä koetilanteissa. Nämä linnut olivat ihmisten kasvattamia ja ovat säännöllisesti vuorovaikutuksessa ihmisten kanssa. Ne tuntevat myös monia erilaisia esineitä, koejärjestelyjä ja palkintoja. Sitä vastoin simulaatioissa lähdettiin liikkeelle olettaen, ettei aiempaa tietämystä ollut. Simulaatioiden ja empiirisen datan välillä oli läheinen yhteneväisyys token-ehdon osalta, mutta suorituksen heikkeneminen kokeen 3 aikana oli suurempi empiirisessä datassa.

Simulaatiot kaappasivat myös sen, että ihmisapinoiden onnistumisprosentti oli kaiken kaikkiaan alhaisempi kuin korppien. Ainakin kaksi tekijää saattoi vaikuttaa tähän eroon. Apinat kokivat vähemmän esivalmennusta kuin korpit, ja toisin kuin korpit, apinat eivät saaneet sammutusharjoittelua häiritsevillä esineillä ennen testausta. Tämä näkyy kuvassa 1, jossa oikean kohteen valinnan todennäköisyys on paljon suurempi kokeen 1 alussa korppitutkimuksessa kuin apinatutkimuksessa. Se, että monet esiharjoittelukokeet (35 merkkikokeessa) yhdistettynä sammutuskokeisiin voivat johtaa korkeaan suorituskykyyn pakotetuissa valinnoissa, näkyy selvimmin korppitutkimuksen merkkikokeessa. Tässä simulaatio seurasi tarkasti havaittua korkeaa onnistumisprosenttia.

Esiharjoittelu ja sukupuuttoharjoittelu eivät ainoastaan vaikuttaneet oikeiden päätösten tekemisen todennäköisyyteen. Simulaatiot paljastavat, miten esiharjoittelu ja sukupuuttoon kuoleminen vaikuttavat myös väärien kohteiden, kuten pienten palkkioiden, valinnan osuuteen (kuva 1). Esiharjoittelun ja sukupuuttoon kuolemisen vaikutus oli selvin korppitutkimuksen merkkitilanteessa, jossa simulaation mukaan todennäköisyys, että korpit valitsisivat pienet palkkiot toiminnallisten esineiden sijaan, oli lähellä nollaa. Toiminnallisista esineistä (työkalu ja merkki) saatujen palkitsevien kokemusten suuri määrä johti suuriin ehdollistettuihin vahvistusarvoihin näille esineille (kuva 2). Simulaatiot vahvistivat mallin, jonka mukaan korpit eivät valinneet pieniä palkkioita toiminnallisten esineiden sijaan, ja että itsekontrollin odotetaan syntyvän assosiatiivisen oppimisen tuloksena.

Kuva 2. Simulaatioiden tulokset, joiden avulla voidaan verrata ehdollisen vahvistuksen (ärsykearvot) sisältävän oppimismallimme tuotosta Rescorla-Wagnerin (R-W) mallin välineelliseen versioon . Korppitutkimuksen simulaatiot ovat vasemmalla ja apinatutkimuksen simulaatiot oikealla. Ylimmissä paneeleissa näkyvät muistin päivitykset: ärsyke-vaste-assosiaatiot v käyttäytymiselle toiminnallisia kohteita kohtaan ja näiden kohteiden ärsykearvot w. Koska funktionaaliset kohteet eivät itsessään ole palkitsevia, simulaatiot osoittavat, että ärsyke-vaste-assosiaatiot funktionaalisten kohteiden valitsemiseksi eivät kehity yksinkertaisemmassa oppimismallissa (R-W). Alimmat paneelit osoittavat, että ärsyke-vaste-oppimismalli (R-W) ei pysty toistamaan kahdessa tutkimuksessa havaittuja käyttäytymismalleja, mikä on jyrkässä ristiriidassa oppimismallimme kanssa, joka sallii ehdollisen vahvistamisen. Koevaiheet ovat samat kuin kuvassa 1, mutta tässä vaiheita ei ole esitetty selkeyden vuoksi. Huomaa, että oikeanpuoleisten paneelien X-akselit ovat katkonaisia, koska koe 4 tehtiin uusilla yksilöillä, jotka olivat kokeneet vain esiharjoittelun ennen koetta. Korppi- ja apinagrafiikat ladattiin osoitteesta openclipart.org.

Kuvion 2 yläpaneelissa on esitetty ärsyke-vastearvojen ja ärsykearvojen kasvu.

Huomaa, että apinatutkimuksen koe 4 vastaa vähiten simulaatioita. Tässä kahden uuden apinan annettiin saada palkkio käyttämättä aiemmin toimivaa työkalua, ja ne palasivat oikean työkalun kanssa 2 kertaa 16:sta, mikä on vähemmän kuin simulaatiossa. Tätä empiirisen testin ja simulaation välistä eroa voitaisiin pienentää lisäämällä käyttäytymisen kustannuksia. Sellaisen käyttäytymisen, joka ei johda palkkioon, kustannusten kasvattaminen johtaa käyttäytymisen suorittamisen vähenemiseen. On kuitenkin epäselvää, mitä eläimiltä voidaan odottaa tässä tilanteessa, kun apinat kohtaavat tilanteen, jossa välineen ja palkkion välinen yhteys ei ole yhtä selvä. Ja kaksi neljästä apinasta ei koskaan yrittänyt ratkaista ongelmaa. Yhteenvetona voidaan todeta, että on vaikea arvioida tuon datapisteen tarkkuutta ja merkitystä (ks. ).

Simulaatiot osoittavat myös eroja eri kompleksisuuden omaavien assosiatiivisten oppimismallien välillä. Meidän versiomme ärsyke-vaste-oppimisen rajoitukset tulevat ilmeisiksi, kun niitä verrataan simulaatioihin, joissa käytetään oppimismalliamme, joka sisältää sekä pavlovilaisen että instrumentaalisen oppimisen . Pelkässä ärsyke-vaste-oppimisessa ei voida oppia käyttäytymissarjoja, joissa käyttäytymistä ei seuraa välittömästi palkkio (kuva 2). Jotta käyttäytymisjaksot kehittyisivät, ärsykkeiden, jotka ovat enemmän kuin yhden askeleen päässä palkkiosta, on tultava palkitseviksi ehdollisen vahvistuksen kautta. Kun aiemmin neutraali ärsyke saa positiivisen w-arvon, eli siitä tulee palkitseva, se voi johtaa positiivisten v-arvojen saamiseen käyttäytymiselle, joka ei johda välittömään palkitsemiseen (kuvan 2 yläpaneeli). Kun verrataan malliamme, joka voi oppia käyttäytymissarjoja, Rescorla-Wagnerin mallin instrumentaaliseen versioon, on selvää, että oikean ärsykkeen valinnan todennäköisyys ei kasva, jos sallitaan vain ärsyke-vaste-oppiminen (kuva 2). Koska v-arvot päivittyvät ärsyke-vaste-oppimisessa vain välittömän vahvistimen mukaan, tästä seuraa myös se, että pieni palkkio valitaan merkin ja työkalun sijasta, koska merkistä ja työkalusta ei voi tulla arvokkaita ärsykkeitä. Tämä näkyy kuviossa 2, sillä pienten palkkioiden virheellinen valinta lisääntyy eri kokeissa, kun vain meidän versiomme ärsyke-vaste-oppimisesta on sallittu (merkitty kuviossa 2 merkinnällä R-W). Pelkkä ärsyke-vaste-oppiminen ei voinut selittää tuloksia sen enempää korppi- kuin apinatutkimuksessakaan.

Keskustelu

Simulaatiot kahdesta suunnittelututkimuksesta korpeilla ja ihmisapinoilla viittaavat siihen, että käyttäytyminen, jonka on aiemmin väitetty johtuvan joustavasta suunnittelusta, voidaan selittää assosiatiivisella oppimisella. Kuten tekoälytutkimuksessa ja eläinten käyttäytymistutkimuksessa on osoitettu, nämä assosiatiivisen oppimisen mallit ovat tehokkaita joustavien käyttäytymissekvenssien tuottamisessa . Näin ollen sekä korppi- että ihmisapinatutkimuksissa tehdylle johtopäätökselle, jonka mukaan korpit ja ihmisapinat ratkaisevat nämä ongelmat erityisellä joustavalla mekanismilla, on vain vähän tukea. Tässä suoritetut simulaatiot tukevat niitä kriitikoita, jotka tulkitsivat nämä tulokset assosiatiivisen oppimisen seurauksiksi . Jos tulevissa tutkimuksissa pyritään erottamaan assosiatiiviset prosessit muunlaisista mentaalisista mekanismeista, ne hyötyisivät paremmasta koesuunnittelusta, mukaan lukien asianmukaiset kontrollit, joissa hyödynnetään uusimpia oppimismalleja.

Olikin mielenkiintoista huomata, että simulaatioiden avulla saatiin selville korppeja ja ihmisapinoita koskevien tutkimusten välinen ero . Tämä viittaa siihen, että simulaatiot vangitsivat hyvin esiharjoittelu-, sammutusvaiheiden ja palkkioiden vaikutukset koko tutkimuksissa. Korkeat ehdollistetut vahvistusarvot (w-arvot) oikeille esineille (työkalu ja merkki) ja alhaiset arvot häiritseville esineille vahvistettiin ennen ensimmäisiä testejä (kuva 2). Tämä oli erityisen ilmeistä korppikokeen merkkiosuudessa, jossa korpeille tehtiin 35 esiharjoittelukokeilua, joissa käyttäytymisjakso Stoken → Btake token → Shuman → Bgive token → Sreward palkittiin johdonmukaisesti (alempi paneeli, kuva 1).

Muuten tärkeä tekijä positiivisiin tuloksiin korppi- ja ihmisapinatutkimuksissa oli se, että oikeiden objektien valinnasta palkittiin koko kokeiden ajan. Tämä säilytti korkeat v- ja w-arvot oikealle käyttäytymiselle ja oikeille esineille. Tämä selittää myös sen, miksi korpit laiminlöivät pienen palkkion, kun se esitettiin yhdessä toiminnallisten esineiden kanssa (kuva 1). Toiminnalliset esineet johtivat palkitsemiseen toistuvasti koko tutkimuksen ajan, joten ne olivat saaneet korkeat ärsykearvot. Niin kauan kuin nämä arvot ovat korkeammat kuin pienen palkkion arvo, nämä toiminnalliset esineet valitaan useimmiten. Kuitenkin, kun käytetään vain ärsyke-vaste-oppimista – sallitaan vain v-arvojen päivittäminen, kuten Rescorla-Wagner-mallissa – pieni palkkio valitaan, koska tästä mallista puuttuu ehdollinen vahvistus (kuva 2). Jos halutaan välttää oppimista testien aikana, on hyötyä testien suorittamisesta sukupuuttoon kuolemalla, kuten esimerkiksi tulosten uudelleenarviointitutkimuksissa (esim. ). Näin testit voivat paljastaa aiempien kokeellisten manipulaatioiden seuraukset.

Tulokset tukevat ajatusta, että itsekontrolli syntyi assosiatiivisen oppimisen kautta. Olemme aiemmin osoittaneet, miten eläimet voivat assosiatiivisen oppimisen kautta hankkia itsehillintää, jos niille annetaan riittävästi tietoa ja kokemuksia . Kabadayi & Osvath ei määritellyt itsehillintää, mutta aiemmassa tutkimuksessa he määrittelivät sen ” välittömien pyrkimysten tukahduttamiseksi viivästyneiden palkkioiden hyväksi” . Tämä toiminnallinen näkemys itsekontrollista sopii moniin käyttäytymisen kuvauksiin eläinten käyttäytymiskirjallisuudessa. Havaintoja eläimistä, jotka oppivat hylkäämään pienet palkkiot, kun ne odottavat suuria palkkioita, tai toisin sanoen hylkäämään kannattamattoman saaliin, kun kannattavaa saalista on runsaasti, on saatu esimerkiksi kaloilta (bluegill-aurinkokala Lepomis macrochirus, ), äyriäisiltä (rantarapu Carcinus maenas, ) ja linnuilta (tiainen Parus major ja punarinta Tringa totanus, ). Tällaiset tutkimukset on suurelta osin jätetty huomiotta tutkimuksissa, joissa itsekontrollia tutkitaan usein erillisenä psyykkisenä mekanismina eikä oppimisen kohteena olevana asiana (esim. ). Sen sijaan näiden simulaatioiden valossa aiemmat tutkimukset itsekontrollista eläinten kognition tutkimuksessa (kuten esim. ) voidaan parhaiten ymmärtää oppimisen aiheuttamina, mukaan lukien ehdollistettu vahvistaminen.

Teoreettisesti itsekontrolli voi kehittyä useammalla kuin yhdellä tavalla. Itsekontrolli voi syntyä hankkimalla korkeat ehdollistetut vahvistusarvot toiminnallisille kohteille. Toiminnallisesta esineestä tulee arvokkaampi kuin pienestä palkkiosta. Mutta itsekontrolli voi syntyä myös, jos esimerkiksi ”odottamista” pidetään käyttäytymisenä sinänsä. Tällöin itsehillintä voi syntyä odottamisen lisääntyneen v-arvon kautta tietyn ärsykkeen läsnä ollessa. Metsästävillä kissoilla itsehillintä voi ilmetä odottamisen korkeana v-arvona, kun saalis on kaukana. Tarvitaan lisätutkimuksia, jotta voidaan ymmärtää paremmin, miten oppimismekanismien eri osatekijät vaikuttavat toisiinsa ja synnyttävät itsehillintää. Geneettisillä taipumuksilla on todennäköisesti suuri merkitys, ja ne ovat vuorovaikutuksessa ärsyke-vaste-assosiaatioiden ja ärsykearvojen kanssa.

Toinen tärkeä tulos oli se, että simulaatioilla saatiin kiinni ero korppien suoritusten välillä kokeessa 3 ja kokeessa 4. Simulaatioiden avulla saatiin selville, miten suuri ero on. Syynä täydelliseen suoritukseen kokeessa 4 sekä korppitutkimuksessa että simulaatiossa oli se, että valinnan ja palkitsemiseen johtavan käyttäytymisen välinen viive jätettiin pois. Sen sijaan oli mahdollisuus käyttää esinettä palkkion keräämiseen heti pakotetun valinnan jälkeen. Tästä syystä jokainen koe johti mahdollisesti suoraan palkkioon, kun taas kokeessa 3 oikean esineen valitseminen palkittiin vasta viiveen jälkeen. Tai toisin sanoen, kokeissa 1-3 korpit saattoivat saada palkkion vain joka toinen kerta, kun ne valitsivat oikean esineen, kun taas kokeessa 4 ne saivat palkkion joka kerta ja välittömästi sen jälkeen, kun ne olivat valinneet ja käyttäneet toiminnallisen esineen.

Yksi samankaltaisuus oppimismallimme ja joidenkin tekoälyn vahvistusoppimismallien välillä on se, että näiden mekanismien avulla agentit ja eläimet pystyvät tunnistamaan arvokkaat maailmantilat ja sen, millaiset käyttäytymismallit ovat näissä arvokkaissa maailmantiloissa tuottavia. Operatiivisessa mielessä nämä oppimismallit tuottavat suunnittelua, kun käyttäytyminen (laita laitteeseen tai anna ihmiselle) ärsykettä (kiveä tai merkkiä) kohtaan tuottaa arvokasta ruokaa myöhemmässä vaiheessa. Tämä tapahtuu siitä huolimatta, että ruoka (tai muu palkitseva ärsyke) puuttuu. Osvath & Kabadayi määritteli vastauksessaan kriitikoille joustavan suunnittelun ”päätöksenteoksi, joka koskee tulevaisuutta oman nykyisen aistipiirinsä ulkopuolella sellaisilla aloilla, joihin hänellä ei ole taipumusta”. Riippumatta siitä, ovatko mallit peräisin tekoälystä vai eläinten käyttäytymisestä , kun oppimismalleihin sisällytetään ehdollinen vahvistus, tämän määritelmän mukaista suunnittelukäyttäytymistä syntyy ärsyke-vaste-arvojen ja ärsykearvojen älykkään vuorovaikutuksen kautta. Keskeistä on se, että tällä hetkellä saatavilla olevat ärsykkeet voivat antaa tietoa siitä, mitä käyttäytymistä pitäisi toteuttaa, jotta päästäisiin tuleviin arvokkaisiin tiloihin. Nämä oppimismallit eivät kuitenkaan pysty simuloimaan erilaisia lopputuloksia mentaalisesti, ne eivät voi matkustaa mentaalisesti ajassa eivätkä järjestää tietoa uudelleen sisäisesti. Robertsia lainatakseni , muut kuin ihmiseläimet voivat olla ”jumissa ajassa” ja silti osoittaa suunnittelukäyttäytymistä.

Mulcahy & Call yritti sulkea pois instrumentaalisen ehdollistumisen selityksenä apinoiden käyttäytymiselle suorittamalla kokeen 4. Tämä vaihe oli samanlainen kuin koe 3, mutta apinoita ei palkittu toiminnallisen työkalun käytöstä. Sen sijaan, että apina olisi astunut huoneeseen funktionaalisen työkalun kanssa, jota voisi käyttää palkkion saamiseksi (kuten kokeessa 3), apina astui huoneeseen ja löysi palkkion, jos se oli kantanut funktionaalisen työkalun koehuoneeseen odotushuoneesta. Väitettiin, että jos apinat suoriutuivat muissa kokeissa paremmin kuin tässä kokeessa, se viittaisi siihen, että apinat suunnittelivat joustavasti. Mulcahy & Call päätteli, että niiden tulokset ”edustavat aitoa tapausta tulevaisuuden suunnittelusta”. Paholaisen asianajaja voisi tunnistaa eroja kokeiden 3 ja 4 välillä, mikä tekisi oppimisesta todennäköisemmän selityksen. Kokeessa 3 apinat palkittiin nimenomaisesti työkalun käytöstä. Tämä johti siihen, että työkalun ehdollistettu vahvistusarvo oli korkea ja ärsyke-vaste-arvo oli korkea, kun työkalua käytettiin laitteessa. Kokeessa 4 Mulcahy & Call huomauttaa kuitenkin, että työkalun poimimisen odotushuoneessa, työkalun kantamisen koehuoneeseen ja sen jälkeen palkkion saamisen välillä oli pidempi aika ilman työkalun käyttöä. Ehkä heikko suorituskyky kokeessa 4 johtui epäselvästä yhteydestä työkalun ja palkkion välillä, koska viive estää työkalun noutamisen hankkimista, jotta myöhemmin saataisiin palkkio. Asianmukaiset kontrolliolosuhteet ovat tärkeitä, jotta hypoteesit voidaan hylätä yksiselitteisesti (esim. viimeaikaiset keskustelut osoitteessa ). Oppimismalliamme voidaan käyttää tulevissa tutkimuksissa tällaisten oppimiskontingenssien vaihtelusta johtuvien käyttäytymiserojen analysointiin.

Simulaatiot osoittavat, että apinatutkimus ja korppitutkimus voidaan ymmärtää assosiatiivisen oppimisen kautta. Kokeiden tulokset kätköilyasiantuntijoista , jotka todennäköisesti ovat riippuvaisia geneettisestä erikoistumisesta , ovat kuitenkin tällä hetkellä oppimismallimme soveltamisalan ulkopuolella. Varastointikäyttäytymiseen ja ruokintakäyttäytymiseen liittyy eläimillä erilaisia motivaatiotiloja. Motivaatiotiloja voidaan pitää sisäisinä ärsykkeinä ja ne voidaan helposti integroida assosiatiiviseen oppimismalliin, mikä lisäisi joustavuutta ruokinta- ja kätköilypäätöksiä tehtäessä. Mallimme ei sisällä erilaisia motivaatiotiloja nykytilassaan, mutta olemme antaneet esimerkkejä siitä, miten geneettiset taipumukset voidaan integroida malliin . Yksi mahdollinen ratkaisu olisi ottaa käyttöön kontekstiriippuvuus niin, että etsintä on erilaista eri ulkoisten ärsykkeiden ja/tai eri sisäisten tilojen yhteydessä. On tärkeää, että kun tehdään oletuksia joustavammista psyykkisistä mekanismeista, on otettava huomioon lisääntyneestä joustavuudesta aiheutuvat korkeammat eksploraatiokustannukset (ks. ). Odotamme, että evoluutio on hienosäätänyt geneettisiä taipumuksia, jotka yhdessä assosiatiivisen oppimisen kanssa tuottavat tuottavaa ja lajispesifistä käyttäytymistä.

Toinen tärkeä seikka tulevia tutkimuksia varten on se, että kun eläimet oppivat käyttäytymisen seurauksista ja ärsyke-vastearvot ja ärsykearvot päivittyvät, nämä ovat pitkäkestoisia muistoja (esim. , ks. myös ). Korppi, joka on koulutettu antamaan merkkejä ihmiselle, ei yksinkertaisesti unohda päivää myöhemmin, miten tämä tehdään. Käyttäytymisen kannalta korppitutkimuksen työkaluehto on identtinen sen kanssa, kun koiranomistajat opettavat karvaisia ystäviään ”siivoamaan” laittamalla lelut niille tarkoitettuun koriin. Sen sijaan, että korppi palkitaan kiven laittamisesta laitteeseen, koira saa palkkion lelun laittamisesta koriin. Tällaiset assosiatiivisen oppimisen kautta päivittyvät pitkäkestoiset muistit eroavat suuresti mielivaltaisten ärsykkeiden lyhytkestoisesta muistista .

Johtopäätöksenä voidaan todeta, että assosiatiivisen oppimisen mallien kehittäminen on vaikuttavaa tekoälytutkimuksessa, ja mallit ovat osoittautuneet tehokkaiksi monimutkaisen käyttäytymisen tuottamisessa. Voidaan kysyä, miksi näitä tehokkaita malleja ei sovelleta laajemmin muiden kuin ihmiseläinten käyttäytymiseen ja miksi näitä malleja aliarvioidaan muiden kuin ihmiseläinten joustavan käyttäytymisen syynä. Tämä on erityisen relevanttia, kun otetaan huomioon, että eläinten kognition tutkimusta, jossa ei-inhimillisillä eläimillä väitetään olevan oivalluksia, osoittavan kausaalista päättelyä ja suunnitelmaa, kritisoidaan säännöllisesti siitä, että ne kärsivät suurista väitteistä, jotka perustuvat heikkoon metodologiaan (esim. ). Yksi tapa ratkaista tämä assosiatiivisen oppimisen paradoksi on integroida tekoälyn, eläinten oppimisen ja eläinten kognition alat. Käyttäytymistä synnyttävien mekanismien ymmärtämiseksi muodolliset alhaalta ylöspäin suuntautuvat assosiatiiviset mallit ovat todennäköisesti valaisevampia kuin verbaaliset ylhäältä alaspäin suuntautuvat ”korkeamman asteen” kognitiiviset mallit. Esimerkiksi siksi, että jälkimmäisiä malleja on vaikeampi hylätä, eikä niitä voida toteuttaa simulaatioissa tai käyttää robotteja rakennettaessa. Yhteenvetona voidaan todeta, että ei voida sulkea pois sitä, että apinoiden ja korpien ja luultavasti monien muidenkin lajien joustava suunnittelu syntyy assosiatiivisen oppimisen kautta.

Aineiston saatavuus

Kuviot ja simulaatioiden aineisto voidaan tuottaa sähköisessä oheismateriaalissa esitetyllä ohjelmistolla ja koodilla.

Tekijöiden panos

J.L. ideoi tutkimuksen, suoritti tietokonesimulaatiot, analysoi tiedot ja kirjoitti käsikirjoituksen.

Kilpailevat etunäkökohdat

Ei ole kilpailevia etunäkökohtia.

Rahoitus

Tätä työtä on tukenut Knut ja Alice Wallenbergin säätiö, KAW 2015.005.

Kiitokset

Kiitokset Markus Jonssonille, Magnus Enquistille, Anna Jon-Andille ja Stefano Ghirlandalle. Kiitos myös kahdelle anonyymille refereelle arvokkaista ja oivaltavista kommenteista.

Alaviitteet

Elektroninen lisämateriaali on saatavilla verkossa osoitteessa https://dx.doi.org/10.6084/m9.figshare.c.4302740.

© 2018 The Authors.

Published by the Royal Society under the terms of the Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, joka sallii rajoittamattoman käytön edellyttäen, että alkuperäinen tekijä ja lähde mainitaan.

  • Mnih Vet al.2015Ihmistason ohjaus syvän vahvistusoppimisen avulla. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
  • Emery NJ, Clayton NS. 2004The mentality of crows: convergent evolution of intelligence in corvids and apes. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
  • Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontaneous prosocial choice by chimpanzees. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
  • MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
  • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016How chimpanzees cooperate in a competitive world. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
  • Whiten A. 2017Sosiaalinen oppiminen ja kulttuuri lapsella ja simpanssilla. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
  • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
  • Tomasello M, Call J. 1997Primate cognition. Oxford, UK: Oxford University Press. Google Scholar
  • Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Insightful problem solving and creative tool modification by captive nontool-using rooks. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Vastaus Lind et al.: oivallus ja oppiminen. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
  • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Using the Aesop’s fable paradigm to investigate causal understanding of water displacement by New Caledonian crows. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
  • Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
  • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
  • Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees and bonobos differ in intrinsic motivation for tool use. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
  • Enquist M, Lind J, Ghirlanda S. 2016Assosiatiivisen oppimisen voima ja optimaalisen käyttäytymisen ontogenia. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Linkki, ISI, Google Scholar
  • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, UK: Oxford University Press. Crossref, Google Scholar
  • Carew TJ, Sahley CL. 1986Invertebrate learning and memory: from behavior to molecules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
  • Bouton ME. 2007Learning and behavior: moderni synteesi. Sinauer, MA: Sunderland. Google Scholar
  • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
  • Mulcahy NJ, Call J. 2006Apes save tools for future use. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
  • Naqshbandi M, Roberts WA. 2006 Tulevien tapahtumien ennakointi orava-apinoilla (Saimiri sciureus) ja rotilla (Rattus norvegicus): Bischof-Köhlerin hypoteesin testit. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
  • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planning for the future by western scrub-jays. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
  • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobot and orangutans, but not chimpanzees, flexible plan for the future in a token-exchange task. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
  • Kabadayi C, Osvath M. 2017Ravit rinnastavat ihmisapinat joustavassa suunnittelussa työkalujen käytössä ja vaihtokaupassa. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
  • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
  • Suddendorf T, Corballis MC. 2010Behavioraaliset todisteet mentaalisesta aikamatkailusta ei-inhimillisillä eläimillä. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2010Mental time travel in animals. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
  • Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Bulley A, Miloyan B. 2018Prospection and natural selection. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
  • Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, UK: Psychology Press. Google Scholar
  • Shettleworth S. 2010Cognition, evolution, and behavior. Oxford, UK: Oxford University Press. Google Scholar
  • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
  • Eaton RL. 1970The predatory sequence, with emphasis on killing behavior and its ontogeny, in the cheetah (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
  • Kelleher RT, Gollub LR. 1962Katsaus positiiviseen ehdollistettuun vahvistamiseen. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
  • Mackintosh NJ. 1974The psychology of animal learning. London, UK: Academic Press. Google Scholar
  • Williams BA. 1994Conditioned reinforcement: experimental and theoretical issues. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
  • McGreevy P, Boakes R. 2011Carrotts and sticks: principles of animal training. Sydney, Australia: Darlington Press. Google Scholar
  • Rescorla RA, Wagner AR. 1972A theory of Pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement. Teoksessa Klassinen ehdollistuminen II: nykyinen tutkimus ja teoria (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
  • Blough DS. 1975Steady state -tiedot ja kvantitatiivinen malli operantin yleistämisestä ja erottelusta. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
  • Sutton RS, Barto AG. 1998Reinforcement learning. Cambridge, MA: MIT Press. Google Scholar
  • Balleine B, Dickinson A. 1991Instrumentaalinen suorituskyky vahvistimen devalvaation jälkeen riippuu kannustinoppimisesta. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
  • Dickinson A, Balleine B. 1994Motivational control of goal-directed action. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
  • Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
  • Werner EE, Hall DJ. 1974Optimal foraging and the size selection of prey by the bluegill sunfish (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
  • Elner RW, Hughes RN. 1978Energy maximization in the diet of the shore crab Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
  • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimal prey selection in the great tit (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
  • Goss-Custard JD. 1977Optimal foraging and the size selection of worms by redshank, Tringa totanus, in the field. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
  • Osvath M, Kabadayi C. 2018Contrary to the gospel, ravens do plan flexiblely. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
  • Barto AJ. 2003Vahvistusoppiminen. In The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
  • Roberts WA. 2002Ovatko eläimet jumissa ajassa?Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Lind J. 2017’Aesop’s fable’ experiments demonstrate trial-and-error learning in birds, but no causal understanding. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
  • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Meta-analyyttiset tekniikat paljastavat, että korpikoiraiden kausaalista päättelyä Äsopin tarun paradigmassa ohjaa koe-ja-error-oppiminen. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
  • Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays anticipate future needs independent of their current motivational state. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2012Eurasian jaakit (Garrulus glandarius) voittavat nykyiset toiveensa ennakoidakseen kaksi erilaista tulevaa tarvetta ja suunnitellakseen ne asianmukaisesti. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
  • Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
  • Skinner BF. 1950Ovatko oppimisteoriat tarpeellisia?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
  • Vaughan W, Greene SL. 1984Pigeon visual memory capacity. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
  • Gleitman H. 1971Pitkäkestoisten muistojen unohtaminen eläimillä. In Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
  • Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwin’s mistake: explaining the discontinuity between human and nonhuman minds. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
  • Wynne C. 2008Aping Language: A skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
  • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
  • Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
  • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
  • Dymond S, Stewart I. 2016Relational and analogical reasoning in comparative cognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
  • Lindenfors P. 2017Lintujen aivot: Ovatko varikset niin älykkäitä kuin jotkut tutkijat väittävät?Skept. Mag. 22, 10-11. Google Scholar
  • Lind J, Enquist M. 2009More synthetic work is needed. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

Vastaa

Sähköpostiosoitettasi ei julkaista.