Mit tehet az asszociatív tanulás a tervezésért?

Bevezetés

A világ csodálkozására a mesterséges intelligencia (AI) kutatásában használt asszociatív tanulási modellek ma már emberi szintű képességeket érnek el a videojátékokban, és legyőzik az emberi mestereket a kínai Go , sakk és shogi társasjátékokban. Annak ellenére, hogy a mesterséges intelligencia kutatásában az asszociatív tanulás elismerten emberhez hasonló viselkedést eredményez, az asszociatív tanulást gyakran vagy nem említik (pl. ), vagy nemkívánatosnak vagy nem elég kifinomultnak (pl. ) tartják ahhoz, hogy magyarázatot adjanak a nem emberi állatok rugalmas viselkedésére. Érdekes paradoxon, hogy az asszociatív tanulást a mesterséges intelligencia kutatásában elismerik a komplex rugalmas viselkedés létrehozásáért, de gyakran elutasítják és elhanyagolják a biológiai rendszerek (emberek és nem emberi állatok) rugalmas viselkedésének modelljeként.

Az, hogy a nem emberi állatok viselkedéssorozatainak kialakulása megérthető-e az asszociatív tanulás szempontjából vagy sem, messzemenő következményekkel jár a viselkedés tanulmányozásának megértésére. Ha a fejlettnek vagy összetettnek tekintett viselkedés, mint például a csimpánzok (Pan troglodytes) szerszámhasználata, asszociatív folyamatok révén fejlődhet, akkor a faji különbségek a viselkedési repertoárok, a felfedező hajlamok, például a kíváncsiság, valamint a motivációs és figyelmi tényezők genetikai különbségeiben kereshetők. Ha az asszociatív folyamatok nem elegendőek az információ feldolgozásának és az emlékek frissítésének magyarázatára a viselkedés kialakulásához, akkor alternatív mechanizmusokat kell azonosítani ahhoz, hogy megértsük, hogyan alakul ki az ilyen viselkedés. Ma a kutatók nagyon ellentétes nézeteket vallanak erről a kérdésről. Az egyik oldalon egyesek azt állítják, hogy az asszociatív folyamatok az olyan tényezőkkel együtt, mint a viselkedési repertoár mérete és a felfedezés, erőteljesnek bizonyulnak, és nagymértékben megmagyarázzák, hogyan sajátítják el az állatok a viselkedést (pl. ). Ezzel szemben mások alternatív mechanizmusokat hangsúlyoznak, és azt javasolják, hogy az állatoknak sok különböző mechanizmusuk van, amelyek különböző specifikus problémákat oldanak meg, és hogy ezeket a mechanizmusokat az evolúció finomhangolta (pl. ). Nem minden tanulmány tartozik ebbe a két kategóriába, és néhány tanulmány alternatív magyarázatokat tesztel, és ellenőrzi az asszociatív tanulást. Gyakori azonban, hogy az ilyen tanulmányok csak az asszociatív tanulás legegyszerűbb formáit feltételezik. Ez valószínűleg az asszociatív tanulási hipotézisek téves elutasítását eredményezi. Ennek az az oka, hogy a legtöbb gerinces és gerinctelen állat rendelkezik mind az instrumentális, mind a pavlovi tanulás képességével , ami a speciális memóriával együtt a legtöbb állatot komplexebb tanulásra teszi képessé, mint amit az asszociatív tanulás legegyszerűbb formái lehetővé tesznek.

A tanulmány célja az volt, hogy megvizsgáljuk, hogy a mesterséges intelligencia kutatásában használt megerősítő tanuláshoz hasonló tanulási modell segíthet-e megérteni a tervező viselkedés elsajátítását a corvidák és majmok esetében, olyan viselkedéseket, amelyeket néha komplexnek és emberinek tartanak. Arra a következtetésre jutottak, hogy számos faj rugalmasan tervez a jövőre nézve, nem eltérően az emberektől (pl. ). Az elképzelés szerint ez a fajta tervezés egy olyan rugalmas mentális mechanizmus eredménye, amely képes mentálisan szimulálni különböző jövőbeli állapotokat a jelenlegi információkból. Ezeket az állításokat azonban legalább két különböző érvrendszer alapján vitatják. Először is, a kutatók kételyeket fogalmaztak meg a madarak általános tervezési képességével kapcsolatban, mivel a madarakon végzett tervezési tanulmányok jellemzően a rejtőzködési feladatokat végző rejtőzködő specialistákkal, például a bozótos szajkókkal (Aphelocoma californica), az eurázsiai szajkókkal (Garrulus glandarius) és a fekete sapkás csicsergőkkel (Poecile atricapillus) folynak. Ezeket az eredményeket speciális memóriarepertoár okozhatja (vö. ). A második ok, amiért elvetjük azt az elképzelést, hogy a nem emberi állatok rugalmasan terveznek, az az, hogy a megfigyelt viselkedést nem az emberhez hasonló tervezés okozta, hanem leginkább az asszociatív tanulás eredményeként értelmezhető, és hogy a módszertani hiányosságok miatt ezek a vizsgálatok kétértelműek .

Miért lenne hasznos egy asszociatív tanulási modell a jövőorientált viselkedés megértéséhez? Az asszociatív tanulás jól ismert arról, hogy anticipatív viselkedést okoz, olyan viselkedéseket, amelyek előre jelzik a későbbi értelmes eseményeket, azonnali előnyök nélkül . Továbbá az önkontroll, amelyet gyakran említenek, mint a tervezés szempontjából fontosat , az asszociatív tanuláson keresztül jöhet létre. Feltételezhető, hogy az önkontroll nem lehetséges az asszociatív tanulás révén, mivel az azonnal jutalmazott viselkedést mindig előnyben kell részesíteni a nem jutalmazott viselkedéssel szemben. Sok állat számára azonban a “várakozás” vagy a “leselkedés” olyan viselkedésformák, amelyek megerősíthetők, ha későbbi jutalmazási lehetőségek követik őket. Például a ragadozók fiatal korukban megtanulják a leselkedés és a várakozás képességét .

Az itt használt modell egy asszociatív tanulási modell, amely képes az optimális viselkedés megtanulására egy komplex világban . A modell két különböző memóriát és egy döntéshozatali mechanizmust tartalmaz. Az egyik memória a B viselkedés végrehajtásának asszociatív erejét tárolja az S ingerhez, a másik memória pedig az S inger becsült értékét. A modell képes viselkedéssorozatokat tanulni az egyes viselkedések összekapcsolásával, kondicionált megerősítéssel (másodlagos megerősítés). Ily módon az elsődleges megerősítőket megelőző, kezdetben semleges ingerek maguk is megerősítőkké válhatnak, ezáltal módosítva a korábban nem jutalmazott viselkedést. Például egy klikkerrel kiképzett nyúl a táplálékjutalmakat megelőzően többször hallott kattintásokat. E nyúl számára a kattintás önmagában is jutalmazóvá válik, és a nyúl megtanul olyan viselkedéseket végezni, amelyek csak azt eredményezik, hogy a nyúl kattintást hall. A modell további magyarázatát az alábbi Anyagok és módszerek rész tartalmazza.

Itt tesztelem azt a hipotézist, hogy egy asszociatív tanulási modell képes magyarázatot adni a nem emberi tervezési vizsgálatokban talált eredményekre. A tanulási modellt két tervezési vizsgálat eredményeinek szimulálására használtam, az egyiket orangutánokkal (Pongo pygmaeus) és bonobókkal (Pan pan paniscus), a másikat pedig hollókkal (Corvus corax) . A szimulációk a tanulmányokon belül és a tanulmányok között a legfontosabb mintákat követték. Arra a következtetésre jutottak, hogy nem zárható ki, hogy a majmok és a hollófélék rugalmas tervezésével kapcsolatos tanulmányok asszociatív tanulással magyarázhatók. Ezért az asszociatív tanulás nem csak az emberhez hasonló viselkedést hozhat létre (pl. ), hanem egy lehetséges magyarázat a nem emberi állatokban a tervezéssel és önkontrollal kapcsolatos megfigyelésekre.

Anyag és módszerek

Itt ismertetem a tanulási modellünket , a szimulációkhoz használt két különböző tanulmány logikáját, és a szimulációk részleteit.

2.1. A szimulációk és a szimulációk leírása. A modell leírása

Az állatnak van egy viselkedési repertoárja, és a viselkedéseit arra tudja használni, hogy a felismerhető környezeti állapotok világában navigáljon. Egy viselkedés az állatot egyik állapotból a másikba viszi. Minden állapotnak vagy ingernek van egy elsődleges megerősítési értéke, amely genetikailag rögzített. Ezek az értékek lehetnek negatívak, semlegesek vagy pozitívak, és úgy irányítják a tanulást, hogy a túlélést és a szaporodást elősegítő viselkedésmódokat támogassák. Az állatok feltételezhetően olyan döntéseket hoznak, amelyek maximalizálják az összértéket, és a jövőbeli állapotok értékére vonatkozó elvárások kialakulhatnak . A modell így célvezérelt viselkedést generálhat (lásd a célvezérelt viselkedés és tanulás másik tárgyalását).

Röviden, a modell az ingerekkel szembeni viselkedéssorozatok tanulását írja le a memória változásain keresztül. Ez magában foglalja a döntéshozatalt, amely figyelembe veszi a memóriát annak meghatározásához, hogy egy adott inger észlelésekor milyen viselkedést válasszunk. Vegyük például egyetlen viselkedés megtanulását, például amikor egy kutya megtanulja, hogy a “rázd meg” parancsra a mancsát adja. A mancs felemelése a viselkedés, a “rázd meg” parancs és a jutalom az inger. A megtanulandó eseménysorozat a következő: “rázd meg” parancs → mancs felemelése → jutalom, vagy

“rázd meg′→mancs felemelése→eledel jutalom

A modell információt gyűjt a különböző ingerek (vagy állapotok) felé irányuló viselkedések végrehajtásának értékéről, és információt gyűjt a különböző ingerek (vagy bizonyos állapotok) értékéről. A tanulás két különböző típusú memória frissítésén keresztül történik. Ezek az emlékek megfelelnek a pavlovi és az instrumentális tanulásnak, és egy eseménysorozat után frissülnek, mint a kutyás példában, vagy általánosságban az S → B → S′ eseménysorozat után. Az első típusú emlék egy inger-reakció asszociáció. A vS→B-t az S inger és a B viselkedés közötti asszociációs erősség jelölésére használtuk. Funkcionális szempontból a vS→B úgy írható le, mint a B viselkedés végrehajtásának becsült értéke, amikor az S inger észlelése esetén a B viselkedést végrehajtjuk. Ennek az ingerértéknek a jelölésére wS-t használtunk, és egy következő inger értékének megfelelően frissül. Más szóval, wS az S állapotban való tartózkodás kondicionált megerősítési értéke. Ezek a memóriák a

ΔvS→B=αv(uS′+wS′-vS→B)ésΔwS=αw(uS′+wS′-wS)}2.1

szerint frissülnek az S → B → S′ eseménysorozat megtapasztalása után. A vS→B inger-válasz asszociáció az S′ inger elsődleges, veleszületett, rögzített értéke uS′, valamint wS′ a kondicionált megerősítési érték és a korábban tárolt vS→B inger-válasz asszociáció alapján frissül. Feltételes megerősítés esetén az S inger észlelésekor a B viselkedés végrehajtásának értéke az S′ inger elsődleges és feltételes megerősítési értékének összege. Ha csak az első egyenletet használjuk, és a w-t kizárjuk, akkor az instrumentális inger-reakció tanulást képvisel, vagyis a klasszikus Rescorla-Wagner tanulási modell instrumentális változatát. Az αv és αw tanulási ráták határozzák meg a memóriafrissítések sebességét.

Azért, hogy a tanulási modell viselkedést generáljon és szelektáljon, szükség van egy döntéshozatali mechanizmusra. Olyan döntéshozatali mechanizmust használtunk, amely a viselkedési válaszokat kiválasztja, és a felfedezés révén a viselkedésben némi variációt okoz. Ez a B viselkedés valószínűségét az S állapotban a következőképpen határozza meg:

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

amely tartalmaz egy β paramétert, amely a felfedezés mértékét szabályozza. Minden viselkedésforma egyforma valószínűséggel kerül kiválasztásra, ha β = 0, anélkül, hogy a becsült értékeket figyelembe vennénk. Ha β nagy, akkor főként a legnagyobb becsült értékkel (v) rendelkező viselkedés lesz kiválasztva.

Visszatérjünk vissza a kutyához egy gyakorlati példához. A kutya hallja a “rázd meg” parancsot, az inger S. Ha a kutya felfelé mozgatja a mancsát, azaz végrehajtja a B viselkedést, akkor megkapja a jutalmat S′. Ha a kutya megkapja ezt a jutalmat, miután helyesen reagált a “rázd meg” parancsra, akkor az inger-reakció memória vparancs `rázd meg′→emeld fel a mancsodat a (2.1) egyenlet felső sora szerint növekszik. Ezenkívül a “rázd meg” parancs w ingerértéke a (2.1. egyenlet alsó sora szerint frissül.) A “rázd meg” parancs w értéke megközelíti a táplálékjutalom u értékét, és ezáltal önmagában is megerősítő tulajdonságokat nyer; kondicionált megerősítővé vált. A kondicionált megerősítő a mancs felfelé mozgatása előtt további viselkedésformák megtanulásához nyithatja meg az utat. Ez azért történhet meg, mert azok a viselkedések, amelyek azt eredményezik, hogy a kutya meghallja a “rázd meg” parancsot, megerősödhetnek.

2.2. Megerősítés. Az emberszabású majmokon és hollókon végzett tervezési vizsgálatok szimulációja

A tervezési kísérletek szimulációi a két olyan vizsgálatban lezajlott események menetének részletes leírásán alapultak, ahol kulcsfontosságú eseményeket azonosítottak. A kulcsesemények közé tartozott, hogy a tesztek előtt milyen viselkedéseket gyakoroltak és milyen tárgyak felé, és milyen kimeneteleket eredményeztek a különböző választások az előtréning és a tesztek során. Fontos a részletek azonosítása ezekben a tanulmányokban , mivel a tesztfázisok jutalmazó és nem jutalmazó cselekvések keverékét tartalmazták. Ezért mind az inger-válasz (v), mind az ingerértékek (w) várhatóan változnak a tesztek során.

A szimulációk lehetővé és reálissá tétele érdekében feltételeztük, hogy az állatok néhány szükséges mindennapi készséggel léptek be ezekbe a vizsgálatokba. Feltételeztük, hogy az állatok korábban megtanulták például, hogyan tartsanak tárgyakat, hogyan mozogjanak a szobák és rekeszek között, hol helyezkednek el a különböző dolgok, valamint néhány alapvető készséget a kísérletezőkkel való interakcióra vonatkozóan. A majmokat például a választások után kivezették a kísérleti helyiségből, hogy később újra beengedjék őket a kísérleti helyiségbe. Az ilyen mindennapi készségek figyelmen kívül hagyásával a szimulációk és a viselkedésleírások azokra az egyedi viselkedéssorozatokra összpontosítottak, amelyeket az állatoknak a kísérletek részeként meg kellett tanulniuk.

A két vizsgálatnak vannak közös fő jellemzői. A tesztek megkezdése előtt az állatokat előtréningnek vetették alá. Itt megtanulták a később helyesnek értékelt viselkedések végrehajtását. A helyes viselkedések előtréningje mellett a hollókísérlet a kihalási tréninget is tartalmazta. A kihalási tréning során a hollók megtanulhatták, hogy a nem funkcionális tárgyak nem eredményeznek jutalmat. Mindkét vizsgálatban a helyes és helytelen választások pontozásához használt kulcsfontosságú események a kényszerválasztásos tesztek voltak. Itt az állatokat arra kényszerítették, hogy válasszanak egy olyan tárgy közül, amelyről korábban megtanulták, hogy jutalmat eredményezhet, szemben más tárgyakkal, amelyekkel később nem lehetett jutalmazni (disztraktor tárgyak). A hollók a kihalási tréning során megtanulták, hogy ezek a figyelemelterelő tárgyak nem eredményezhetnek jutalmat. A kényszerválasztás után mindkét vizsgálatban volt egy bizonyos időbeli késleltetés, amely után az állatoknak megengedték, hogy a korábban választott tárgyat használva hajtsanak végre egy viselkedést. Ha egy állat a késleltetés előtt helyesen választott, később a választott tárgyat használhatta a jutalom megszerzéséhez. Ha egy állat a késleltetés előtt helytelenül választott, akkor a késleltetés után nem volt lehetősége jutalmazó viselkedésre.

A végzett szimulációk a vizsgálatok előtréning fázisát és tesztfázisát követték. Az összehasonlításokat a két vizsgálat által meghatározott helyes választások véletlenszerű szintjeivel végeztük. Mulcahy & Call azt várta, hogy a majmok az esetek 25%-ában véletlenszerűen a helyeset válasszák (egy funkcionális tárgy és három disztraktor tárgy). Kabadayi & Osvath azt várta, hogy a hollók véletlenszerűen 25%-ban helyesen választanak az 1. és 2. kísérletben, és 20%-ban helyesen a 3. és 4. kísérletben (egy funkcionális tárgy és három disztraktor tárgy az 1. és 2. kísérletben, és 1 funkcionális tárgy, 1 kis jutalom és három disztraktor tárgy a 3. és 4. kísérletben). A pontos leírásokat lásd a szimulációs szkriptekben (lásd az elektronikus kiegészítő anyagot). A szimulációk könnyebb követhetősége érdekében itt találhatók a két vizsgálat részletes leírásai.

2.3. Mulcahy és Call emberszabású majmokon végzett vizsgálatának leírása

Ezeket a vizsgálatokat orangutánokon és bonobókon végezték . A vizsgálat előképzéssel kezdődött. Itt egy állatot egy vizsgálóhelyiségben helyeztek el, és két különböző szerszámos feladatra képezték ki, hogy jutalmat kapjon egy készülékből. Ezeket a funkcionális eszközöket a továbbiakban funkcionális tárgyaknak nevezzük. Az egyik feladat egy cső kiválasztása és ennek a csőnek a behelyezése egy készülékbe volt. A másik feladat az volt, hogy válasszon egy kampót, és ezzel érjen el egy olyan palackot, amelyet a kampó nélkül nem tudott elérni. Az előképzést követően az állatot egy kényszerválasztási tesztnek vetették alá a funkcionális tárgyak és három megfelelő nem funkcionális tárgy (a későbbiekben disztraktor tárgyak) között. E kényszerválasztás során azonban a jutalmat tartalmazó készülékhez való hozzáférést blokkolták. A választás után az állatot a vizsgálóhelyiségből egy váróterembe vezették. Az állat által el nem fogadott tárgyakat most kiürítették a vizsgálóhelyiségből. Ezen a ponton késleltetés következett. A késleltetés után az állatot ismét beengedték a vizsgálati helyiségbe, és hozzáférést biztosítottak a készülékhez. Ha a kényszerválasztásos tesztben egy funkcionális tárgyat választottak, az állat most már használhatta a tárgyat a jutalom megszerzéséhez, így mutatva az előtanítás során megtanult viselkedést.

Ez a vizsgálat négy, egymástól némileg eltérő tesztet tartalmazott. A tesztek aszerint változtak, hogy milyen eszköz volt a funkcionális tárgy és a késleltetések időtartama. Ezenkívül az utolsó tesztben az állatoknak nem kellett használniuk az eszközt ahhoz, hogy jutalmat kapjanak. Megjegyzendő, hogy itt, a 4. kísérletben két új egyedet használtunk, amelyek nem vettek részt az 1., 2. és 3. kísérletben. Ez utóbbi résznek itt nem volt nagy jelentősége az eredmények részben említett okok miatt. A szimulációk a vizsgálat logikáját követték, és itt vannak a szimulációban használt kulcsfontosságú események és késleltetések részletei:

  • Előkiképzés: A tesztek előtt minden alany megtanulta a funkcionális eszközök használatát. Két lépésben, legalább három plusz nyolc előtréningpróbát végeztek a csöves feladathoz, és legalább öt előtréningpróbát a kampós feladathoz.

  • 1. kísérlet, csöves feltétel: (1) Kényszerített választás funkcionális cső és disztraktor tárgyakkal (16 próba). (2) A választás után menjünk át egy másik szobába. (3) Várakozás 1 óra. (4) Visszatérés, és ha a funkcionális csövet választották, ezzel lehetett jutalmat kapni.

  • 2. kísérlet, cső feltétel: (1) Kényszerített választás funkcionális csővel és disztraktor tárgyakkal (12 kísérlet). (2) A választás után menjünk át egy másik szobába. (3) Várakozás 14 óra. (4) Visszatérés, és ha a funkcionális csövet választották, ezzel lehetett jutalmat kapni.

  • 3. kísérlet, kampós feltétel: (1) Kényszerített választás funkcionális horoggal és disztraktor tárgyakkal (16 kísérlet). (2) A választás után menjünk át egy másik szobába. (3) Várakozás 1 óra. (4) Visszatérés, és ha a funkcionális kampót választották, ezzel lehetett jutalmat kapni.

  • 4. kísérlet, kampós feltétel: (1) Kényszerített választás funkcionális horoggal és disztraktor tárgyakkal (16 kísérlet). (2) A választás után menjünk át egy másik szobába. (3) Várakozás 1 óra. (4) Visszatérés, és ha a funkcionális kampót választották, jutalmat kaptak a kampó használata nélkül.

A megtanulandó viselkedéssorozatok a következők voltak:

  • cső feltétel: Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Hook condition: Shook → Btake horog → Sapparatus → Buse horog → Sreward

A majmok mindkét feltételben soha nem kaptak jutalmat a figyelemelterelő tárgyak kiválasztásáért, vagy:

  • Distractorok: Sdistractor → Btake distractor → Sno jutalom

2.4. Kabadayi & Osvath hollókon végzett vizsgálatának leírása

Ezeket a vizsgálatokat hollókkal végezték . Ez a vizsgálat előképzéssel kezdődött. Itt egy állatot egy vizsgálóhelyiségben helyeztek el, és két különböző szerszámos feladatra képezték ki, hogy jutalmat kapjon egy készülékből. A fentiekhez hasonlóan a funkcionális eszközöket funkcionális tárgyaknak nevezzük. Az egyik feladat az volt, hogy egy követ tegyenek egy készülékbe, hogy jutalmat kapjanak. A másik feladat az volt, hogy egy palackkupakot (az úgynevezett tokent) vegyenek és adják oda egy embernek. A majmokon végzett vizsgálattal ellentétben a tesztek megkezdése előtt a hollóknak kihalási kísérleteket is engedélyeztek. Itt az állatnak megengedték, hogy interakcióba lépjen azokkal a tárgyakkal, amelyek a kényszerválasztásos tesztek során jelen lesznek, de amelyekkel soha nem lehetett jutalmat szerezni (a későbbiekben disztraktor tárgyaknak nevezték őket). Az előtréning után az állatot kényszerválasztási tesztnek vetették alá egy funkcionális tárgy és három disztraktor tárgy között. A választás után az állat egy ideig nem használhatta a funkcionális tárgyat. Más szóval, közvetlenül a választási teszt után nem lehetett jutalmat gyűjteni (a 4. kísérlet kivételével). Ezen a ponton késleltetésre került sor. A késleltetés után az állat használhatta a választott tárgyat. Ha a kényszerválasztási tesztben egy funkcionális tárgyat választottak, az állat most ezt a tárgyat használhatta a jutalom megszerzéséhez, és ezzel az előtanítás során megtanult viselkedést mutatta.

Ez a vizsgálat négy, némileg eltérő tesztet is tartalmazott. A tesztek a próbák száma, a késleltetések időtartama tekintetében változtak, és az utolsó tesztben az állatoknak nem kellett várniuk, mielőtt egy funkcionális tárgyat használtak volna a jutalom megszerzéséhez. Meg kell jegyezni, hogy ebben a vizsgálatban két különböző jutalmat használtak. Egy magas értékű jutalmat használtunk az előtréningben és minden kísérletben. A 3. és 4. kísérletben pedig egy ismert, kis értékű jutalmat használtunk a kényszerválasztási helyzetben a funkcionális eszköz és a figyelemelterelő tárgyak mellett. Megjegyezzük, hogy a kísérleteket nem ugyanabban a sorrendben végeztük el, mint ahogyan a közzétett tanulmányban számozva vannak. Úgy döntöttem, hogy a kísérleteket abban az időbeli sorrendben mutatom be, ahogyan azokat elvégeztük (1,3,2,4). A szimulációk a tanulmány logikáját követték, és íme a szimulációban használt kulcsesemények részletei: A kísérletek előtti és alatti kulcsesemények a következők voltak:

  • Előkiképzés: A tesztek előtt minden alany megtanulta a funkcionális eszközök használatát. Két lépésben, legalább három plusz öt előtréningpróbát engedélyeztek az eszközfeladathoz, és 35 előtréningpróbát a tokenfeladathoz.

  • Extréningpróbák: Ebben a fázisban a kísérleti személyek 5 percig manipulálhatták a zavaró tárgyakat anélkül, hogy jutalmat kaptak volna.

  • 1. kísérlet: (1) Kényszerített választás funkcionális tárggyal és zavaró tárgyakkal. 14 próba az eszköz-kondícióban és 12 × 3 próba a token-kondícióban. (2) Várakozás 15 percig. (3) A kiválasztott tárgyat újra lehetett használni, és ha a követ vagy a tokent választották, akkor azzal jutalmat lehetett kapni.

  • 3. kísérlet: (1) Kényszerített választás funkcionális tárggyal, kis jutalommal és disztraktor tárgyakkal. 14 kísérlet az eszköz-kondícióban és 14 kísérlet a token-kondícióban. (2) Várakozás 15 percig. (3) A kiválasztott tárgyat újra lehetett használni, és ha a követ vagy a tokent választották, akkor azzal lehetett jutalmat kapni.

  • 2. kísérlet: (1) Kényszerített választás funkcionális tárggyal és disztraktor tárgyakkal. 6 kísérlet az eszköz-kondícióban és 6 kísérlet a token-kondícióban. (2) Várakozás 17 óra. (3) A kiválasztott tárgyat újra lehetett használni, és ha a követ vagy a tokent választották, akkor azzal lehetett jutalmat kapni.

  • 4. kísérlet: (1) Kényszerített választás funkcionális tárggyal, kis jutalommal és disztraktor tárgyakkal. 14 kísérlet az eszköz-kondícióban és 14 kísérlet a token-kondícióban. (2). Ha a követ vagy a tokent választották, azzal jutalmat lehetett kapni.

A megtanulandó viselkedéssorozatok a következők voltak:

  • Szerszámos feltétel: Széklet → Btake tool → Sapparatus → Buse tool → Sreward

  • Token feltétel: Stoken → Btake token → Shuman → Bgive token → Sreward

A hollóknak egy kihalási fázisban azt is megtanították, hogy soha nem volt jutalom a disztraktor tárgyak kiválasztása vagy használata. Ez az összes teszt során is így volt, illetve:

  • Distractorok: Sdistractor → Btake distractor → Sno jutalom

A vizsgálat önkontroll fázisaiban a hollóknak lehetőségük volt egy kis jutalom kiválasztására, amelyet a funkcionális tárgy (eszköz vagy token) és a distractor tárgyak mellett mutattak be. Ezért a 3. és 4. kísérletben ezek a viselkedéssorozatok is lehetségesek voltak:

  • Szerszámos feltétel: Sdog kibble → Btake small reward → Ssmall reward

  • Token feltétel: Sdog kibble → Btake small reward → Ssmall reward

2.5. A memóriafrissítések szemléltetése az előképzés során

Azért, hogy szemléltessük, hogyan befolyásolja ezeket a viselkedéssorozatokat a tanulás, itt egy példa a memóriafrissítésekre az előképzés során a holló tanulmányban. Az előtréning során kialakult viselkedéssorozat a következőképpen írható le: Stool → Btake tool → Sapparatus → Buse tool → Sreward, ahol a kőnek a készülékbe való behelyezésének értéke nőtt, így vSapparatus → Buse tool≫0. Mivel a modell feltételes megerősítést is tartalmaz, magának a kőnek az értéke a következő inger, a nagy jutalom értéke szerint frissül. Ismételt tapasztalatok esetén a Sjutalom ingerértéke (w) a széklet ingerértékének növekedését fogja okozni. Amint a modell leírásunkból kiderül , elegendő tapasztalattal a szerszám értéke megközelíti a nagy jutalom értékét. Ezzel szemben a három disztraktor objektummal kapcsolatos ismételt, jutalom nélküli tapasztalatokkal járó kihalási próbák a következőképpen írhatók le: Sdistractor → Bpick distractor → Sno jutalom. Ez az eseménysorozat a disztraktor kiválasztásának vSdistractor → Bpick distractor asszociatív erősségének és a disztraktor kondicionált megerősítési értékének (wdistractor) csökkenését okozza. Amikor az első teszt a kényszerválasztással kezdődik, a hollók viselkedését mind a kővel, mind a disztraktorokkal való előzetes tréning befolyásolta.

2.6. Szimulációs részletek

A fenti modellt egy Python programba építettük be, ahol a tanulás a két vizsgálat részletes eljárásai szerint történt, a fentiekben meghatározottak szerint, hogy becsléseket kapjunk a különböző ingerek választásának valószínűségeire, valamint a v- és w-értékekre a vizsgálatok során. Kétféle szimulációt futtattunk. Először szimulációkat futtattunk a teljes modellel, majd szimulációkat az ingerértékek (w) nélkül, vagyis csak az inger-válasz tanulásnak a mi változatunkat engedélyezve, amely csak a (2.1) egyenlet első sorát használja a döntéshozatallal együtt ((2.2) egyenlet). Ezt azért tettük, hogy feltárjuk a különbségeket a kondicionált megerősítést tartalmazó modellünk és az inger-válasz tanulás csak egy változata között. Az inger-válasz tanulásnak ez a változata megegyezik a klasszikus Rescorla-Wagner tanulási szabállyal, de mi azt nem pavlovi, hanem instrumentális környezetben vettük figyelembe.

A késleltetések figyelembevétele érdekében a késleltetések idején percenként egy időlépés szerepelt a szimulációban. Ezekben az időlépésekben csak egy háttér inger volt tapasztalható. Ez az emlékezetfrissítés szempontjából nem túl fontos, mivel mind az inger-reakció, mind az ingerérték-emlékezet hosszú távú emlékezet. Azt, hogy az állatok nagyon hosszú ideig emlékeznek az inger-válasz asszociációkra és az ingerértékekre, egyik szimulációs vizsgálatban sem említették .

Az összes szimulációban ugyanazokat a tanulási paramétereket használták. Minden viselkedés v = 1 kezdeti inger-reakció értékkel indult, mind a v-, mind a w-értékeket α = 0,2 tanulási rátával frissítettük, a felfedezést β = 1-re, a jutalmakat pedig u = 6-ra állítottuk, kivéve a Kabadayi & Osvath 3. és 4. kísérletében szereplő alacsony értékű jutalmakat, amelyeket u = 2-re állítottunk. A viselkedés költsége minden viselkedés esetében 0,1 volt, kivéve a passzív válaszokat, amelyeket 0-ra állítottunk be (lásd a szimulációkban szereplő összes viselkedésre és ingerelemre vonatkozó információkat az elektronikus kiegészítő anyagban). Minden szimulációt 500 alanyra futtattunk le, és a próbák száma megközelítőleg megegyezett a kísérletekével. Az, hogy a próbák száma nem felelt meg tökéletesen az empirikus vizsgálatoknak, a döntési egyenlet valószínűségi jellegének köszönhető. Az állatok kezdeti értékeire vonatkozó információk hiánya megnehezíti a pontos kvantitatív összehasonlítást.

Noha mind a hollók, mind a majmok gazdag háttérrel rendelkeztek, a korábban tanult viselkedést figyelmen kívül hagytuk, és a kezdeti értékeket azonosnak feltételeztük a figyelemelterelő és a funkcionális tárgyak esetében. A konzervativitás érdekében a szimulációk kezdetén a viselkedések és az ingerek közötti összes asszociatív erősséget egyenlőnek feltételeztük. Kabadayi & Osvath nem kalibrálta a hollók preferenciáit a két különböző táplálékjutalom értékét illetően, így nincs kvantitatív információ a rendelkezésre álló jutalmak közötti különbségekről. A módszerben megállapították, hogy a magas minőségű táplálékjutalom nagyobb és vonzóbb is volt. A kioltás mennyiségére vonatkozó pontos információk hiányoztak a hollókísérletből, ezért azt feltételezték, hogy a hollóknak öt kioltási élményük volt a zavaró tényezőkkel.

A szimulációkban használt viselkedések és ingerelemek a következők voltak:

2.6.1. A szimulációkban használt viselkedések és ingerelemek a következők voltak:

2.6.1. A szimulációkban használt viselkedések és ingerelemek a következők voltak. Viselkedések
  • Mulcahy & Hívócső: fogd a csövet, használd a csövet, fogd a disztraktort, légy passzív

  • Mulcahy & Hívóhorog: fogd a kampót, használd a kampót, fogd a disztraktort, légy passzív

  • Kabadayi & Osvath eszköz: Szerszámot venni, szerszámot használni, figyelemelterelőt venni, passzívnak lenni, kis jutalmat venni

  • Kabadayi & Osvath Token: tokent venni, tokent használni, figyelemelterelőt venni, passzívnak lenni, kis jutalmat venni

2.6.2. Stimulus elemek
  • Mulcahy & Hívócső: háttér, cső, cső feladat, disztraktor, jutalom

  • Mulcahy & Hívóhorog: háttér, horog, horog feladat, disztraktor, jutalom

  • Kabadayi & Osvath eszköz: háttér, szerszám, eszköz, figyelemelterelő, jutalom, kis jutalom

  • Kabadayi & Osvath Token: háttér, token, ember, figyelemelterelő, jutalom, kis jutalom

2.7. Az empirikus tanulmányok adatai

A szimulációs eredmények és a két tanulmány empirikus adatainak összehasonlításához , a két vonatkozó tanulmányban rendelkezésre álló adatokból átlagokat számoltunk (lásd az eredmények között található ábrákat). Ez a helyes és helytelen választások átlagos arányát eredményezte a kényszerválasztásos tesztekben. Megjegyzendő, hogy a majomvizsgálat 4. kísérlete nem tartalmazott helyes viselkedést az eszköz használatával, amikor a késleltetés után visszatértek a készülékhez, így ez a kísérlet nehezen értelmezhető. Ráadásul a 4. kísérletre vonatkozó választási adatok nem álltak rendelkezésre a szövegben, ezért az adott adatpontra a következő adatokat használtuk. Nem szerencsés az adatokat így keverni, de ezt választottam a 4. kísérlet adatainak elhagyása érdekében.

Eredmények

A szimulációk összességében megfeleltek mind a holló, mind a nagymajom vizsgálat eredményeinek. A szimulációk azt mutatják, hogy két tényező együttesen hogyan járulhat hozzá az emberszabású majmok és a hollók jövőre irányuló viselkedéséhez. Először is, a funkcionális tárgyak kondicionált megerősítési értékei, amelyeket az előzetes tréning és a kihalás révén alakítottak ki, képesek voltak a kezdeti helyes választásokat irányítani. Ezt mutatja az 1. ábra, ahol a helyes választások aránya látható. Másodszor, a helyes választásokat a vizsgálatok során mindvégig jutalmazták, kivéve a majomkísérlet 4. kísérletét. Az, hogy a funkcionális tárgyak használata mindvégig jutalmazott volt, elegendő volt ahhoz, hogy a teljesítmény jóval a véletlen szint felett legyen (1. ábra). A hollókísérletben a kísérlet során adott jutalmak jól magyarázzák a közel tökéletes teljesítményt a kísérlet két utolsó részében.

1. ábra. Az empirikus (pontok) és szimulációs (vonalak) adatok eredményei, amelyek a funkcionális tárgyakra adott helyes válaszok arányát, valamint a hollókísérlet esetében a kis jutalmakra adott válaszok szimulált arányát mutatják (szaggatott vonalak). Bonobók és orangutánok a felső panelben, hollók az alsó panelben. A majmok esetében a cső választása volt helyes az 1. és 2. kísérletben (bal oldali vonal), a kampó választása pedig a 3. és 4. kísérletben (jobb oldali vonal). Megjegyzendő, hogy a felső panel X-tengelye megtört, mivel a 4. kísérletet új egyedekkel végeztük, amelyek a kísérletet megelőzően csak előtréninget végeztek. A hollók esetében a kísérlet első felében a helyes választás a szerszám volt (bal oldali vonal). A kísérlet második részében a helyes választás egy zseton volt (jobb oldali vonal). A vízszintes vonalak a helyes választások várható véletlenszerűségét jelzik a tesztfázisok során (azaz a cső, a horog, a szerszám, illetve a zseton). Az empirikus adatok a két vizsgálatban az egyes fázisok végén kapott adatok átlagai. A bonobo és holló grafikákat az openclipart.org-ról töltöttük le.

Az empirikus tesztek (az 1. ábrán kitöltött körökként láthatóak) és a szimulációk között jó volt az illeszkedés, mivel a funkcionális tárgyakat nagyobb valószínűséggel választották, mint a zavaró tárgyakat. A szimulációk is követték az általános tendenciákat abban, hogy a teljesítmény az 1. és 2. kísérlet során nőtt a nagymajom vizsgálatban, a 3. kísérletben pedig csökkent. Bár a szimulációk alulbecsülték a teljesítményt a hollókísérlet eszközfeltételében, a szimulációk szorosan követték azt a mintát, hogy a teljesítmény az 1. kísérletben magas volt, a 3. kísérletben csökkent, hogy a 4. kísérletben majdnem tökéletes teljesítményt érjen el. A szimuláció alacsonyabb sikerességi arányának egyik oka a szerszámos feltételben az lehet, hogy a hollók jól képzettek voltak, és gazdag háttérrel rendelkeztek, ami a vizsgálati helyzetekben hasznos. Ezeket a madarakat emberek nevelték fel, és rendszeresen érintkeznek emberekkel. Emellett számos különböző tárgyat, kísérleti elrendezést és jutalmat ismernek. Ezzel szemben a szimulációk előzetes ismeretek nélkül indultak. A szimulációk és az empirikus adatok között szoros egyezés volt a token feltétel esetében, de a 3. kísérlet során a teljesítmény csökkenése nagyobb volt az empirikus adatoknál.

A szimulációk azt is rögzítették, hogy a nagymajmok összességében alacsonyabb sikerességi arányt mutattak, mint a hollók. Legalább két tényező járulhatott hozzá ehhez a különbséghez. A majmok kevesebb előzetes tréninget tapasztaltak, mint a hollók, és a hollókkal ellentétben a majmok a tesztelés előtt nem kaptak extinkciós tréninget a disztraktor tárgyakkal. Ezt mutatja az 1. ábra, ahol a helyes tárgy kiválasztásának valószínűsége sokkal nagyobb az 1. kísérlet kezdetén a holló vizsgálatban, mint a majom vizsgálatban. Az, hogy a sok előzetes gyakorló próbálkozás (35 a jelképes állapotban) a kioltási próbálkozásokkal kombinálva magas teljesítményt eredményezhet a kényszerített választásokban, a legvilágosabban a hollókísérlet jelképes állapotában mutatkozik meg. Itt a szimuláció szorosan követte a megfigyelt magas sikerességi arányt.

Az előtréning és az extinkciós tréning nem csak a helyes döntések valószínűségét befolyásolta. A szimulációkból kiderül, hogy az előtréning és az extinkció a helytelen tárgyak, például a kis jutalmak választásának arányát is befolyásolja (1. ábra). Az előtréning és az extinkció hatása a leghangsúlyosabb volt a hollókísérlet token feltételében, ahol a szimuláció azt sugallja, hogy annak valószínűsége, hogy a hollók a kis jutalmakat választják a funkcionális tárgyak helyett, közel volt a nullához. A funkcionális tárgyakkal (eszköz és token) kapcsolatos nagy mennyiségű jutalmazó tapasztalat nagy kondicionált megerősítési értékeket eredményezett ezekre a tárgyakra vonatkozóan (2. ábra). A szimulációk megerősítették azt a mintát, hogy a hollók nem a kis jutalmakat választották a funkcionális tárgyak helyett, és hogy az önkontroll várhatóan az asszociatív tanulásból alakul ki.

2. ábra. A szimulációk eredményei, amelyek lehetővé teszik a kondicionált megerősítést (ingerértékeket) tartalmazó tanulási modellünk kimeneteinek összehasonlítását a Rescorla-Wagner (R-W) modell instrumentális változatával . A holló tanulmány szimulációi a bal oldalon, a majom tanulmány szimulációi pedig a jobb oldalon találhatók. A felső panelek a memóriafrissítéseket mutatják: v inger-válasz asszociációk a funkcionális tárgyakkal szembeni viselkedésekhez, és ezen tárgyak w ingerértékei. Mivel a funkcionális tárgyak önmagukban nem jutalmaznak, a szimulációk azt mutatják, hogy a funkcionális tárgyak kiválasztására vonatkozó inger-válasz asszociációk nem fognak kialakulni az egyszerűbb tanulási modellel (R-W). Az alsó panelek pedig azt mutatják, hogy az inger-reakció tanulási modell (R-W) nem tudja reprodukálni a két vizsgálatban megfigyelt viselkedésmintákat, ami szöges ellentétben áll a mi tanulási modellünkkel, amely lehetővé teszi a kondicionált megerősítést. A kísérleti fázisok ugyanazok, mint az 1. ábrán, de itt a fázisok az áttekinthetőség kedvéért nincsenek feltüntetve. Megjegyezzük, hogy a jobb oldali panelek X-tengelyei megszakadtak, mivel a 4. kísérletet új egyedekkel végeztük, amelyek a kísérletet megelőzően csak előtréninget végeztek. A holló- és majomgrafikákat az openclipart.org oldalról töltöttük le.

Az inger-válasz értékek és az ingerértékek növekedése a 2. ábra felső paneljében látható.

Megjegyezzük, hogy a 4. kísérlet a nagymajom vizsgálatban a legkevésbé egyezik a szimulációkkal. Itt két új majom kaphatta meg a jutalmat anélkül, hogy a korábban működő eszközt használta volna, és 16-ból 2 alkalommal tértek vissza helyes eszközzel, ami alacsonyabb, mint a szimulációban. Ezt az empirikus teszt és a szimuláció közötti különbséget a viselkedés költségének növelésével lehetne csökkenteni. Egy olyan viselkedés költségének növelése, amely nem vezet jutalomhoz, a viselkedés végrehajtásának csökkenéséhez vezet. Nem világos azonban, hogy mit várhatunk az állatoktól ebben a helyzetben, amikor a majmok olyan szituációval szembesülnek, amelyben kevésbé egyértelmű a kapcsolat az eszköz és a jutalom között. A négy majom közül kettő pedig meg sem próbálta megoldani a problémát. Összefoglalva, nehéz megítélni ennek az adatpontnak a pontosságát és jelentőségét (lásd ).

A szimulációk a különböző komplexitású asszociatív tanulási modellek közötti különbségeket is megmutatják. Az inger-reakció tanulás változatunk korlátai nyilvánvalóvá válnak, ha összehasonlítjuk a pavlovi és az instrumentális tanulást is magában foglaló tanulási modellünket használó szimulációkkal . Az inger-válasz tanulásban önmagában olyan viselkedéssorozatokat nem lehet megtanulni, ahol a viselkedést nem követi azonnal jutalom (2. ábra). A viselkedéssorozatok kialakulásához a jutalom előtt egynél több lépéssel bekövetkező ingereknek kondicionált megerősítés révén jutalmazóvá kell válniuk. Ha egy korábban semleges inger pozitív w-értéket kap, azaz jutalmazóvá válik, az pozitív v-értékek megszerzéséhez vezethet olyan viselkedések esetében, amelyek nem eredményeznek azonnali jutalmat (2. ábra felső panel). Ha összehasonlítjuk a viselkedéssorozatokat tanulni képes modellünket a Rescorla-Wagner-modell instrumentális változatával, világosan látszik, hogy a helyes inger kiválasztásának valószínűsége nem nő, ha csak az inger-válasz tanulás engedélyezett (2. ábra). Ráadásul, mivel az inger-válasz tanulásban a v-értékeket csak az azonnali megerősítő frissíti, ez azzal a következménnyel is jár, hogy a kis jutalom a token és az eszköz javára fog választani, mivel a token és az eszköz nem válhat értékes ingerré. Ezt mutatja a 2. ábra, mivel a kis jutalom helytelen választása növekszik a próbák során, amikor az inger-válasz tanulásnak csak a mi változatunk engedélyezett (a 2. ábrán R-W-vel jelölve). Az inger-válasz tanulás önmagában nem tudta megmagyarázni az eredményeket sem a holló, sem a majom vizsgálatban.

Diszkusszió

A hollókon és az emberszabású majmokon végzett két tervezési vizsgálat szimulációi arra utalnak, hogy a korábban rugalmas tervezésnek vélt viselkedést asszociatív tanulással is meg lehet magyarázni. Amint azt a mesterséges intelligencia kutatások és az állati viselkedéskutatás kimutatta, ezek az asszociatív tanulási modellek nagy teljesítményűek a rugalmas viselkedéssorozatok generálásában . Ezért a hollók és az emberszabású majmok vizsgálatában levont következtetés, miszerint a hollók és a majmok ezeket a problémákat egy speciális rugalmas mechanizmussal oldják meg, kevéssé alátámasztott. Az itt elvégzett szimulációk alátámasztják azokat a kritikusokat, akik ezeket az eredményeket az asszociatív tanulás következményeiként értelmezték. Ha a jövőbeni tanulmányok célja az asszociatív folyamatok megkülönböztetése másfajta mentális mechanizmusoktól, akkor előnyös lenne a jobb kísérleti tervezés, beleértve a megfelelő kontrollokat, kihasználva a legmodernebb tanulási modelleket.

Érdekes volt megjegyezni, hogy a szimulációk megragadták a hollókon és az emberszabású majmokon végzett tanulmányok közötti különbséget . Ez arra utal, hogy a szimulációk jól megragadták az előképzés-, a kihalási fázisok és a jutalmak hatásait a vizsgálatok során. Az első tesztek előtt magas kondicionált megerősítési értékeket (w-értékek) állapítottak meg a helyes tárgyak (szerszám és zseton) és alacsony értékeket a figyelemelterelő tárgyak esetében (2. ábra). Ez különösen nyilvánvaló volt a hollókísérlet token-részében, ahol a hollók 35 előzetes tréningpróbán estek át, ahol a Stoken → Btake token → Shuman → Bgive token → Sreward viselkedéssorozatot következetesen jutalmazták (alsó panel, 1. ábra).

A holló- és majomkísérletek pozitív eredményeinek másik fontos tényezője az volt, hogy a helyes tárgyak kiválasztását a kísérletek során végig jutalmazták. Ez fenntartotta a helyes viselkedések, illetve a helyes tárgyak magas v- és w-értékeit. Ez magyarázza azt is, hogy a hollók miért hanyagolták el a kis jutalmat, amikor a funkcionális tárgyakkal együtt mutatták be őket (1. ábra). A funkcionális tárgyak a vizsgálat során ismételten jutalomhoz vezettek, így magas ingerértékeket szereztek. Amíg ezek az értékek magasabbak, mint a kis jutalom értéke, addig a legtöbbször ezeket a funkcionális tárgyakat fogják választani. Azonban a csak inger-válasz tanulással – amely csak a v-értékek frissítését teszi lehetővé, mint a Rescorla-Wagner-modellben – a kis jutalmat fogják választani, mert ebben a modellben nincs kondicionált megerősítés (2. ábra). Ha el akarjuk kerülni a tesztek során történő tanulást, akkor előnyökkel jár a tesztek kihalással történő elvégzése, mint például az eredmény újraértékelési vizsgálatokban (pl. ). Ily módon a tesztek feltárhatják a korábbi kísérleti manipulációk következményeit.

Az eredmények alátámasztják azt az elképzelést, hogy az önkontroll asszociatív tanulás révén alakult ki. Korábban megmutattuk, hogy az állatok az asszociatív tanulás révén hogyan képesek önkontrollt szerezni, ha elegendő információt és tapasztalatot kapnak . Kabadayi & Osvath nem definiálta az önkontrollt, de egy korábbi tanulmányukban úgy határozták meg, mint ” az azonnali késztetések elnyomása a késleltetett jutalmak javára”. Az önkontrollnak ez a funkcionális szemlélete az állati viselkedési irodalomban található számos viselkedésleíráshoz illeszkedik. Megfigyelések arra vonatkozóan, hogy az állatok megtanulják visszautasítani a kis jutalmakat, amikor nagy jutalomra számítanak, vagy más szóval visszautasítják a veszteséges zsákmányt, amikor nyereséges zsákmány van bőségesen, például halak (kékcsőrű naphal Lepomis macrochirus, ), rákok (parti rákok, Carcinus maenas, , és madarak (nagymellű cickányok Parus major, és vörösbegyek Tringa totanus, ) esetében. Az ilyen jellegű vizsgálatokat nagymértékben figyelmen kívül hagyták azokban a tanulmányokban, amelyekben az önkontrollt gyakran különálló mentális mechanizmusként, és nem a tanulás tárgyát képező dologként vizsgálják (pl. ). Ehelyett, e szimulációk fényében, az állati megismerés kutatásán belül az önkontrollról szóló korábbi tanulmányokat (mint pl. ) leginkább úgy lehet értelmezni, hogy azt a tanulás okozza, beleértve a kondicionált megerősítést is .

Az önkontroll elméletileg többféleképpen is kialakulhat. Az önkontroll kialakulhat a funkcionális tárgyak magas kondicionált megerősítési értékeinek megszerzésével. A funkcionális tárgy értékesebbé válik, mint egy kis jutalom. De az önkontroll akkor is kialakulhat, ha például a “várakozást” önálló viselkedésnek tekintjük. Ebben az esetben az önkontroll a “várakozás” megnövekedett v-értéke révén alakulhat ki egy adott inger jelenlétében. A vadászó macskáknál az önkontroll a várakozás magas v-értékei révén alakulhat ki, ha a zsákmány messze van. További kutatásokra van szükség annak jobb megértéséhez, hogy a tanulási mechanizmusok különböző aspektusai hogyan hatnak egymásra az önkontroll mintázatainak kialakulásához. A genetikai hajlam valószínűleg nagy szerepet játszik, és kölcsönhatásba lép az inger-válasz asszociációkkal és az ingerértékekkel.”

Egy másik fontos eredmény, hogy a hollók teljesítménye közötti különbséget a 3. és a 4. kísérletben a szimulációkkal sikerült megragadni. A 4. kísérletben a tökéletes teljesítmény oka mind a hollókísérletben, mind a szimulációban az volt, hogy a választás és a jutalmat eredményező viselkedés közötti késleltetést kihagyták. Ehelyett közvetlenül a kényszerű választás után volt lehetőség a tárgy felhasználására a jutalom begyűjtésére. Emiatt minden kísérlet potenciálisan közvetlenül jutalomhoz vezetett, míg a 3. kísérletben a helyes tárgy kiválasztását csak a késleltetés után jutalmazták. Vagy más szóval, az 1-3. kísérletekben a hollók csak minden második alkalommal kaphattak jutalmat, amikor a helyes tárgyat választották, míg a 4. kísérletben minden alkalommal és közvetlenül a funkcionális tárgy kiválasztása és használata után kaptak jutalmat.

A tanulási modellünk és a mesterséges intelligencia egyes megerősítő tanulási modelljei között az egyik hasonlóság az, hogy ezek a mechanizmusok lehetővé teszik az ágensek és az állatok számára, hogy azonosítsák az értékes világállapotokat, és hogy ezekben az értékes állapotokban milyen viselkedések produktívak. Műveleti értelemben ezek a tanulási modellek tervezést generálnak, amikor egy ingerre (kő vagy zseton) irányuló viselkedés (készülékbe tenni vagy embernek adni) később nagy értékű táplálékot fog termelni. Ez annak ellenére történik, hogy az étel (vagy más jutalmazó inger) nincs jelen. Osvath & Kabadayi , a kritikusoknak adott válaszában , úgy definiálta a rugalmas tervezést, mint “a jelenlegi érzékelési körön kívüli jövőkre vonatkozó döntések meghozatalát olyan területeken, amelyekre nem vagyunk prediszponáltak”. Függetlenül attól, hogy a modellek a mesterséges intelligenciából vagy az állati viselkedésből származnak, ha a tanulási modellekben feltételes megerősítés szerepel, az inger-válasz értékek és az ingerértékek okos kölcsönhatása révén olyan tervezési viselkedések fognak kialakulni, amelyek megfelelnek ennek a definíciónak. A kulcs az, hogy a jelenleg rendelkezésre álló ingerek információt nyújthatnak arról, hogy milyen viselkedéseket kell végrehajtani a jövőbeli értékes állapotokba való belépéshez. Ezek a tanulási modellek azonban nem tudják mentálisan szimulálni a különböző kimeneteleket, nem tudnak mentálisan utazni az időben, és nem tudják az információt belsőleg átszervezni. Robertset parafrazálva , a nem emberi állatok “megrekedhetnek az időben”, miközben mégis tervező viselkedést mutatnak.

Mulcahy & Call a 4. kísérlet elvégzésével próbálta kizárni az instrumentális kondicionálást, mint a majmok viselkedésének magyarázatát. Ez a fázis hasonló volt a 3. kísérlethez, de a majmokat nem jutalmazták a funkcionális eszköz használatáért. Ahelyett, hogy egy majom belépett volna a szobába a funkcionális eszközzel, amellyel jutalmat lehetett volna kapni (mint a 3. kísérletben), egy majom belépett a szobába, és akkor talált jutalmat, ha a funkcionális eszközt a várószobából a vizsgálószobába vitte. Azzal érveltek, hogy ha a majmok a többi kísérletben jobban teljesítettek, mint ebben, az arra utal, hogy a majmok rugalmasan terveztek. Mulcahy & Call arra a következtetésre jutott, hogy eredményeik “a jövőbeli tervezés valódi esetét képviselik”. Az ördög ügyvédje különbséget tudott azonosítani a 3. és 4. kísérlet között, ami a tanulást valószínűbb magyarázattá teszi. A 3. kísérletben a majmokat kifejezetten jutalmazták az eszköz használatáért. Ez magas kondicionált megerősítési értéket eredményezett az eszközre, és magas inger-reakció értéket az eszköz használatára a készüléken. A 4. kísérletben azonban Mulcahy & Call rámutat arra, hogy hosszabb idő telt el az eszköz váróteremben való felvétele, az eszköznek a vizsgálóterembe való cipelése, hogy aztán az eszköz használata nélkül kapjanak jutalmat. Talán a 4. kísérletben az alacsony teljesítményt az eszköz és a jutalom közötti nem egyértelmű kapcsolat okozta, mivel a késleltetés gátolja az eszköz felvételének elsajátítását, hogy később jutalmat kapjon. A megfelelő kontrollkörülmények fontosak ahhoz, hogy a hipotéziseket egyértelműen el lehessen vetni (pl. a közelmúltbeli viták a ). Tanulási modellünk a jövőbeli kutatásokban felhasználható az ilyen, a tanulási feltételek variációja által okozott viselkedésbeli különbségek elemzésére.

A szimulációk azt mutatják, hogy a majom- és a holló-tanulmány az asszociatív tanuláson keresztül értelmezhető. A caching specialistákkal végzett kísérletek eredményei , amelyek valószínűleg genetikai specializációtól függnek , azonban jelenleg kívül esnek a tanulási modellünk hatókörén. A caching viselkedés és a táplálkozási viselkedés különböző motivációs állapotokat foglal magában az állatokban . A motivációs állapotok belső ingereknek tekinthetők, és könnyen integrálhatók egy asszociatív tanulási modellbe, ami nagyobb rugalmasságot eredményezne a táplálékszerzési és tárolási döntések meghozatalában. A mi modellünk jelenlegi állapotában nem tartalmazza a különböző motivációs állapotokat, de példákat adtunk arra, hogy a genetikai hajlamokat hogyan lehet integrálni a modellbe . Az egyik lehetséges megoldás a kontextusfüggőség bevezetése lenne, hogy a felfedezés különböző külső ingerek és/vagy különböző belső állapotok esetén eltérő legyen. Fontos, hogy amikor rugalmasabb mentális mechanizmusokra vonatkozó feltételezésekkel élünk, figyelembe kell venni a felfedezés magasabb költségeit, amelyek a megnövekedett rugalmasság miatt merülnek fel (lásd ). Arra számítunk, hogy az evolúció olyan genetikai hajlamokat finomított, amelyek az asszociatív tanulással együtt produktív és fajspecifikus viselkedéseket hoznak létre.

Egy másik fontos pont a jövőbeli vizsgálatok számára, hogy amikor az állatok tanulnak a viselkedés következményeiről, és az inger-reakció értékek és az ingerértékek frissülnek, ezek hosszú távú emlékek (pl. , lásd még ). Egy holló, amelyet arra képeztek ki, hogy zsetonokat adjon egy embernek, nem felejti el egyszerűen egy nappal később, hogyan kell ezt csinálni. Viselkedés szempontjából a hollókísérlet eszközfeltétele megegyezik azzal, amikor a kutyatulajdonosok megtanítják szőrös barátaikat “takarítani” azáltal, hogy játékokat tesznek egy erre kijelölt kosárba. Ahelyett, hogy a holló azért kapna jutalmat, ha egy követ tesz egy eszközbe, a kutya azért kap jutalmat, ha egy játékot tesz a kosárba. Az ilyen hosszú távú memóriák, amelyeket az asszociatív tanulás révén frissítenek, nagyon különböznek az önkényes ingerek rövid távú memóriájától .

Összefoglalva, az asszociatív tanulási modellek fejlesztése lenyűgöző a mesterséges intelligencia kutatásában, és a modellek hatékonynak bizonyultak az összetett viselkedés generálásában. Feltehetjük a kérdést, hogy miért nem alkalmazzák ezeket a nagy teljesítményű modelleket szélesebb körben a nem emberi állatok viselkedésére, és miért becsülik alá ezeket a modelleket a nem emberi állatok rugalmas viselkedésének okaként. Ez különösen fontos, mivel az állati kognícióval kapcsolatos kutatásokat, ahol a nem emberi állatokról azt állítják, hogy meglátásokkal rendelkeznek, ok-okozati érvelést mutatnak, és a tervet rendszeresen kritizálják, hogy gyenge módszertanon alapuló nagyszabású állításoktól szenvednek (pl. ). Az asszociatív tanulási paradoxon megoldásának egyik módja az AI, az állati tanulás és az állati megismerés területeinek integrálása. A viselkedést létrehozó mechanizmusok megértéséhez a formális, alulról felfelé irányuló asszociatív modellek valószínűleg tanulságosabbak, mint a verbális, felülről lefelé irányuló “magasabb rendű” kognitív modellek. Például azért, mert az utóbbi modelleket nehezebb elvetni, és nem lehet őket szimulációkban megvalósítani vagy robotok építésénél használni. Összefoglalva megállapítható, hogy nem zárható ki, hogy a rugalmas tervezés a majmoknál és a corvidáknál, és valószínűleg sok más fajnál is, asszociatív tanulással jön létre.

Adatok hozzáférhetősége

A szimulációk ábrái és adatai az elektronikus kiegészítő anyagban megadott szoftver és kód segítségével hozhatók létre.

A szerzők hozzájárulása

J.L. fogantatta a kutatást, elvégezte a számítógépes szimulációkat, elemezte az adatokat és megírta a kéziratot.

Kompetitív érdekek

Nincsenek konkurens érdekek.

Finanszírozás

Ezt a munkát a Knut és Alice Wallenberg Alapítvány támogatta, KAW 2015.005.

Köszönet

Köszönjük Markus Jonsson, Magnus Enquist, Anna Jon-And és Stefano Ghirlanda munkáját. Köszönet továbbá két névtelen bírálónak az értékes és éleslátó megjegyzésekért.

Lábjegyzetek

Az elektronikus kiegészítő anyagok online elérhetők a https://dx.doi.org/10.6084/m9.figshare.c.4302740 címen.

© 2018 The Authors.

Közzétette a Royal Society a Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/ feltételei szerint, amely lehetővé teszi a korlátlan felhasználást, feltéve, hogy az eredeti szerző és a forrás feltüntetésre kerül.

  • Mnih Vet al.2015.Emberi szintű irányítás mély megerősítő tanulással. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
  • Emery NJ, Clayton NS. 2004The mentality of crows: convergent evolution of intelligence in corvids and apes. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
  • Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontán proszociális választás csimpánzoknál. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
  • MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.132353333111) Crossref, PubMed, ISI, Google Scholar
  • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016How chimpanzees cooperate in a competitive world. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
  • Whiten A. 2017Social learning and culture in child and chimpanzee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
  • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
  • Tomasello M, Call J. 1997Primate cognition. Oxford, UK: Oxford University Press. Google Scholar
  • Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Insightful problem solving and creative tool modification by captive nontool-using rooks. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Reply to Lind et al.: belátás és tanulás. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
  • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Az Aesopus meséjének paradigmája az új-kaledóniai varjak vízkiszorítás okozati megértésének vizsgálatára. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
  • Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
  • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
  • Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees and bonobos differ in intrinsic motivation for tool use. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
  • Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimális behaviour. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
  • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, UK: Oxford University Press. Crossref, Google Scholar
  • Carew TJ, Sahley CL. 1986Invertebrate learning and memory: from behavior to molecules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
  • Bouton ME. 2007Tanulás és viselkedés: modern szintézis. Sinauer, MA: Sunderland. Google Scholar
  • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
  • Mulcahy NJ, Call J. 2006Apes save tools for future use. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
  • Naqshbandi M, Roberts WA. 2006A jövőbeli események előrejelzése mókusmajmokban (Saimiri sciureus) és patkányokban (Rattus norvegicus): a Bischof-Köhler-hipotézis tesztelése. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
  • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planning for the future by western scrub-jays. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
  • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobos and orangutans, but not chimpanzees, flexibly plan for the future in a token-exchange task. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
  • Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
  • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
  • Suddendorf T, Corballis MC. 2010Behavioural evidence for mental time travel in nonhuman animals. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2010Mental time travel in animals. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
  • Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Bulley A, Miloyan B. 2018Prospection and natural selection. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
  • Pearce JM. 2008Animal learning and cognition, 3. kiadás. Hove, UK: Psychology Press. Google Scholar
  • Shettleworth S. 2010Cognition, evolution, and behavior. Oxford, UK: Oxford University Press. Google Scholar
  • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
  • Eaton RL. 1970The predatory sequence, with emphasis on killing behavior and its ontogeny, in the cheetah (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
  • Kelleher RT, Gollub LR. 1962A pozitív kondicionált megerősítés áttekintése. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
  • Mackintosh NJ. 1974Az állati tanulás pszichológiája. London, UK: Academic Press. Google Scholar
  • Williams BA. 1994Kondicionált megerősítés: kísérleti és elméleti kérdések. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
  • McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Ausztrália: Darlington Press. Google Scholar
  • Rescorla RA, Wagner AR. 1972A pavlovi kondicionálás elmélete: a megerősítés és a nem-megerősítés hatékonyságának eltérései. In Klasszikus kondicionálás II: aktuális kutatások és elmélet (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
  • Blough DS. 1975Steady state adatok és az operáns generalizáció és diszkrimináció kvantitatív modellje. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
  • Sutton RS, Barto AG. 1998Reinforcement learning. Cambridge, MA: MIT Press. Google Scholar
  • Balleine B, Dickinson A. 1991Instrumentális teljesítmény a megerősítő devalválást követően az ösztönző tanulástól függ. Q. J. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
  • Dickinson A, Balleine B. 1994Motivational control of goal-directed action. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
  • Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
  • Werner EE, Hall DJ. 1974Optimal foraging and the size selection of prey by the bluegill sunfish (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
  • Elner RW, Hughes RN. 1978Energy maximization in the diet of the shore crab Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
  • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimal prey selection in the great tit (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
  • Goss-Custard JD. 1977Optimal foraging and the size selection of worms by redshank, Tringa totanus, in the field. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
  • Osvath M, Kabadayi C. 2018Contrary to the gospel, ravens do plan flexibly. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
  • Barto AJ. 2003A megerősítő tanulás. In Az agyelmélet és a neurális hálózatok kézikönyve (szerk. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
  • Roberts WA. 2002Are animals stuck in time?Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Lind J. 2017’Aesop’s fable’ experiments demonstrate trial-and-error learning in birds, but no causal understanding. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
  • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Meta-analitikus technikák azt mutatják, hogy a corvid ok-okozati gondolkodást az Aesopus mese paradigmában a próba és hiba tanulás vezérli. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
  • Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays anticipate future needs independent of their current motivational state. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2012Eurázsiai szajkók (Garrulus glandarius) legyőzik jelenlegi vágyaikat, hogy két különböző jövőbeli igényt előre jelezzenek, és megfelelően tervezzenek. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
  • Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
  • Skinner BF. 1950A tanulás elméletei szükségesek?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
  • Vaughan W, Greene SL. 1984Galambok vizuális memóriakapacitása. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
  • Gleitman H. 1971Forgetting of long-term memories in animals. In Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
  • Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwin hibája: az emberi és a nem emberi elme közötti diszkontinuitás magyarázata. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
  • Wynne C. 2008Aping Language: A nonhuman primate language bizonyítékainak szkeptikus elemzése. Skeptic 13, 10-15. Google Scholar
  • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
  • Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
  • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
  • Dymond S, Stewart I. 2016Relational and analogical reasoning in comparative cognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
  • Lindenfors P. 2017Bird brains: are crows as intelligent as some scientists claim?Skept. Mag. 22, 10-11. Google Scholar
  • Lind J, Enquist M. 2009Még több szintetikus munkára van szükség. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.