Co uczenie asocjacyjne może zrobić dla planowania?

Wprowadzenie

Ku zdumieniu świata, modele uczenia asocjacyjnego stosowane w badaniach nad sztuczną inteligencją (AI) osiągają obecnie umiejętności na poziomie ludzkim w grach wideo i pokonują ludzkich mistrzów w chińskiej grze planszowej Go, szachach i shogi . Pomimo faktu, że uczenie asocjacyjne w ramach badań nad sztuczną inteligencją jest uznawane za tworzenie zachowań podobnych do ludzkich, uczenie asocjacyjne jest często albo niewymieniane (np. ), albo postrzegane jako niepożądane lub o niewystarczającym stopniu zaawansowania (np. ), aby dostarczyć wyjaśnień elastycznych zachowań u zwierząt innych niż człowiek. Jest to intrygujący paradoks, że uczenie asocjacyjne jest uznawane do produkcji złożonych elastycznych zachowań w ramach badań AI, ale jest często odrzucane i zaniedbywane jako model dla elastycznych zachowań w systemach biologicznych (zarówno ludzi, jak i zwierząt innych niż człowiek).

Czy rozwój sekwencji zachowań u zwierząt innych niż człowiek może być rozumiany w kategoriach uczenia asocjacyjnego, czy nie, ma daleko idące konsekwencje dla naszego rozumienia badania zachowań. Jeśli zachowania postrzegane jako zaawansowane lub złożone, takie jak używanie narzędzi przez szympansy (Pan troglodytes), mogą rozwijać się dzięki procesom asocjacyjnym, różnic gatunkowych można szukać w genetycznych różnicach w repertuarze zachowań, tendencjach eksploracyjnych, takich jak ciekawość, oraz czynnikach motywacyjnych i uwagowych. Jeśli procesy asocjacyjne nie wystarczą do wyjaśnienia sposobu, w jaki informacje są przetwarzane, a wspomnienia aktualizowane w celu wygenerowania zachowania, wówczas należy zidentyfikować alternatywne mechanizmy, abyśmy mogli zrozumieć, jak takie zachowanie się rozwija. Obecnie badacze mają bardzo sprzeczne poglądy na ten temat. Z jednej strony, niektórzy sugerują, że procesy asocjacyjne, wraz z takimi czynnikami jak wielkość repertuaru zachowań i eksploracja, są potężne i mogą wyjaśnić wiele z tego, jak zwierzęta nabywają zachowania (np. ). Z kolei inni podkreślają alternatywne mechanizmy i proponują, że zwierzęta posiadają wiele różnych mechanizmów, które rozwiązują różne specyficzne problemy i że mechanizmy te są dostrajane przez ewolucję (np. ). Nie wszystkie badania należą do tych dwóch kategorii, a niektóre z nich testują alternatywne wyjaśnienia i kontrolują uczenie się asocjacyjne. Powszechne jest jednak, że takie badania zakładają tylko najprostsze formy uczenia się asocjacyjnego. Może to prowadzić do fałszywego odrzucenia hipotez o uczeniu się asocjacyjnym. Dzieje się tak dlatego, że większość kręgowców i bezkręgowców wykazuje zdolności zarówno do instrumentalnego, jak i Pawłowa uczenia się, które wraz z wyspecjalizowanymi pamięciami czynią większość zwierząt zdolnymi do bardziej złożonego uczenia się niż to, na co pozwalają najprostsze formy uczenia się asocjacyjnego.

Celem tego badania było sprawdzenie, czy model uczenia się, podobny do uczenia się ze wzmocnieniem stosowanego w badaniach nad sztuczną inteligencją, może pomóc nam zrozumieć nabywanie zachowań planistycznych u krukowatych i małp człekokształtnych, zachowań czasami postrzeganych jako złożone i podobne do ludzkich. Stwierdzono, że kilka gatunków planuje elastycznie przyszłość, nie inaczej niż ludzie (np. ). Pomysł jest taki, że ten rodzaj planowania jest wynikiem elastycznego mechanizmu umysłowego, który może symulować, mentalnie, różne przyszłe stany na podstawie bieżących informacji. Jednakże twierdzenia te zostały zakwestionowane w oparciu o co najmniej dwie różne linie argumentów. Po pierwsze, badacze wyrazili wątpliwości co do ogólnej zdolności ptaków do planowania, ponieważ badania nad planowaniem u ptaków zwykle obejmują specjalistów wykonujących zadania związane z buforowaniem, takich jak sójki w zaroślach (Aphelocoma californica), sójki euroazjatyckie (Garrulus glandarius) i cietrzewie (Poecile atricapillus). Wyniki te mogą być spowodowane wyspecjalizowanym repertuarem pamięci (por. ). Drugim powodem odrzucenia idei, że zwierzęta inne niż człowiek planują elastycznie, jest to, że obserwowane zachowania nie były spowodowane planowaniem podobnym do ludzkiego, ale są najlepiej rozumiane jako wyniki uczenia asocjacyjnego, a niedociągnięcia metodologiczne czynią te badania niejednoznacznymi .

Dlaczego model uczenia asocjacyjnego byłby przydatny do zrozumienia zachowań zorientowanych na przyszłość? Asocjacyjne uczenie się jest dobrze znane z powodowania zachowań antycypacyjnych, zachowań, które mogą przewidywać późniejsze znaczące wydarzenia bez natychmiastowych korzyści. Co więcej, samokontrola, często wymieniana jako ważna dla planowania, może powstać poprzez uczenie asocjacyjne. Można by założyć, że samokontrola nie jest możliwa dzięki uczeniu asocjacyjnemu, ponieważ zachowanie, za które otrzymuje się natychmiastową nagrodę, powinno być zawsze preferowane od zachowania, za które nie otrzymuje się nagrody. Jednak dla wielu zwierząt „czekanie” lub „prześladowanie” są zachowaniami, które mogą być wzmocnione, jeśli wynikają z późniejszych możliwości uzyskania nagrody. Na przykład drapieżniki uczą się umiejętności prześladowania i czekania, kiedy są młode.

Model użyty tutaj jest asocjacyjnym modelem uczenia się zdolnym do uczenia się optymalnego zachowania w złożonym świecie. Model ten zawiera dwie różne pamięci i mechanizm podejmowania decyzji. Jedna pamięć przechowuje siłę asocjacyjną wykonania zachowania B wobec bodźca S, a druga pamięć przechowuje szacowaną wartość bodźca S. Model może uczyć się sekwencji zachowań, łącząc pojedyncze zachowania ze sobą poprzez warunkowe wzmocnienie (wzmocnienie wtórne). W ten sposób, początkowo neutralne bodźce, które poprzedzają bodźce pierwotnie wzmacniające, mogą same stać się bodźcami wzmacniającymi, modyfikując w ten sposób zachowanie, które wcześniej nie było nagradzane. Na przykład, królik szkolony metodą klikerową słyszy kliknięcia wielokrotnie przed otrzymaniem nagrody w postaci jedzenia. Dla tego królika, kliknięcie staje się nagrodą samą w sobie i królik nauczy się wykonywać zachowania, które skutkują jedynie usłyszeniem kliknięcia. Model jest dalej wyjaśniony w sekcji Materiał i metody poniżej.

Tutaj testuję hipotezę, że model asocjacyjnego uczenia się może odpowiadać wynikom znalezionym w badaniach nad planowaniem nie-ludzkim. Model uczenia się został użyty do symulacji wyników dwóch badań nad planowaniem, jednego z orangutanami (Pongo pygmaeus) i bonobo (Pan paniscus) oraz jednego z krukami (Corvus corax). Stwierdzono, że symulacje śledzą kluczowe wzorce w ramach tych badań i pomiędzy nimi. Stwierdzono, że nie można wykluczyć, że badania nad elastycznym planowaniem u małp człekokształtnych i krukowatych mogą być wyjaśnione przez uczenie asocjacyjne. Dlatego też uczenie asocjacyjne nie może jedynie produkować zachowań podobnych do ludzkich (np. ), ale jest kandydatem do wyjaśnienia obserwacji planowania i samokontroli u zwierząt innych niż człowiek.

Materiał i metody

Tutaj opisuję nasz model uczenia się, logikę dwóch różnych badań, które zostały wykorzystane do symulacji, oraz szczegóły symulacji.

2.1. Opis modelu

Zwierzę ma repertuar zachowań i może używać swoich zachowań do nawigacji w świecie wykrywalnych stanów środowiska. Zachowanie przenosi zwierzę z jednego stanu do drugiego. Każdy stan, lub bodziec, ma pierwotną wartość wzmocnienia, która jest ustalona genetycznie. Wartości te mogą być negatywne, neutralne lub pozytywne i kierują uczeniem się w taki sposób, że promowane są zachowania sprzyjające przetrwaniu i reprodukcji. Zakłada się, że zwierzęta dokonują wyborów, które maksymalizują całkowitą wartość, a oczekiwania co do wartości przyszłego stanu mogą się rozwijać. Model może więc generować zachowanie ukierunkowane na cel (zobacz inną dyskusję na temat zachowania ukierunkowanego na cel i uczenia się).

W skrócie, model opisuje uczenie się sekwencji zachowań wobec bodźców poprzez zmiany w pamięci. Obejmuje on podejmowanie decyzji, które uwzględnia pamięć, aby określić, jakie zachowanie powinno być wybrane, gdy dany bodziec jest postrzegany. Weźmy na przykład uczenie się pojedynczego zachowania, np. gdy pies uczy się podawać łapę w odpowiedzi na komendę „potrząśnij”. Podniesienie łapy jest zachowaniem, komenda „potrząśnij” i nagroda są bodźcami. Sekwencja zdarzeń, której należy się nauczyć, to: komenda „shake” → podniesienie łapy → nagroda, lub

Komenda „shake′→Podniesienie łapy→Nagroda żywnościowa

Model gromadzi informacje o wartości wykonywania zachowań wobec różnych bodźców (lub stanów) oraz informacje o wartości różnych bodźców (lub przebywania w określonych stanach) . Uczenie się zachodzi poprzez aktualizację dwóch różnych rodzajów pamięci. Pamięci te odpowiadają uczeniu Pawłowowskiemu i instrumentalnemu i są aktualizowane po sekwencji zdarzeń, jak w przykładzie z psem, lub ogólnie po sekwencji zdarzeń S → B → S′. Pierwszym rodzajem pamięci jest asocjacja bodziec-reakcja. Używamy vS→B do oznaczenia siły asocjacji między bodźcem S a zachowaniem B. W kategoriach funkcjonalnych vS→B można opisać jako szacunkową wartość wykonania zachowania B przy odbiorze bodźca S. Druga pamięć przechowuje wartość bodźca. Używamy wS do oznaczenia tej wartości bodźca i jest ona aktualizowana w zależności od wartości kolejnego bodźca. Innymi słowy, wS jest uwarunkowaną wartością wzmocnienia bycia w stanie S. Pamięci te są aktualizowane zgodnie z

ΔvS→B=αv(uS′+wS′-vS→B)iΔwS=αw(uS′+wS′-wS)}2.1

po doświadczeniu sekwencji zdarzeń S → B → S′. Skojarzenie bodziec-reakcja vS→B jest aktualizowane zgodnie z uS′ pierwotną, wrodzoną, stałą wartością bodźca S′, oraz wS′ wartością uwarunkowanego wzmocnienia i poprzednio przechowywanym skojarzeniem bodziec-reakcja vS→B. Przy wzmocnieniu warunkowym, wartość wykonania zachowania B przy odbiorze bodźca S jest sumą pierwotnej i warunkowej wartości wzmocnienia bodźca S′. Jeśli zastosujemy tylko pierwsze równanie i wyłączymy w, to reprezentuje ono instrumentalne uczenie się bodziec-reakcja, czyli instrumentalną wersję klasycznego modelu uczenia się Rescorla-Wagnera . Szybkości uczenia się αv i αw określają szybkość, z jaką następuje aktualizacja pamięci.

Aby model uczenia się mógł generować i wybierać zachowania, potrzebny jest mechanizm podejmowania decyzji. My użyliśmy mechanizmu decyzyjnego, który wybiera reakcje behawioralne i powoduje pewną zmienność zachowań poprzez eksplorację. Określa to prawdopodobieństwo zachowania B w stanie S jako

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

które zawiera parametr β, który reguluje ilość eksploracji. Wszystkie zachowania mają jednakowe prawdopodobieństwo wyboru, jeśli β = 0 bez uwzględniania wartości szacunkowych. Jeśli β jest duże, to wybrane zostanie głównie zachowanie o największej wartości szacunkowej (v).

Powróćmy do psa dla praktycznego przykładu. Pies słyszy komendę „potrząśnij”, bodziec S. Jeśli pies poruszy łapą do góry, czyli wykona zachowanie B, otrzyma nagrodę S′. Nagroda żywnościowa S′ ma pierwotną wartość wrodzoną u. Gdy pies otrzyma tę nagrodę po prawidłowej reakcji na komendę „shake”, pamięć bodziec-reakcja v-polecenie `shake′→podniesienie łapy wzrośnie zgodnie z górnym wierszem równania (2.1). Dodatkowo, wartość bodźca w komendy 'shake’ zostanie zaktualizowana zgodnie z dolnym rzędem równania (2.1). Wartość w polecenia „potrząśnij” zbliży się do wartości u nagrody w postaci pokarmu, a tym samym uzyska właściwości wzmacniające; stanie się uwarunkowanym czynnikiem wzmacniającym. Wzmacniacz warunkowy może utorować drogę do nauczenia się większej ilości zachowań przed przesunięciem łapy w górę. Może się tak stać, ponieważ zachowania, w wyniku których pies słyszy komendę „potrząśnij”, mogą zostać wzmocnione.

2.2. Symulacje badań planowania na małpach człekokształtnych i krukach

Symulacje eksperymentów planowania były oparte na szczegółowych opisach przebiegu zdarzeń w dwóch badaniach, w których zidentyfikowano kluczowe zdarzenia. Kluczowe zdarzenia obejmowały to, jakie zachowania były trenowane przed testami i wobec jakich obiektów, oraz jakie wyniki wynikały z różnych wyborów podczas treningu wstępnego i testów. Ważne jest, aby zidentyfikować szczegóły w tych badaniach, ponieważ fazy testowe zawierały mieszankę działań nagradzających i nienagradzających. Dlatego oczekiwano, że zarówno bodziec-reakcja (v), jak i wartości bodźców (w) będą się zmieniać w trakcie trwania testów.

Aby symulacje były możliwe i realistyczne, założono, że zwierzęta weszły do tych badań z pewnymi niezbędnymi codziennymi umiejętnościami. Założono, że zwierzęta wcześniej nauczyły się na przykład trzymać przedmioty, poruszać się między pomieszczeniami i przedziałami, gdzie znajdują się różne rzeczy, a także posiadały pewne podstawowe umiejętności dotyczące interakcji z eksperymentatorami. Małpy były na przykład wyprowadzane z pomieszczenia testowego po dokonaniu wyboru, aby później zostać wpuszczone z powrotem do pomieszczenia testowego. Ignorując takie codzienne umiejętności, symulacje i opisy zachowań koncentrowały się na unikalnych sekwencjach zachowań, których zwierzęta musiały się nauczyć w ramach eksperymentów.

Dwa badania mają wspólne kluczowe cechy. Przed rozpoczęciem testów zwierzęta były poddawane wstępnemu treningowi. Tutaj uczyły się wykonywać zachowania, które później oceniano jako poprawne. Oprócz wstępnego treningu poprawnych zachowań, badanie kruka obejmowało również trening ekstynkcji. Podczas treningu ekstynkcyjnego kruki miały szansę nauczyć się, że niefunkcjonalne obiekty nie dają nagrody. Kluczowymi wydarzeniami w obu badaniach, wykorzystywanymi do oceny poprawnych i niepoprawnych wyborów, były testy wymuszonego wyboru. Zwierzęta były zmuszane do wyboru pomiędzy jednym obiektem, który wcześniej nauczyły się nagradzać, a innymi obiektami, które nie mogły być użyte do późniejszego nagradzania (obiekty rozpraszające). Kruki nauczyły się podczas treningu ekstynkcji, że te obiekty rozpraszające nie mogą być źródłem nagrody. Po dokonaniu wymuszonego wyboru w obu badaniach następowało pewne opóźnienie czasowe, po którym zwierzęta miały możliwość wykonania zachowania z wykorzystaniem wcześniej wybranego obiektu. Jeśli zwierzę dokonało prawidłowego wyboru przed opóźnieniem, mogło później użyć wybranego obiektu do otrzymania nagrody. Jeśli zwierzę dokonało nieprawidłowego wyboru przed opóźnieniem, nie miało możliwości wykonania zachowania nagradzającego po opóźnieniu.

Wykonywane symulacje następowały po fazie przedtreningowej i fazie testowej badań. Porównania są dokonywane z poziomami prawdopodobieństwa poprawnych wyborów ustalonymi przez te dwa badania. Mulcahy & Call spodziewał się, że małpy będą wybierać poprawnie przez przypadek 25% razy (jeden obiekt funkcjonalny i trzy obiekty rozpraszające). Kabadayi & Osvath oczekiwał, że kruki przypadkowo dokonają 25% poprawnych wyborów w eksperymentach 1 i 2 oraz 20% poprawnych wyborów w eksperymentach 3 i 4 (jeden obiekt funkcjonalny i trzy obiekty rozpraszające w eksperymentach 1 i 2 oraz 1 obiekt funkcjonalny, 1 mała nagroda i trzy obiekty rozpraszające w eksperymentach 3 i 4). Dokładne opisy znajdują się w skryptach symulacji (zob. elektroniczny materiał uzupełniający). Aby ułatwić śledzenie symulacji, poniżej zamieszczono dogłębne opisy obu badań.

2.3. Opis badania Mulcahy’ego i Call’a na małpach człekokształtnych

Testy te przeprowadzono na orangutanach i bonobo . Badanie rozpoczęto od treningu wstępnego. W tym przypadku zwierzę zostało umieszczone w pomieszczeniu badawczym i przeszkolone w zakresie dwóch różnych zadań z użyciem narzędzi, aby otrzymać nagrodę z aparatu. Te funkcjonalne narzędzia będą określane jako obiekty funkcjonalne. Jedno zadanie polegało na wybraniu rurki i włożeniu jej do aparatu. Drugie zadanie polegało na wybraniu haka i użyciu go do sięgnięcia do butelki, której nie można było dosięgnąć bez posiadania haka. Po wstępnym treningu, zwierzę zostało poddane testowi wymuszonego wyboru pomiędzy obiektami funkcjonalnymi i trzema odpowiadającymi im obiektami niefunkcjonalnymi (zwanymi później obiektami dystraktorami). Jednak podczas tego wymuszonego wyboru, dostęp do aparatu zawierającego nagrodę był zablokowany. Po dokonaniu wyboru, zwierzę było wyprowadzane z pomieszczenia testowego do poczekalni. Przedmioty, które nie zostały zabrane przez zwierzę, były teraz usuwane z pomieszczenia testowego. W tym momencie następowało opóźnienie. Po upływie tego czasu zwierzę zostało ponownie wpuszczone do pomieszczenia badawczego i otrzymało dostęp do aparatury. Jeśli obiekt funkcjonalny został wybrany w teście przymusowego wyboru, zwierzę mogło teraz użyć tego obiektu do uzyskania nagrody, wykazując w ten sposób zachowanie, którego nauczyło się podczas treningu wstępnego.

Badanie to obejmowało cztery testy, które różniły się nieznacznie. Testy różniły się pod względem tego, jakie narzędzie było obiektem funkcjonalnym oraz czasu trwania opóźnień. Dodatkowo, w ostatnim teście zwierzęta nie musiały używać narzędzia, aby otrzymać nagrodę. Zauważmy, że tutaj, w eksperymencie 4, użyto dwóch nowych osobników, które nie brały udziału w eksperymentach 1, 2 i 3. Ta ostatnia część nie miała tu większego znaczenia z powodów wspomnianych w rozdziale Wyniki. Symulacje przebiegały zgodnie z logiką badania, a oto szczegóły dotyczące kluczowych zdarzeń i opóźnień wykorzystanych w symulacji:

  • Pretraining: Przed badaniami wszyscy badani uczyli się korzystać z narzędzi funkcjonalnych. W dwóch etapach, minimum trzy plus osiem prób przedtreningowych było dozwolone dla zadania z rurką i minimum pięć prób przedtreningowych było dozwolone dla zadania z hakiem.

  • Eksperyment 1, warunek z rurką: (1) Wymuszony wybór z funkcjonalną tubą i obiektami dystraktorami (16 prób). (2) Po dokonaniu wyboru przejść do innego pomieszczenia. (3) Odczekać 1 h. (4) Wrócić i jeśli wybrano rurkę funkcjonalną, można było to wykorzystać do uzyskania nagrody.

  • Doświadczenie 2, warunek rurki: (1) Wymuszony wybór z funkcjonalną tubą i obiektami rozpraszającymi (12 prób). (2) Po dokonaniu wyboru przejść do innego pomieszczenia. (3) Odczekać 14 h. (4) Wrócić i jeśli wybrano funkcjonalną rurkę, można było to wykorzystać do uzyskania nagrody.

  • Doświadczenie 3, warunek haka: (1) Wymuszony wybór z funkcjonalnym hakiem i obiektami rozpraszającymi (16 prób). (2) Po dokonaniu wyboru przejść do innego pomieszczenia. (3) Odczekać 1 h. (4) Wrócić i jeśli wybrano funkcjonalny hak, można było to wykorzystać do uzyskania nagrody.

  • Doświadczenie 4, warunek haka: (1) Wymuszony wybór z funkcjonalnym haczykiem i obiektami rozpraszającymi (16 prób). (2) Po dokonaniu wyboru przejść do innego pomieszczenia. (3) Odczekać 1 h. (4) Wrócić i jeśli wybrano funkcjonalny hak, otrzymać nagrodę bez użycia haka.

Sekwencje zachowań do nauczenia były następujące:

  • warunek rurki: Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Hook condition: Shook → Btake hook → Sapparatus → Buse hook → Sreward

W obu warunkach małpy nigdy nie były nagradzane za wybór obiektów dystraktorów, lub:

  • Distractors: Sdistractor → Btake distractor → Sno reward

2.4. Opis badania Kabadayi & Osvatha na krukach

Testy te zostały przeprowadzone z krukami . Badanie to rozpoczęło się od treningu wstępnego. Tutaj zwierzę było umieszczane w pomieszczeniu badawczym i szkolone w dwóch różnych zadaniach z narzędziami w celu uzyskania nagrody z aparatu. Podobnie jak powyżej, narzędzia funkcjonalne będą określane jako obiekty funkcjonalne. Jedno zadanie polegało na włożeniu kamienia do aparatu w celu uzyskania nagrody. Drugie zadanie polegało na wzięciu kapsla od butelki (zwanego tokenem) i podaniu go człowiekowi. W przeciwieństwie do badań na małpach, przed rozpoczęciem testów krukom pozwolono również na próby ekstynkcji. W tym przypadku pozwolono zwierzęciu na interakcję z obiektami, które byłyby obecne podczas testów wymuszonego wyboru, ale które nigdy nie mogłyby być użyte do uzyskania nagrody (później nazwano je obiektami dystraktorami). Po wstępnym treningu, zwierzę było poddawane testowi wymuszonego wyboru pomiędzy obiektem funkcjonalnym a trzema obiektami dystraktorami. Po dokonaniu wyboru, zwierzę nie mogło przez pewien czas używać obiektu funkcjonalnego. Innymi słowy, bezpośrednio po teście wyboru nie można było odebrać nagrody (z wyjątkiem eksperymentu 4). W tym momencie następowało opóźnienie. Po upływie tego czasu zwierzę mogło użyć wybranego przez siebie obiektu. Jeśli obiekt funkcjonalny został wybrany w teście przymusowego wyboru, zwierzę mogło teraz użyć tego obiektu do uzyskania nagrody, wykazując w ten sposób zachowanie, którego nauczyło się podczas treningu wstępnego.

Badanie to zawierało również cztery testy, które były nieco inne. Testy różniły się pod względem liczby prób, czasu trwania opóźnień, a w ostatnim teście zwierzęta nie musiały czekać przed użyciem funkcjonalnego obiektu w celu uzyskania nagrody. Należy zaznaczyć, że w tym badaniu zastosowano dwie różne nagrody. Jedna nagroda o wysokiej wartości została użyta w treningu wstępnym i we wszystkich eksperymentach. Natomiast w eksperymentach 3 i 4, w sytuacji wymuszonego wyboru, obok narzędzia funkcjonalnego i dystraktora, użyto znanej nagrody o niewielkiej wartości. Należy zauważyć, że eksperymenty nie były wykonywane w tej samej kolejności, w jakiej zostały ponumerowane w opublikowanym badaniu. Zdecydowałam się przedstawić testy w kolejności czasowej, w jakiej były wykonywane (1,3,2,4). Symulacje przebiegały zgodnie z logiką badania, a oto szczegóły kluczowych wydarzeń wykorzystanych w symulacji: kluczowymi wydarzeniami przed i w trakcie eksperymentów były:

  • Pretraining: Przed testami wszyscy badani uczyli się obsługi funkcjonalnych narzędzi. W dwóch etapach, minimum trzy plus pięć prób przedtreningowych było dozwolone dla zadania z narzędziami, a 35 prób przedtreningowych było dozwolone dla zadania z tokenami.

  • Próby ekstynkcji: W tej fazie badanym pozwalano manipulować obiektami dystraktora przez 5 min bez otrzymywania nagród.

  • Eksperyment 1: (1) Wymuszony wybór z obiektem funkcjonalnym i obiektami dystraktora. 14 prób w warunku narzędziowym i 12 × 3 próby w warunku żetonowym. (2) Odczekać 15 min. (3) Wybrany obiekt może być użyty ponownie, a jeśli kamień lub token został wybrany, może być użyty do uzyskania nagrody.

  • Eksperyment 3: (1) Wymuszony wybór z obiektem funkcjonalnym, małą nagrodą i obiektami rozpraszającymi. 14 prób w warunku narzędziowym i 14 prób w warunku żetonowym. (2) Odczekać 15 min. (3) Wybrany obiekt może być użyty ponownie, a jeśli kamień lub token został wybrany, może być użyty do uzyskania nagrody.

  • Eksperyment 2: (1) Wymuszony wybór z obiektem funkcjonalnym i obiektami rozpraszającymi. 6 prób w warunku narzędziowym i 6 prób w warunku żetonowym. (2) Odczekać 17 h. (3) Wybrany obiekt może być użyty ponownie, a jeśli został wybrany kamień lub żeton, może być użyty do uzyskania nagrody.

  • Eksperyment 4: (1) Wymuszony wybór z obiektem funkcjonalnym, małą nagrodą i obiektami rozpraszającymi. 14 prób w warunku narzędziowym i 14 prób w warunku żetonowym. (2). Jeśli kamień lub żeton został wybrany, mógł być użyty do uzyskania nagrody.

Sekwencje zachowań do nauczenia były następujące:

  • Kondycja narzędziowa: Stool → Btake tool → Sapparatus → Buse tool → Sreward

  • Token condition: Stoken → Btake token → Shuman → Bgive token → Sreward

Kruki zostały również nauczone podczas fazy ekstynkcji, że nigdy nie nagradza się wybierania lub używania obiektów dystraktorów. Tak było również podczas wszystkich testów, lub:

  • Dystraktory: Sdistractor → Btake distractor → Sno reward

W fazach samokontroli kruki miały możliwość wyboru niewielkiej nagrody, która była prezentowana obok obiektu funkcjonalnego (narzędzia lub żetonu) i obiektów dystraktorów. Dlatego w eksperymentach 3 i 4 możliwe były również takie sekwencje zachowań:

  • Warunek narzędzia: Sdog kibble → Btake small reward → Ssmall reward

  • Token condition: Sdog kibble → Btake small reward → Ssmall reward

2.5. Ilustracja aktualizacji pamięci podczas szkolenia wstępnego

Aby zilustrować, jak na te sekwencje zachowań wpływa uczenie się, poniżej przedstawiono przykład aktualizacji pamięci podczas szkolenia wstępnego w badaniu kruków. Sekwencja zachowań, która rozwinęła się podczas szkolenia wstępnego może być opisana jako Stool → Btake tool → Sapparatus → Buse tool → Sreward, gdzie wartość wkładania kamienia do aparatu wzrastała, tak że vSapparatus → Buse tool≫0. Ponieważ model uwzględnia również wzmocnienie warunkowe, wartość samego kamienia jest aktualizowana w zależności od wartości następującego po nim bodźca, czyli dużej nagrody. Przy powtarzających się doświadczeniach, wartość bodźca (w) Sreward będzie powodować wzrost wartości bodźca Stool. Jak pokazaliśmy w naszym opisie tego modelu, przy wystarczającej liczbie doświadczeń wartość narzędzia będzie zbliżona do wartości dużej nagrody. Natomiast próby wygaszania z powtarzającymi się nienagradzanymi doświadczeniami z trzema obiektami dystraktora można opisać jako Sdistractor → Bpick distractor → Sno reward. Taka sekwencja zdarzeń spowoduje obniżenie zarówno siły asocjacyjnej wyboru dystraktora vSdistractor → Bpick distractor, jak i warunkowej wartości wzmocnienia (wdistractor) dystraktora. Gdy pierwszy test rozpoczyna się od wymuszonego wyboru, na zachowanie kruków miał wpływ wstępny trening zarówno z kamieniem, jak i dystraktorami.

2.6. Szczegóły symulacji

Powyższy model został włączony do programu Python, w którym uczenie odbywało się zgodnie ze szczegółowymi procedurami dwóch badań, jak zdefiniowano powyżej, aby uzyskać oszacowania prawdopodobieństw wyboru różnych bodźców oraz wartości v i w, w trakcie trwania badań. Przeprowadzono dwa rodzaje symulacji. Najpierw przeprowadzono symulacje z pełnym modelem, a następnie symulacje bez wartości bodźca (w), czyli dopuszczające jedynie naszą wersję uczenia się bodziec-reakcja, wykorzystującą jedynie pierwszy rząd równania (2.1) wraz z podejmowaniem decyzji (równanie (2.2)). Zrobiliśmy to, aby zbadać różnice pomiędzy naszym modelem, który zawiera wzmocnienie warunkowe, a wersją samego uczenia się bodziec-reakcja. Ta wersja uczenia się bodziec-reakcja jest identyczna z klasyczną regułą uczenia się Rescorla-Wagnera, ale rozważaliśmy ją w kategoriach instrumentalnego, a nie pawłowowskiego ustawienia.

Aby uwzględnić opóźnienia, jeden krok czasowy na minutę był włączony do symulacji w czasach opóźnienia. Podczas tych kroków czasowych, tylko bodziec tła był doświadczany. Nie jest to bardzo ważne z punktu widzenia aktualizacji pamięci, ponieważ zarówno pamięć bodziec-reakcja, jak i pamięć wartości bodźca są pamięciami długotrwałymi. To, że zwierzęta pamiętają skojarzenia bodziec-reakcja i wartości bodźców przez bardzo długi czas, nie było wspomniane w żadnym z symulowanych badań .

We wszystkich symulacjach stosowano te same parametry uczenia się. Wszystkie zachowania rozpoczynały się z początkową wartością bodziec-reakcja v = 1, zarówno wartości v jak i w były aktualizowane z szybkością uczenia α = 0.2, eksploracja była ustawiona na β = 1, a nagrody były ustawione na u = 6 poza nagrodami o niskiej wartości w eksperymentach 3 i 4 w Kabadayi & Osvath, które były ustawione na u = 2. Koszt zachowania dla wszystkich zachowań wynosił 0.1 oprócz pasywnych odpowiedzi, które ustawiono na 0 (zobacz informacje dla wszystkich zachowań i elementów bodźców uwzględnionych w symulacjach w elektronicznym materiale uzupełniającym). Wszystkie symulacje przeprowadzono dla 500 osób, a liczba prób była w przybliżeniu taka sama jak w eksperymentach. To, że liczba prób nie była idealnie zgodna z wynikami badań empirycznych, wynikało z probabilistycznej natury równania decyzyjnego. Brak informacji o wartościach początkowych zwierząt utrudnia dokładne porównania ilościowe.

Ale zarówno kruki, jak i małpy miały bogate tła, wcześniej wyuczone zachowania zostały zignorowane i przyjęto, że wartości początkowe są takie same dla obiektów rozpraszających i funkcjonalnych. Aby być konserwatywnym, wszystkie siły asocjacyjne pomiędzy zachowaniami i bodźcami zostały założone jako równe na początku symulacji. Kabadayi & Osvath nie kalibrował preferencji kruków w odniesieniu do wartości dwóch różnych nagród pokarmowych, więc nie ma ilościowej informacji o różnicach między dostępnymi nagrodami. Stwierdzili oni w metodzie, że nagroda w postaci wysokiej jakości pokarmu była zarówno większa, jak i bardziej atrakcyjna. W badaniach nad krukami brakowało dokładnych informacji o ilości wygaszeń, dlatego przyjęto, że kruki miały pięć doświadczeń wygaszania z dystraktorami.

Zachowania i elementy bodźców użyte w symulacjach były następujące:

2.6.1. Behaviours
  • Mulcahy & Call Tube: take tube, use tube, take distractor, being passive

  • Mulcahy & Call Hook: take hook, use hook, take distractor, being passive

  • Kabadayi & Osvath Tool: weź narzędzie, użyj narzędzia, weź rozpraszacz, bycie pasywnym, weź małą nagrodę

  • Kabadayi & Osvath Token: weź token, użyj tokena, weź rozpraszacz, bycie pasywnym, weź małą nagrodę

2.6.2. Elementy bodźców
  • Mulcahy & Rurka wywoławcza: tło, rurka, zadanie z rurką, dystraktor, nagroda

  • Mulcahy & Hak wywoławczy: tło, hak, zadanie z hakiem, dystraktor, nagroda

  • Kabadayi & Narzędzie Osvath: tło, narzędzie, aparat, dystraktor, nagroda, mała nagroda

  • Kabadayi & Osvath Token: tło, token, człowiek, dystraktor, nagroda, mała nagroda

2.7. Dane z badań empirycznych

Aby porównać wyniki symulacji z danymi empirycznymi z dwóch badań , obliczono średnie z dostępnych danych w dwóch odpowiednich badaniach (patrz rysunki w Wyniki). W ten sposób uzyskano średnie proporcje poprawnych i niepoprawnych wyborów w testach wymuszonego wyboru. Należy zauważyć, że eksperyment 4 w badaniu małp nie obejmował żadnego poprawnego zachowania z użyciem narzędzia po powrocie do aparatury po opóźnieniu, co czyni ten eksperyment trudnym do interpretacji. Ponadto dane dotyczące wyborów dla eksperymentu 4 nie były dostępne w tekście, dlatego dla tego punktu danych użyto danych z. Niefortunnie jest mieszać dane w ten sposób, ale wybrałem to na korzyść pozostawienia danych z eksperymentu 4.

Wyniki

Ogółem, symulacje pasowały do wyników zarówno badania kruka, jak i małpy człekokształtnej. Symulacje pokazują, jak dwa czynniki razem mogą przyczynić się do przyszłego ukierunkowanego zachowania wykazywanego przez małpy człekokształtne i kruki. Po pierwsze, uwarunkowane wartości wzmocnienia obiektów funkcjonalnych, ustanowione poprzez wstępny trening i wygaszanie, były w stanie napędzać początkowe prawidłowe wybory. Jest to pokazane na rycinie 1, gdzie pokazano proporcję prawidłowych wyborów. Po drugie, poprawne wybory były nagradzane przez całe badania, z wyjątkiem eksperymentu 4 w eksperymencie z małpami. To, że wykorzystanie obiektów funkcjonalnych było nagradzane przez cały czas, było wystarczające do napędzania wydajności znacznie powyżej poziomu szansy (ryc. 1). W eksperymencie z krukami, nagrody dostarczane w trakcie eksperymentu dobrze tłumaczą niemal doskonałe wyniki w dwóch końcowych częściach tego badania.

Rysunek 1. Wyniki z danych empirycznych (kropki) i symulacyjnych (linie) pokazujące proporcje poprawnych odpowiedzi na obiekty funkcjonalne, a dla badania kruka symulowane proporcje odpowiedzi na małe nagrody (linie przerywane). Bonobo i orangutany są w górnym panelu, a kruki w dolnym. W przypadku małp człekokształtnych wybór rurki był prawidłowy w eksperymentach 1 i 2 (lewa linia), a wybór haka był prawidłowy w eksperymentach 3 i 4 (prawa linia). Zauważ, że oś X górnego panelu jest załamana, ponieważ eksperyment 4 został przeprowadzony z nowymi osobnikami, które przeszły jedynie wstępny trening przed eksperymentem. W przypadku kruków, prawidłowym wyborem w pierwszej połowie eksperymentu było narzędzie (lewa linia). W drugiej części eksperymentu prawidłowym wyborem był żeton (prawa linia). Linie poziome oznaczają oczekiwane przypadkowe poziomy poprawnych wyborów w fazach testu (tj. odpowiednio: rurka, hak, narzędzie i żeton). Dane empiryczne są średnimi danych z końca każdej z faz w dwóch badaniach. Grafiki bonobo i kruka zostały pobrane z openclipart.org.

Pasowanie było dobre między testami empirycznymi (pokazanymi jako wypełnione koła na rycinie 1) i symulacjami w tym, że obiekty funkcjonalne były bardziej prawdopodobne do wyboru niż obiekty rozpraszające. Symulacje podążały również za ogólnymi trendami w tym, że wydajność wzrosła w badaniu małp człekokształtnych podczas eksperymentów 1 i 2 oraz że wydajność spadła w eksperymencie 3. Chociaż symulacje niedoszacowały wydajności w warunkach narzędzia w badaniu kruka, symulacje ściśle odpowiadały wzorcowi, w którym wydajność była wysoka w eksperymencie 1, spadła w eksperymencie 3, by osiągnąć niemal doskonałą wydajność w eksperymencie 4. Jednym z powodów, dla których symulacja miała niższy wskaźnik sukcesu w warunku narzędziowym może być to, że kruki były dobrze wyszkolone i miały bogate tła, które są pomocne w sytuacjach testowych. Ptaki te zostały wychowane przez ludzi i regularnie wchodzą w interakcje z ludźmi. Są również zaznajomione z wieloma różnymi obiektami, układami eksperymentalnymi i nagrodami. Dla kontrastu, symulacje rozpoczynały się przy założeniu braku wcześniejszej wiedzy. Istniało bliskie dopasowanie między symulacjami a danymi empirycznymi dla warunku żetonowego, ale spadek wydajności podczas eksperymentu 3 był większy w danych empirycznych.

Symulacje uchwyciły również, że małpy człekokształtne wykazywały ogólnie niższy wskaźnik sukcesu niż kruki. Przynajmniej dwa czynniki mogły przyczynić się do tej różnicy. Małpy doświadczyły mniej treningu wstępnego niż kruki i, w przeciwieństwie do kruków, małpy nie miały pozwolenia na trening ekstynkcji z obiektami rozpraszającymi przed testowaniem. Widać to na rycinie 1, gdzie prawdopodobieństwo wyboru prawidłowego obiektu jest znacznie wyższe na początku eksperymentu 1 w badaniu kruków w porównaniu z badaniem małp. To, że wiele prób przedtreningowych (35 w warunku żetonowym) w połączeniu z próbami wygaszania może skutkować wysokimi wynikami w wymuszonych wyborach jest najbardziej wyraźnie pokazane w warunku żetonowym w badaniu z krukami. Tutaj symulacja dokładnie śledziła obserwowany wysoki wskaźnik sukcesu.

Trening przedtreningowy i trening ekstynkcyjny nie tylko wpływały na prawdopodobieństwo podejmowania prawidłowych decyzji. Symulacje ujawniają, w jaki sposób trening wstępny i wygaszanie wpływają również na proporcje wyboru nieprawidłowych obiektów, takich jak małe nagrody (rysunek 1). Efekt wstępnego treningu i wygaszania był najbardziej widoczny w warunku żetonowym w badaniu kruków, gdzie symulacja sugeruje, że prawdopodobieństwo wyboru przez kruki małych nagród zamiast obiektów funkcjonalnych było bliskie zeru. Duża ilość doświadczeń nagradzających z obiektami funkcjonalnymi (narzędzie i żeton) skutkowała dużymi wartościami warunkowego wzmocnienia dla tych obiektów (ryc. 2). Symulacje potwierdziły prawidłowość, że kruki nie wybierały małych nagród zamiast obiektów funkcjonalnych, oraz że samokontrola powinna pojawić się w wyniku uczenia asocjacyjnego.

Rysunek 2. Wyniki symulacji umożliwiających porównanie danych wyjściowych z naszego modelu uczenia się, uwzględniającego wzmocnienie warunkowe (wartości bodźców), z instrumentalną wersją modelu Rescorla-Wagnera (R-W) . Symulacje badań nad krukiem znajdują się po lewej stronie, a symulacje badań nad małpą po prawej. Górne panele pokazują aktualizacje pamięci: asocjacje bodziec-odpowiedź v dla zachowań wobec obiektów funkcjonalnych oraz wartości bodźców w tych obiektów. Ponieważ obiekty funkcjonalne same w sobie nie są nagradzane, symulacje pokazują, że asocjacje bodziec-reakcja dla wyboru obiektów funkcjonalnych nie rozwiną się w prostszym modelu uczenia się (R-W). W dolnych panelach pokazano, że model uczenia się bodziec-reakcja (R-W) nie jest w stanie odtworzyć wzorców zachowań zaobserwowanych w obu badaniach, co wyraźnie kontrastuje z naszym modelem uczenia się, który pozwala na warunkowe wzmocnienie. Fazy eksperymentu są takie same jak na rysunku 1, ale tutaj fazy nie są pokazane dla przejrzystości. Zauważ, że osie X w prawych panelach są przerwane, ponieważ eksperyment 4 został przeprowadzony z nowymi osobnikami, które przed eksperymentem przeszły jedynie wstępny trening. Grafika kruka i małpy została pobrana z openclipart.org.

Wzrost wartości bodziec-reakcja i wartości bodźców są pokazane w górnym panelu ryciny 2.

Zauważ, że eksperyment 4 w badaniu małpy człekokształtnej najmniej pasuje do symulacji. Tutaj dwóm nowym małpom pozwolono uzyskać nagrodę bez użycia wcześniej funkcjonalnego narzędzia i wróciły one z prawidłowym narzędziem 2 z 16 razy, czyli mniej niż w symulacji. Ta różnica między testem empirycznym a symulacją mogłaby zostać zredukowana poprzez zwiększenie kosztu zachowania. Zwiększenie kosztu zachowania, które nie prowadzi do otrzymania nagrody, doprowadzi do ograniczenia wykonywania tego zachowania. Nie jest jednak jasne, czego można oczekiwać od zwierząt w tej sytuacji, gdy małpy stają w obliczu sytuacji z mniej wyraźnym związkiem między narzędziem a nagrodą. Ponadto dwie z czterech małp nigdy nie podjęły próby rozwiązania problemu. Podsumowując, trudno jest ocenić precyzję i znaczenie tego punktu danych (patrz ).

Symulacje pokazują również różnice między modelami uczenia asocjacyjnego o różnej złożoności. Ograniczenia naszej wersji uczenia bodziec-reakcja stają się oczywiste, gdy porównamy je z symulacjami wykorzystującymi nasz model uczenia, który zawiera zarówno uczenie pawłowowskie, jak i instrumentalne. W przypadku samego uczenia się bodziec-reakcja, sekwencje zachowań, po których nie następuje natychmiast nagroda, nie mogą zostać wyuczone (rysunek 2). Aby sekwencje zachowań mogły się rozwinąć, bodźce znajdujące się więcej niż jeden krok przed nagrodą muszą stać się nagradzające poprzez uwarunkowane wzmocnienie. Kiedy wcześniej neutralny bodziec uzyskuje dodatnią wartość w, czyli staje się nagradzający, może to prowadzić do uzyskania dodatnich wartości v dla zachowań, które nie skutkują natychmiastową nagrodą (górny panel na rycinie 2). Porównując nasz model, który może uczyć się sekwencji zachowań, z instrumentalną wersją modelu Rescorla-Wagnera, widać wyraźnie, że prawdopodobieństwo wyboru właściwego bodźca nie wzrośnie, jeśli dozwolone będzie tylko uczenie się bodziec-reakcja (ryc. 2). Ponadto, ponieważ w uczeniu się bodziec-reakcja wartości v są aktualizowane tylko przez natychmiastowe wzmocnienie, ma to również taką konsekwencję, że mała nagroda będzie wybierana na korzyść tokena i narzędzia, ponieważ token i narzędzie nie mogą stać się cennymi bodźcami. Widać to na rycinie 2, gdzie niepoprawny wybór małych nagród wzrasta w poszczególnych próbach, gdy dozwolona jest tylko nasza wersja uczenia się bodziec-reakcja (oznaczona R-W na rycinie 2). Stimulus-response learning alone could not account for the results in neither the raven nor the ape study.

Discussion

Symulacje dwóch badań planowania na krukach i małpach człekokształtnych sugerują, że zachowanie, o którym wcześniej twierdzono, że zostało wygenerowane przez elastyczne planowanie, może być wyjaśnione przez uczenie asocjacyjne. Jak pokazano w badaniach nad sztuczną inteligencją i zachowaniami zwierząt, te modele uczenia się asocjacyjnego są potężne w generowaniu elastycznych sekwencji zachowań. Dlatego wniosek wyciągnięty zarówno w badaniach nad krukami, jak i małpami człekokształtnymi, że kruki i małpy rozwiązują te problemy za pomocą specyficznego elastycznego mechanizmu, ma niewielkie poparcie. Symulacje przeprowadzone tutaj wspierają krytyków, którzy interpretowali te wyniki jako konsekwencje uczenia się asocjacyjnego. Jeśli przyszłe badania mają na celu odróżnienie procesów asocjacyjnych od innych rodzajów mechanizmów umysłowych, skorzystałyby one z ulepszonego projektu eksperymentalnego, w tym odpowiednich kontroli, wykorzystując najnowocześniejsze modele uczenia się.

Interesujące było to, że symulacje uchwyciły różnicę między badaniami nad krukami i małpami człekokształtnymi. Sugeruje to, że symulacje dobrze uchwyciły efekty faz przedtreningowych, faz wygaszania i nagród w całych badaniach. Wysokie wartości wzmocnień warunkowych (w) dla prawidłowych obiektów (narzędzie i żeton) oraz niskie wartości dla obiektów rozpraszających zostały ustalone przed pierwszymi testami (ryc. 2). Było to szczególnie widoczne w części tokenowej eksperymentu z krukami, gdzie kruki zostały poddane 35 próbom przedtreningowym, w których sekwencja zachowań Stoken → Btake token → Shuman → Bgive token → Sreward była konsekwentnie nagradzana (dolny panel, ryc. 1).

Innym ważnym czynnikiem wpływającym na pozytywne wyniki w badaniach z krukami i małpami człekokształtnymi było to, że wybieranie prawidłowych obiektów było nagradzane przez cały czas trwania testów. Dzięki temu utrzymywano wysokie wartości v i w odpowiednio dla poprawnych zachowań i poprawnych obiektów. Wyjaśnia to również, dlaczego kruki lekceważyły małe nagrody, gdy były one prezentowane razem z obiektami funkcjonalnymi (ryc. 1). Obiekty funkcjonalne prowadziły do nagród wielokrotnie w ciągu całego badania, więc uzyskały wysokie wartości bodźców. Tak długo, jak wartości te są wyższe niż wartość małej nagrody, te obiekty funkcjonalne będą wybierane przez większość czasu. Jednak w przypadku uczenia się typu bodziec-reakcja – pozwalającego jedynie na aktualizację wartości v, jak w modelu Rescorla-Wagnera – mała nagroda będzie wybierana, ponieważ w tym modelu brak jest warunkowego wzmocnienia (rys. 2). Jeśli ktoś chce uniknąć uczenia się podczas testów, istnieją korzyści z przeprowadzania testów w warunkach wygaszania, jak na przykład w badaniach nad rewalidacją wyników (np. ). W ten sposób testy mogą ujawnić konsekwencje wcześniejszych manipulacji eksperymentalnych.

Wyniki te wspierają ideę, że samokontrola pojawiła się poprzez uczenie asocjacyjne. Wcześniej pokazaliśmy, w jaki sposób zwierzęta mogą, poprzez uczenie asocjacyjne, nabyć samokontrolę, jeśli dostarczy się im wystarczająco dużo informacji i doświadczeń. Kabadayi & Osvath nie zdefiniował samokontroli, ale w poprzednim badaniu zdefiniowali ją jako „tłumienie natychmiastowych popędów na korzyść opóźnionych nagród”. Ten funkcjonalny pogląd na samokontrolę pasuje do wielu opisów zachowań w literaturze dotyczącej zachowań zwierząt. Obserwacje zwierząt, które uczą się odrzucać małe nagrody, gdy oczekują dużych nagród, lub innymi słowy odrzucają nieopłacalne ofiary, gdy opłacalnych ofiar jest dużo, pochodzą na przykład od ryb (słonka bluegill Lepomis macrochirus, ), skorupiaków (kraby brzegowe Carcinus maenas, ) i ptaków (sikorki Parus major i krwawodzioby Tringa totanus, ). Tego rodzaju badania były w dużym stopniu ignorowane w badaniach, w których samokontrola jest często badana jako odrębny rodzaj mechanizmu umysłowego, a nie coś, co podlega uczeniu się (np. ). Zamiast tego, w świetle tych symulacji, wcześniejsze badania samokontroli w ramach badań nad poznaniem zwierząt (jak np. ) mogą być najlepiej rozumiane jako spowodowane przez uczenie się, w tym warunkowe wzmocnienie .

Teoretycznie, samokontrola może rozwijać się na więcej niż jeden sposób. Samokontrola może pojawić się poprzez nabycie wysokich wartości uwarunkowanego wzmocnienia dla obiektów funkcjonalnych. Obiekt funkcjonalny staje się bardziej wartościowy niż mała nagroda. Ale samokontrola może się również pojawić, jeśli na przykład „czekanie” jest traktowane jako zachowanie samo w sobie. W tym przypadku samokontrola może pojawić się poprzez zwiększoną wartość v dla „czekania” w obecności określonego bodźca. Samokontrola u kotów polujących może się pojawić dzięki wysokim wartościom v dla „czekania”, gdy ofiara znajduje się daleko. Potrzeba więcej badań, aby lepiej zrozumieć, w jaki sposób różne aspekty mechanizmów uczenia się oddziałują na siebie, dając początek wzorcom samokontroli. Predyspozycje genetyczne prawdopodobnie odgrywają dużą rolę i współdziałają ze skojarzeniami bodziec-odpowiedź i wartościami bodźców.

Innym ważnym wynikiem było to, że różnica między wynikami kruków w eksperymencie 3 i eksperymencie 4 została uchwycona przez symulacje. Przyczyną doskonałych wyników w eksperymencie 4 zarówno w badaniu kruków, jak i w symulacji było to, że pominięto opóźnienie między wyborem a zachowaniem skutkującym nagrodą. Zamiast tego, zaraz po wymuszonym wyborze istniała możliwość użycia przedmiotu do odebrania nagrody. Z tego powodu każda próba prowadziła potencjalnie bezpośrednio do nagrody, podczas gdy wybór właściwego obiektu w eksperymencie 3 był nagradzany dopiero po opóźnieniu. Innymi słowy, w eksperymentach 1-3 kruki mogły otrzymać nagrodę tylko co drugi raz, gdy wybrały prawidłowy obiekt, podczas gdy w eksperymencie 4 otrzymywały nagrody za każdym razem i natychmiast po wybraniu i użyciu funkcjonalnego przedmiotu.

Jednym z podobieństw między naszym modelem uczenia się a niektórymi modelami uczenia się wzmacniającego w AI jest to, że mechanizmy te pozwalają agentom i zwierzętom identyfikować stany świata, które są wartościowe, oraz jakie zachowania są produktywne w tych wartościowych stanach. W sensie operacyjnym, te modele uczenia się generują planowanie, kiedy zachowanie (włóż do aparatu lub daj człowiekowi) w stosunku do bodźca (kamień lub żeton) wyprodukuje wysokiej wartości pożywienie na późniejszym etapie. Dzieje się tak pomimo tego, że jedzenie (lub inny nagradzający bodziec) jest nieobecne. Osvath & Kabadayi , w odpowiedzi na krytyków, zdefiniował elastyczne planowanie jako „podejmowanie decyzji dotyczących przyszłości poza aktualnym zakresem sensorycznym w dziedzinach, do których nie jest się predysponowanym”. Niezależnie od tego, czy modele pochodzą z AI, czy z zachowań zwierząt, kiedy uwarunkowane wzmocnienie jest włączone do modeli uczenia się, zachowania planistyczne, które pasują do tej definicji, pojawią się dzięki sprytnej interakcji wartości bodziec-reakcja i wartości bodźców. Kluczem jest to, że aktualnie dostępne bodźce mogą dostarczyć informacji o tym, jakie zachowania należy wykonać, aby wejść w przyszłe wartościowe stany. Jednak te modele uczenia się nie mogą symulować różnych wyników mentalnie, nie mogą podróżować mentalnie w czasie, ani reorganizować informacji wewnętrznie. Parafrazując Robertsa , zwierzęta nie-ludzkie mogą „utknąć w czasie”, a jednocześnie wykazywać zachowania planistyczne.

Mulcahy & Call próbował wykluczyć warunkowanie instrumentalne jako wyjaśnienie zachowania małp, wykonując eksperyment 4. Faza ta była podobna do eksperymentu 3, ale małpy nie były nagradzane za używanie funkcjonalnego narzędzia. Zamiast małpy wchodzącej do pokoju z funkcjonalnym narzędziem, które mogło być użyte do uzyskania nagrody (jak w eksperymencie 3), małpa wchodziła do pokoju i znajdowała nagrodę, jeśli przeniosła funkcjonalne narzędzie do pokoju testowego z poczekalni. Argumentowano, że jeśli małpy osiągały lepsze wyniki w innych eksperymentach niż w tym jednym, sugerowałoby to, że małpy planowały elastycznie. Mulcahy & Call stwierdził, że ich wyniki „stanowią autentyczny przypadek planowania przyszłości”. Adwokat diabła mógłby wskazać różnice między eksperymentami 3 i 4, czyniąc uczenie się bardziej prawdopodobnym wyjaśnieniem. W eksperymencie 3 małpy były jednoznacznie nagradzane za używanie narzędzia. Wynika z tego wysoka wartość warunkowego wzmocnienia dla narzędzia i wysoka wartość bodziec-reakcja dla użycia narzędzia na aparaturze. W eksperymencie 4 Mulcahy & Call zwraca jednak uwagę na to, że był dłuższy czas pomiędzy podniesieniem narzędzia w poczekalni, przeniesieniem go do sali badawczej, a następnie otrzymaniem nagrody bez użycia narzędzia. Być może niskie wyniki w eksperymencie 4 były spowodowane niejasnym związkiem między narzędziem a nagrodą, gdyż opóźnienie hamuje akwizycję podnoszenia narzędzia w celu późniejszego otrzymania nagrody. Odpowiednie warunki kontroli są ważne, aby umożliwić jednoznaczne odrzucenie hipotez (np. ostatnie dyskusje w ). Nasz model uczenia się może być wykorzystany w przyszłych badaniach do analizy takich różnic behawioralnych spowodowanych zmiennością warunków uczenia się.

Symulacje pokazują, że badanie małp i badanie kruków można zrozumieć poprzez uczenie asocjacyjne. Jednak wyniki eksperymentów z udziałem specjalistów od buforowania, prawdopodobnie zależne od specjalizacji genetycznej, są obecnie poza zakresem naszego modelu uczenia się. Zachowania związane z buforowaniem i karmieniem dotyczą różnych stanów motywacyjnych u zwierząt. Stany motywacyjne mogą być traktowane jako bodźce wewnętrzne i łatwo integrowane w asocjacyjnym modelu uczenia się, co skutkowałoby zwiększoną elastycznością w podejmowaniu decyzji dotyczących żerowania i buforowania. Nasz model w obecnym stanie nie uwzględnia różnych stanów motywacyjnych, ale podaliśmy przykłady, w jaki sposób predyspozycje genetyczne mogą być zintegrowane z modelem. Jednym z możliwych rozwiązań byłoby wprowadzenie zależności od kontekstu, tak aby eksploracja była różna dla różnych bodźców zewnętrznych i/lub dla różnych stanów wewnętrznych. Co ważne, przyjmując założenia o bardziej elastycznych mechanizmach umysłowych, należy wziąć pod uwagę wyższe koszty eksploracji, które są ponoszone przez zwiększoną elastyczność (zob. ). Spodziewamy się, że ewolucja dostroiła genetyczne predyspozycje, które wraz z uczeniem asocjacyjnym generują produktywne i specyficzne dla gatunku zachowania.

Innym ważnym punktem dla przyszłych badań jest to, że kiedy zwierzęta uczą się o konsekwencjach zachowania, a wartości bodziec-reakcja i wartości bodźców są aktualizowane, są to wspomnienia długoterminowe (np. , zobacz też ). Kruk wytrenowany do dawania żetonów człowiekowi nie zapomina po prostu, jak to robić dzień później. Pod względem behawioralnym warunek narzędzia w badaniu kruka jest identyczny z tym, kiedy właściciele psów uczą futrzanych przyjaciół „sprzątania” poprzez wrzucanie zabawek do wyznaczonego kosza. Zamiast kruka nagradzanego za włożenie kamienia do aparatu, pies dostaje nagrodę za włożenie zabawki do kosza. Takie długoterminowe wspomnienia, które są aktualizowane poprzez uczenie asocjacyjne, są bardzo różne od krótkotrwałej pamięci arbitralnych bodźców .

Podsumowując, rozwój modeli uczenia asocjacyjnego jest imponujący w badaniach AI, a modele okazały się potężne w generowaniu złożonych zachowań. Można zapytać, dlaczego te potężne modele nie są szerzej stosowane do zachowań zwierząt innych niż człowiek i dlaczego modele te są niedoceniane jako przyczyna elastycznych zachowań u zwierząt innych niż człowiek. Jest to szczególnie istotne, biorąc pod uwagę, że badania nad poznaniem zwierząt, w których twierdzi się, że zwierzęta nie-ludzkie mają wgląd, wykazują rozumowanie przyczynowe, a plan jest regularnie krytykowany za cierpienie z powodu wielkich twierdzeń opartych na słabej metodologii (np. ). Jednym ze sposobów rozwiązania tego paradoksu asocjacyjnego uczenia się jest integracja dziedzin AI, uczenia się zwierząt i poznania zwierząt. Aby zrozumieć mechanizmy generujące zachowanie, formalne modele asocjacyjne typu bottom-up będą prawdopodobnie bardziej pouczające niż werbalne modele poznawcze typu top-down „wyższego rzędu”. Na przykład dlatego, że te ostatnie modele są trudniejsze do odrzucenia i nie można ich zaimplementować w symulacjach ani wykorzystać przy budowie robotów. Podsumowując, stwierdza się, że nie można wykluczyć, że elastyczne planowanie u małp człekokształtnych i krukowatych, a prawdopodobnie także u wielu innych gatunków, wyłania się poprzez uczenie asocjacyjne.

Dostępność danych

Figury i dane z symulacji mogą być generowane przy użyciu oprogramowania i kodu określonego w elektronicznych materiałach uzupełniających.

Wkład autorów

J.L. wymyślił badania, wykonał symulacje komputerowe, przeanalizował dane i napisał manuskrypt.

Kompetentne interesy

Nie ma konkurencyjnych interesów.

Funding

This work was supported by Knut and Alice Wallenberg Foundation, KAW 2015.005.

Acknowledgements

Podziękowania dla Markusa Jonssona, Magnusa Enquista, Anny Jon-And i Stefano Ghirlandy. Podziękowania również dla dwóch anonimowych recenzentów za cenne i wnikliwe komentarze.

Footnotes

Elektroniczne materiały uzupełniające są dostępne online pod adresem https://dx.doi.org/10.6084/m9.figshare.c.4302740.

© 2018 The Authors.

Published by the Royal Society under the terms of the Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, which permits unrestricted use, provided the original author and source are credited.

  • Mnih Vet al.2015Sterowanie na poziomie człowieka poprzez głębokie uczenie wzmacniające. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
  • Emery NJ, Clayton NS. 2004The mentality of crows: konwergentna ewolucja inteligencji u krukowatych i małp. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
  • Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontaniczny wybór prospołeczny przez szympansy. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
  • MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
  • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016How szympansy współpracują w konkurencyjnym świecie. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
  • Whiten A. 2017Social learning and culture in child and chimpanzee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
  • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
  • Tomasello M, Call J. 1997Primate cognition. Oxford, UK: Oxford University Press. Google Scholar
  • Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Insightful problem solving and creative tool modification by captive nontool-using rooks. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Reply do Lind et al.: wgląd i uczenie się. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
  • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Using the Aesop’s fable paradigm to investigate causal understanding of water displacement by New Caledonian crows. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
  • Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
  • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
  • Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees and bonobos differ in intrinsic motivation for tool use. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
  • Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behavior. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
  • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, UK: Oxford University Press. Crossref, Google Scholar
  • Carew TJ, Sahley CL. 1986Invertebratebrate learning and memory: from behavior to molecules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
  • Bouton ME. 2007Uczenie się i zachowanie: nowoczesna synteza. Sinauer, MA: Sunderland. Google Scholar
  • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
  • Mulcahy NJ, Call J. 2006Apes save tools for future use. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
  • Naqshbandi M, Roberts WA. 2006Anticipation of future events in squirrel monkeys (Saimiri sciureus) and rats (Rattus norvegicus): tests of the Bischof-Köhler hypothesis. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
  • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planning for the future by western scrub-jays. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
  • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobo i orangutany, ale nie szympansy, flexibly planują przyszłość w zadaniu wymiany tokenów. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
  • Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
  • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
  • Suddendorf T, Corballis MC. 2010Behavioural evidence for mental time travel in nonhuman animals. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Corballis MC, Collier-Baker E. 2009How great ape foresight is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2010Mentalne podróże w czasie u zwierząt. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
  • Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Bulley A, Miloyan B. 2018Prospection and natural selection. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
  • Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, UK: Psychology Press. Google Scholar
  • Shettleworth S. 2010Cognition, evolution, and behavior. Oxford, UK: Oxford University Press. Google Scholar
  • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
  • Eaton RL. 1970Sekwencja drapieżnicza, z naciskiem na zachowania związane z zabijaniem i ich ontogenezę, u geparda (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
  • Kelleher RT, Gollub LR. 1962A review of positive conditioned reinforcement. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
  • Mackintosh NJ. 1974The psychology of animal learning. London, UK: Academic Press. Google Scholar
  • Williams BA. 1994Conditioned reinforcement: zagadnienia eksperymentalne i teoretyczne. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
  • McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Australia: Darlington Press. Google Scholar
  • Rescorla RA, Wagner AR. 1972A theory of Pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement. In Classical conditioning II: current research and theory (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
  • Blough DS. 1975Steady state data and a quantitative model of operant generalization and discrimination. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
  • Sutton RS, Barto AG. 1998Reinforcement learning. Cambridge, MA: MIT Press. Google Scholar
  • Balleine B, Dickinson A. 1991Instrumental performance following reinforcer devaluation depends upon incentive learning. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
  • Dickinson A, Balleine B. 1994Motivational control of goal-directed action. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
  • Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
  • Werner EE, Hall DJ. 1974Optimal żerowania i wybór wielkości ofiary przez bluegill sunfish (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
  • Elner RW, Hughes RN. 1978Energy maximization w diecie kraba przybrzeżnego Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
  • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimal prey selection in the great tit (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
  • Goss-Custard JD. 1977Optimal foraging and the size selection of worms by redshank, Tringa totanus, in the field. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
  • Osvath M, Kabadayi C. 2018Contrary to the gospel, ravens do plan flexibly. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
  • Barto AJ. 2003Reinforcement learning. In The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
  • Roberts WA. 2002Are animals stuck in time?Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Lind J. 2017’Aesop’s fable’ experiments demonstrate trial-and-error learning in birds, but no causal understanding. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
  • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Meta-analytic techniques reveal that corvid causal reasoning in the Aesop’s fable paradigm is driven by trial-and-error learning. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
  • Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays przewidują przyszłe potrzeby niezależnie od ich obecnego stanu motywacji. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2012Eurazjatyckie sójki (Garrulus glandarius) pokonują swoje obecne pragnienia, aby przewidzieć dwie odrębne przyszłe potrzeby i odpowiednio je zaplanować. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
  • Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
  • Skinner BF. 1950Are theories of learning necessary?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
  • Vaughan W, Greene SL. 1984Pigeon visual memory capacity. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
  • Gleitman H. 1971Forgetting of long-term memories in animals. In Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
  • Penn DC, Holyoak KJ, Povinelli DJ. 2008Błąd Darwina: wyjaśnianie nieciągłości między ludzkimi i nie-ludzkimi umysłami. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
  • Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
  • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
  • Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
  • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
  • Dymond S, Stewart I. 2016Relational and analogical reasoning in comparative cognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
  • Lindenfors P. 2017Bird brains: are crows as intelligent as some scientists claim?Skept. Mag. 22, 10-11. Google Scholar
  • Lind J, Enquist M. 2009More synthetic work is needed. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.