Was kann assoziatives Lernen für die Planung leisten?

Einführung

Zum Erstaunen der Welt erreichen Modelle des assoziativen Lernens, die in der Forschung zur künstlichen Intelligenz (KI) eingesetzt werden, heute Fähigkeiten auf menschlichem Niveau in Videospielen und schlagen menschliche Meister in den chinesischen Brettspielen Go, Schach und Shogi. Trotz der Tatsache, dass assoziatives Lernen in der KI-Forschung anerkannt ist, um menschenähnliches Verhalten zu erzeugen, wird assoziatives Lernen oft entweder nicht erwähnt (z. B. ) oder als unerwünscht oder unzureichend ausgefeilt (z. B. ) angesehen, um Erklärungen für flexibles Verhalten bei nicht-menschlichen Tieren zu liefern. Es ist ein faszinierendes Paradoxon, dass assoziatives Lernen in der KI-Forschung für die Erzeugung von komplexem, flexiblem Verhalten anerkannt ist, aber als Modell für flexibles Verhalten in biologischen Systemen (sowohl bei Menschen als auch bei nicht-menschlichen Tieren) oft abgetan und vernachlässigt wird.

Ob die Entwicklung von Verhaltenssequenzen bei nicht-menschlichen Tieren mit Hilfe von assoziativem Lernen verstanden werden kann oder nicht, hat weitreichende Konsequenzen für unser Verständnis der Verhaltensforschung. Wenn sich als fortschrittlich oder komplex empfundenes Verhalten, wie der Werkzeuggebrauch bei Schimpansen (Pan troglodytes), durch assoziative Prozesse entwickeln kann, können Artunterschiede in Form von genetischen Unterschieden in Verhaltensrepertoires, Erkundungstendenzen wie Neugier und motivationalen und aufmerksamkeitsbezogenen Faktoren gesucht werden. Wenn assoziative Prozesse nicht ausreichen, um zu erklären, wie Informationen verarbeitet und Erinnerungen aktualisiert werden, um Verhalten zu erzeugen, dann müssen alternative Mechanismen gefunden werden, um zu verstehen, wie ein solches Verhalten entsteht. Heutzutage vertreten die Forscher in dieser Frage sehr gegensätzliche Ansichten. Auf der einen Seite gehen einige davon aus, dass assoziative Prozesse zusammen mit Faktoren wie der Größe des Verhaltensrepertoires und der Exploration sehr leistungsfähig sind und einen großen Teil der Verhaltensentwicklung von Tieren erklären können (z. B. ). Andere hingegen betonen alternative Mechanismen und schlagen vor, dass Tiere über viele verschiedene Mechanismen verfügen, die unterschiedliche spezifische Probleme lösen, und dass diese Mechanismen durch die Evolution fein abgestimmt wurden (z. B. ). Nicht alle Studien fallen in diese beiden Kategorien, und einige Studien testen alternative Erklärungen und kontrollieren das assoziative Lernen. Es ist jedoch üblich, dass solche Studien nur die einfachsten Formen des assoziativen Lernens annehmen. Dies führt wahrscheinlich dazu, dass die Hypothese des assoziativen Lernens falsch zurückgewiesen wird. Dies liegt daran, dass die meisten Wirbeltiere und Wirbellosen sowohl instrumentelles als auch pawlowsches Lernen beherrschen, was zusammen mit spezialisierten Gedächtnissen die meisten Tiere zu komplexerem Lernen befähigt, als es die einfachsten Formen des assoziativen Lernens erlauben.

Das Ziel dieser Studie war es zu untersuchen, ob ein Lernmodell, das dem in der KI-Forschung verwendeten Verstärkungslernen ähnelt, uns helfen kann, den Erwerb von Planungsverhalten bei Rabenvögeln und Affen zu verstehen, Verhaltensweisen, die manchmal als komplex und menschenähnlich angesehen werden. Man ist zu dem Schluss gekommen, dass mehrere Arten flexibel für die Zukunft planen, nicht anders als der Mensch (z. B. ). Man geht davon aus, dass diese Art der Planung das Ergebnis eines flexiblen mentalen Mechanismus ist, der auf der Grundlage aktueller Informationen verschiedene zukünftige Zustände mental simulieren kann. Diese Behauptungen sind jedoch auf der Grundlage von mindestens zwei verschiedenen Argumentationslinien angefochten worden. Erstens haben Forscher Zweifel an der allgemeinen Planungskapazität von Vögeln geäußert, da Planungsstudien bei Vögeln in der Regel Caching-Spezialisten mit Caching-Aufgaben betrafen, wie z. B. Buschhäher (Aphelocoma californica), Eichelhäher (Garrulus glandarius) und Schwarzkopfmeisen (Poecile atricapillus). Diese Ergebnisse könnten auf spezialisierte Gedächtnisrepertoires zurückzuführen sein (vgl. ). Der zweite Grund für die Ablehnung der Idee, dass nicht-menschliche Tiere flexibel planen, ist, dass das beobachtete Verhalten nicht durch menschenähnliche Planung verursacht wurde, sondern am besten als Ergebnis assoziativen Lernens zu verstehen ist, und dass methodische Mängel diese Studien zweideutig machen.

Warum wäre ein Modell des assoziativen Lernens für das Verständnis zukunftsorientierten Verhaltens nützlich? Assoziatives Lernen ist bekannt dafür, dass es antizipatorische Verhaltensweisen hervorruft, also Verhaltensweisen, die spätere bedeutsame Ereignisse vorhersagen können, ohne einen unmittelbaren Nutzen zu haben. Auch die Selbstkontrolle, die oft als wichtig für die Planung genannt wird, kann durch assoziatives Lernen entstehen. Man könnte annehmen, dass Selbstkontrolle durch assoziatives Lernen nicht möglich ist, weil ein sofort belohntes Verhalten immer einem nicht belohnten Verhalten vorgezogen werden sollte. Aber für viele Tiere sind „Warten“ oder „Anpirschen“ Verhaltensweisen, die verstärkt werden können, wenn sie mit späteren Belohnungsmöglichkeiten einhergehen. Raubtiere zum Beispiel lernen das Anpirschen und Abwarten, wenn sie jung sind.

Das hier verwendete Modell ist ein assoziatives Lernmodell, das in der Lage ist, optimales Verhalten in einer komplexen Welt zu lernen. Das Modell umfasst zwei verschiedene Speicher und einen Entscheidungsmechanismus. Ein Speicher speichert die Assoziationsstärke der Ausführung des Verhaltens B gegenüber dem Reiz S, der andere Speicher speichert den geschätzten Wert des Reizes S. Das Modell kann Verhaltenssequenzen lernen, indem es einzelne Verhaltensweisen durch konditionierte Verstärkung (Sekundärverstärkung) miteinander verknüpft. Auf diese Weise können ursprünglich neutrale Reize, die den primären Verstärkern vorausgehen, selbst zu Verstärkern werden und so das zuvor unbelohnte Verhalten verändern. Ein Kaninchen, das mit dem Clicker trainiert wurde, hat beispielsweise wiederholt Clicks gehört, bevor es mit Futter belohnt wurde. Für dieses Kaninchen wird ein Klick an sich belohnend, und es wird lernen, Verhaltensweisen auszuführen, die nur dazu führen, dass das Kaninchen einen Klick hört. Das Modell wird im Abschnitt „Material und Methoden“ weiter unten erläutert.

Hier prüfe ich die Hypothese, dass ein assoziatives Lernmodell die in Studien zur Planung von nicht-menschlichen Tieren gefundenen Ergebnisse erklären kann. Das Lernmodell wurde verwendet, um die Ergebnisse von zwei Planungsstudien zu simulieren, eine mit Orang-Utans (Pongo pygmaeus) und Bonobos (Pan paniscus) und eine mit Raben (Corvus corax). Es wurde festgestellt, dass die Simulationen wichtige Muster innerhalb und zwischen diesen Studien wiedergeben. Die Schlussfolgerung lautet, dass man nicht ausschließen kann, dass Studien zur flexiblen Planung bei Affen und Rabenvögeln durch assoziatives Lernen erklärt werden können. Daher kann assoziatives Lernen nicht nur menschenähnliches Verhalten hervorbringen (z.B. ), sondern ist ein Erklärungskandidat für Beobachtungen von Planung und Selbstkontrolle bei nicht-menschlichen Tieren.

Material und Methoden

Hier beschreibe ich unser Lernmodell , die Logik der zwei verschiedenen Studien, die für die Simulationen verwendet wurden, und Details der Simulationen.

2.1. Eine Beschreibung des Modells

Ein Tier hat ein Verhaltensrepertoire und kann seine Verhaltensweisen nutzen, um sich in einer Welt von erkennbaren Umweltzuständen zu bewegen. Ein Verhalten bringt das Tier von einem Zustand in einen anderen. Jeder Zustand oder Stimulus hat einen primären Verstärkungswert, der genetisch festgelegt ist. Diese Werte können negativ, neutral oder positiv sein und lenken das Lernen so, dass Verhaltensweisen, die das Überleben und die Fortpflanzung begünstigen, gefördert werden. Es wird davon ausgegangen, dass die Tiere Entscheidungen treffen, die den Gesamtwert maximieren, und dass sich Erwartungen über den Wert eines zukünftigen Zustands entwickeln können. Das Modell kann also zielgerichtetes Verhalten erzeugen (siehe eine weitere Diskussion über zielgerichtetes Verhalten und Lernen).

Kurz gesagt, das Modell beschreibt das Lernen von Verhaltenssequenzen gegenüber Reizen durch Veränderungen im Gedächtnis. Es beinhaltet eine Entscheidungsfindung, die das Gedächtnis berücksichtigt, um zu bestimmen, welches Verhalten gewählt werden soll, wenn ein bestimmter Reiz wahrgenommen wird. Nehmen wir als Beispiel das Erlernen einer einzelnen Verhaltensweise, etwa wenn ein Hund lernt, seine Pfote als Reaktion auf das Kommando „Schütteln“ zu geben. Das Heben der Pfote ist das Verhalten, der Befehl „Schütteln“ und die Belohnung sind Reize. Die zu erlernende Ereignisfolge lautet: Befehl „Schütteln“ → Pfote heben → Belohnung, oder

Befehl „Schütteln′→Pfote heben→Futterbelohnung

Das Modell sammelt Informationen über den Wert von Verhaltensweisen gegenüber verschiedenen Stimuli (oder Zuständen) und Informationen über den Wert verschiedener Stimuli (oder bestimmter Zustände). Das Lernen erfolgt durch die Aktualisierung von zwei verschiedenen Arten von Erinnerungen. Diese Erinnerungen entsprechen dem Pawlowschen und dem instrumentellen Lernen und werden nach einer Ereignisfolge wie im Hundebeispiel oder allgemeiner ausgedrückt der Ereignisfolge S → B → S′ aktualisiert. Die erste Art von Gedächtnis ist eine Reiz-Reaktions-Assoziation. Wir haben vS→B verwendet, um die Assoziationsstärke zwischen Reiz S und Verhalten B zu bezeichnen. Funktional gesehen kann vS→B als der geschätzte Wert der Ausführung von Verhalten B bei Wahrnehmung des Reizes S beschrieben werden. Wir verwenden wS, um diesen Reizwert zu bezeichnen, und er wird entsprechend dem Wert eines nachfolgenden Reizes aktualisiert. Mit anderen Worten, wS ist der konditionierte Verstärkungswert des Zustands S. Diese Speicher werden gemäß

ΔvS→B=αv(uS′+wS′-vS→B)undΔwS=αw(uS′+wS′-wS)}2.1

nach dem Erleben der Ereignisfolge S → B → S′ aktualisiert. Die Reiz-Reaktions-Assoziation vS→B wird entsprechend uS′ einem primär angeborenen festen Wert des Reizes S′ und wS′ dem konditionierten Verstärkungswert und der zuvor gespeicherten Reiz-Reaktions-Assoziation vS→B aktualisiert. Bei konditionierter Verstärkung ist der Wert der Ausführung des Verhaltens B bei Wahrnehmung des Reizes S die Summe aus dem primären und dem konditionierten Verstärkungswert des Reizes S′. Wenn nur die erste Gleichung verwendet und w ausgeschlossen wird, handelt es sich um instrumentelles Reiz-Reaktions-Lernen, d. h. um eine instrumentelle Version des klassischen Rescorla-Wagner-Lernmodells. Die Lernraten αv und αw bestimmen die Geschwindigkeit, mit der Gedächtnisaktualisierungen stattfinden.

Damit das Lernmodell Verhalten erzeugen und auswählen kann, ist ein Mechanismus zur Entscheidungsfindung erforderlich. Wir haben einen Entscheidungsmechanismus verwendet, der Verhaltensreaktionen auswählt und eine gewisse Variation des Verhaltens durch Erkundung bewirkt. Dies spezifiziert die Wahrscheinlichkeit des Verhaltens B im Zustand S als

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

wozu ein Parameter β gehört, der das Ausmaß der Exploration reguliert. Alle Verhaltensweisen werden mit gleicher Wahrscheinlichkeit ausgewählt, wenn β = 0 ist, ohne dass die geschätzten Werte berücksichtigt werden. Wenn β groß ist, wird hauptsächlich das Verhalten mit dem höchsten geschätzten Wert (v) ausgewählt.

Zurück zum Hund für ein praktisches Beispiel. Der Hund hört das Kommando „Schütteln“, Stimulus S. Wenn der Hund seine Pfote nach oben bewegt, also das Verhalten B ausführt, erhält er die Belohnung S′. Die Futterbelohnung S′ hat einen primären angeborenen Wert u. Wenn der Hund diese Belohnung erhält, nachdem er korrekt auf das Kommando „Schütteln“ reagiert hat, erhöht sich das Reiz-Reaktions-Gedächtnis vKommando „Schütteln“ → Pfote heben gemäß der oberen Zeile in Gleichung (2.1). Darüber hinaus wird der Reizwert w des Befehls „Schütteln“ gemäß der unteren Zeile von Gleichung (2.1) aktualisiert. Dieser Wert w des Befehls „Schütteln“ nähert sich dem Wert u der Futterbelohnung an und erhält dadurch selbst verstärkende Eigenschaften; er ist zu einem konditionierten Verstärker geworden. Der konditionierte Verstärker kann den Weg für das Erlernen weiterer Verhaltensweisen ebnen, bevor die Pfote nach oben bewegt wird. Dies kann geschehen, weil Verhaltensweisen, die dazu führen, dass der Hund den Befehl „Schütteln“ hört, verstärkt werden können.

2.2. Simulation von Planungsstudien an Menschenaffen und Raben

Die Simulationen der Planungsexperimente basierten auf detaillierten Beschreibungen der Abläufe in den beiden Studien, in denen Schlüsselereignisse identifiziert wurden. Zu den Schlüsselereignissen gehörte, welche Verhaltensweisen vor den Tests trainiert wurden und auf welche Objekte gerichtet waren, und welche Ergebnisse sich aus den verschiedenen Entscheidungen während des Vortrainings und der Tests ergaben. Es ist wichtig, Details in diesen Studien zu identifizieren, da die Testphasen eine Mischung aus belohnenden und nicht belohnenden Aktionen beinhalteten. Daher wurde erwartet, dass sich sowohl die Reiz-Reaktion (v) als auch die Reizwerte (w) während der Tests ändern.

Um die Simulationen möglich und realistisch zu gestalten, wurde davon ausgegangen, dass die Tiere zu Beginn der Studien über einige notwendige Alltagsfähigkeiten verfügten. So wurde angenommen, dass die Tiere zuvor gelernt hatten, Gegenstände zu halten, sich zwischen Räumen und Fächern zu bewegen, zu wissen, wo sich verschiedene Dinge befanden, und einige grundlegende Fähigkeiten im Umgang mit den Versuchsleitern zu besitzen. So wurden die Affen beispielsweise nach einer Wahl aus dem Versuchsraum geführt, um später wieder in den Versuchsraum zurückkehren zu dürfen. Durch die Vernachlässigung solcher alltäglichen Fähigkeiten konzentrierten sich die Simulationen und die Verhaltensbeschreibungen auf die einzigartigen Verhaltenssequenzen, die die Tiere im Rahmen der Experimente lernen mussten.

Die beiden Studien haben wesentliche Merkmale gemeinsam. Bevor die Versuche begannen, wurden die Tiere einem Vortraining unterzogen. Dabei lernten sie, Verhaltensweisen auszuführen, die später als richtig bewertet wurden. Neben dem Vortraining der korrekten Verhaltensweisen beinhaltete die Rabenstudie auch ein Auslöschungstraining. Während des Extinktionstrainings hatten die Raben die Möglichkeit zu lernen, dass nicht funktionierende Objekte keine Belohnung nach sich ziehen. Die Schlüsselereignisse in beiden Studien, die für die Bewertung der richtigen bzw. falschen Entscheidungen herangezogen wurden, waren Forced-Choice-Tests. Dabei wurden die Tiere gezwungen, zwischen einem Objekt, von dem sie zuvor gelernt hatten, dass es zu einer Belohnung führen könnte, und anderen Objekten zu wählen, die nicht für spätere Belohnungen verwendet werden konnten (Ablenkungsobjekte). Die Raben lernten während des Extinktionstrainings, dass diese Ablenkungsobjekte keine Belohnungen auslösen konnten. Nach der erzwungenen Wahl gab es in beiden Studien eine gewisse Zeitverzögerung, nach der die Tiere ein Verhalten unter Verwendung des zuvor gewählten Objekts ausführen durften. Wenn ein Tier vor der Verzögerung eine richtige Wahl traf, konnte es später sein gewähltes Objekt verwenden, um eine Belohnung zu erhalten. Wenn ein Tier vor der Verzögerung eine falsche Wahl traf, gab es nach der Verzögerung keine Möglichkeit für belohnendes Verhalten.

Die durchgeführten Simulationen folgten auf die Vortrainingsphase und die Testphase der Studien. Die Vergleiche werden mit den in den beiden Studien festgelegten Zufallswerten für richtige Entscheidungen durchgeführt. Mulcahy & Call erwartete, dass die Affen in 25 % der Fälle zufällig das Richtige wählen würden (ein funktionales Objekt und drei Ablenkungsobjekte). Kabadayi & Osvath erwartete, dass die Raben in den Experimenten 1 und 2 zu 25 % und in den Experimenten 3 und 4 zu 20 % zufällig die richtige Wahl treffen würden (ein funktionales Objekt und drei Ablenkungsobjekte in den Experimenten 1 und 2 und ein funktionales Objekt, eine kleine Belohnung und drei Ablenkungsobjekte in den Experimenten 3 und 4). Genaue Beschreibungen finden Sie in den Simulationsskripten (siehe elektronisches Zusatzmaterial). Um das Nachvollziehen der Simulationen zu erleichtern, finden Sie hier ausführliche Beschreibungen der beiden Studien.

2.3. Eine Beschreibung der Studie von Mulcahy und Call an Menschenaffen

Diese Tests wurden mit Orang-Utans und Bonobos durchgeführt. Die Studie begann mit einem Vortraining. Hier wurde ein Tier in einem Testraum platziert und auf zwei verschiedene Werkzeugaufgaben trainiert, um eine Belohnung von einem Gerät zu erhalten. Diese funktionalen Werkzeuge werden im Folgenden als funktionale Objekte bezeichnet. Eine Aufgabe bestand darin, ein Rohr zu wählen und dieses Rohr in ein Gerät einzuführen. Die andere Aufgabe bestand darin, einen Haken zu wählen und mit diesem eine Flasche zu erreichen, die ohne den Haken nicht zu erreichen war. Nach dem Vortraining wurde das Tier einem Forced-Choice-Test zwischen funktionalen Objekten und drei entsprechenden nicht-funktionalen Objekten (später als Distraktoren bezeichnet) unterzogen. Während dieser erzwungenen Wahl wurde jedoch der Zugang zu dem Gerät, das eine Belohnung enthielt, blockiert. Nachdem die Wahl getroffen worden war, wurde das Tier aus dem Versuchsraum in einen Warteraum geführt. Die Objekte, die das Tier nicht mitgenommen hatte, wurden nun aus dem Versuchsraum geräumt. Zu diesem Zeitpunkt gab es eine Verzögerung. Nach der Wartezeit wurde das Tier wieder in den Versuchsraum gelassen und erhielt Zugang zu den Geräten. Wenn ein funktionales Objekt im Forced-Choice-Test gewählt worden war, konnte das Tier nun das Objekt benutzen, um eine Belohnung zu erhalten, und damit das Verhalten zeigen, das es während des Vortrainings gelernt hatte.

Diese Studie umfasste vier Tests, die sich leicht unterschieden. Die Tests unterschieden sich im Hinblick darauf, welches Werkzeug das funktionale Objekt war und wie lange die Verzögerungen dauerten. Außerdem mussten die Tiere im letzten Versuch das Werkzeug nicht benutzen, um eine Belohnung zu erhalten. Man beachte, dass in Versuch 4 zwei neue Individuen eingesetzt wurden, die nicht an den Versuchen 1, 2 oder 3 teilgenommen hatten. Dieser letzte Teil war hier aus den im Abschnitt Ergebnisse genannten Gründen von geringer Bedeutung. Die Simulationen folgten der Logik der Studie, und hier sind die Einzelheiten der Schlüsselereignisse und Verzögerungen, die in der Simulation verwendet wurden:

  • Vortraining: Vor den Tests lernten alle Probanden den Umgang mit den Funktionswerkzeugen. In zwei Schritten wurden mindestens drei plus acht Vorübungsversuche für die Rohraufgabe und mindestens fünf Vorübungsversuche für die Hakenaufgabe zugelassen.

  • Experiment 1, Rohrbedingung: (1) Forced Choice mit funktionaler Röhre und Ablenkungsobjekten (16 Versuche). (2) Nach der Wahl in einen anderen Raum gehen. (3) 1 h warten. (4) Zurückkehren und wenn die funktionale Röhre gewählt wurde, konnte diese als Belohnung verwendet werden.

  • Experiment 2, Röhrenbedingung: (1) Erzwungene Wahl mit funktionaler Röhre und Ablenkungsobjekten (12 Versuche). (2) Nach der Wahl in einen anderen Raum gehen. (3) 14 Stunden warten. (4) Zurückkehren und wenn die funktionale Röhre gewählt wurde, konnte diese benutzt werden, um eine Belohnung zu erhalten.

  • Experiment 3, Hakenbedingung: (1) Erzwungene Wahl mit funktionalem Haken und Ablenkungsobjekten (16 Versuche). (2) Nach der Wahl in einen anderen Raum gehen. (3) 1 h warten. (4) Zurückkehren und wenn der funktionale Haken gewählt wurde, konnte dieser benutzt werden, um eine Belohnung zu erhalten.

  • Experiment 4, Hakenbedingung: (1) Erzwungene Wahl mit funktionalem Haken und Ablenkungsobjekten (16 Versuche). (2) Nach der Wahl in einen anderen Raum gehen. (3) 1 h warten. (4) Zurückkehren und wenn der funktionale Haken gewählt wurde, eine Belohnung erhalten, ohne den Haken zu benutzen.

Die zu erlernenden Verhaltenssequenzen waren die folgenden:

  • Röhre Bedingung: Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Hook condition: Shook → Btake-Haken → Sapparatus → Buse-Haken → Sreward

In beiden Bedingungen wurden die Affen nie für die Wahl der Ablenkungsobjekte belohnt, oder:

  • Ablenker: Sdistractor → Btake distractor → Sno reward

2.4. Eine Beschreibung von Kabadayi & Osvaths Studie über Raben

Diese Tests wurden mit Raben durchgeführt. Diese Studie begann mit einem Vortraining. Hier wurde ein Tier in einen Testraum gebracht und auf zwei verschiedene Werkzeugaufgaben trainiert, um eine Belohnung von einem Gerät zu erhalten. Wie oben beschrieben, werden funktionale Werkzeuge als funktionale Objekte bezeichnet. Eine Aufgabe bestand darin, einen Stein in ein Gerät zu legen, um eine Belohnung zu erhalten. Die andere Aufgabe bestand darin, einen Flaschenverschluss (Token genannt) zu nehmen und ihn einem Menschen zu geben. Im Gegensatz zur Studie an Affen wurden den Raben vor Beginn der Tests auch Auslöschungsversuche gestattet. Dabei durfte ein Tier mit den Objekten interagieren, die während der Forced-Choice-Tests anwesend sein würden, die aber nie zum Erhalt von Belohnungen verwendet werden konnten (später als Ablenkungsobjekte bezeichnet). Nach dem Vortraining wurde das Tier einem Forced-Choice-Test zwischen einem funktionalen Objekt und drei Ablenkungsobjekten unterzogen. Nachdem eine Wahl getroffen worden war, durfte das Tier das funktionale Objekt für einige Zeit nicht benutzen. Mit anderen Worten: Unmittelbar nach dem Wahltest konnte keine Belohnung eingesammelt werden (mit Ausnahme von Versuch 4). Zu diesem Zeitpunkt gab es eine Verzögerung. Nach der Verzögerung durfte das Tier sein gewähltes Objekt benutzen. Wenn ein funktionales Objekt im Forced-Choice-Test gewählt worden war, konnte das Tier nun dieses Objekt benutzen, um eine Belohnung zu erhalten, und damit das Verhalten zeigen, das es während des Vortrainings gelernt hatte.

Diese Studie umfasste auch vier Tests, die sich leicht unterschieden. Die Tests unterschieden sich hinsichtlich der Anzahl der Versuche, der Dauer der Verzögerungen und im letzten Test mussten die Tiere nicht warten, bevor sie einen funktionalen Gegenstand zur Belohnung benutzen konnten. Es ist zu beachten, dass in dieser Studie zwei verschiedene Belohnungen verwendet wurden. Eine hochwertige Belohnung wurde beim Vortraining und in allen Experimenten verwendet. In den Experimenten 3 und 4 wurde eine bekannte Belohnung von geringem Wert in der erzwungenen Wahlsituation zusammen mit dem funktionalen Werkzeug und den Ablenkungsobjekten verwendet. Beachten Sie, dass die Experimente nicht in der gleichen Reihenfolge durchgeführt wurden, wie sie in der veröffentlichten Studie nummeriert wurden. Ich habe mich dafür entschieden, die Tests in der zeitlichen Reihenfolge zu präsentieren, in der sie durchgeführt wurden (1,3,2,4). Die Simulationen folgten der Logik der Studie, und hier sind die Einzelheiten der Schlüsselereignisse, die in der Simulation verwendet wurden: Die Schlüsselereignisse vor und während der Versuche waren:

  • Vortraining: Vor den Versuchen lernten alle Probanden den Umgang mit den Funktionswerkzeugen. In zwei Schritten wurden mindestens drei plus fünf Vortrainingsversuche für die Werkzeugaufgabe und 35 Vortrainingsversuche für die Tokenaufgabe zugelassen.

  • Extinktionsversuche: In dieser Phase durften die Probanden 5 Minuten lang Ablenkungsobjekte manipulieren, ohne Belohnungen zu erhalten.

  • Experiment 1: (1) Forced Choice mit funktionalem Objekt und Ablenkungsobjekten. 14 Versuche in der Werkzeugbedingung und 12 × 3 Versuche in der Tokenbedingung. (2) 15 Minuten warten. (3) Das gewählte Objekt kann erneut verwendet werden, und wenn der Stein oder das Token gewählt wurde, kann es verwendet werden, um eine Belohnung zu erhalten.

  • Experiment 3: (1) Erzwungene Wahl mit funktionalem Objekt, kleiner Belohnung und Ablenkungsobjekten. 14 Versuche in der Werkzeugbedingung und 14 Versuche in der Tokenbedingung. (2) 15 Minuten warten. (3) Das gewählte Objekt kann erneut verwendet werden, und wenn der Stein oder das Token gewählt wurde, kann es verwendet werden, um eine Belohnung zu erhalten.

  • Experiment 2: (1) Erzwungene Wahl mit funktionalem Objekt und Ablenkungsobjekten. 6 Versuche in der Werkzeugbedingung und 6 Versuche in der Tokenbedingung. (2) 17 h warten. (3) Gewähltes Objekt kann erneut verwendet werden, und wenn der Stein oder die Marke gewählt wurde, kann er/sie verwendet werden, um eine Belohnung zu erhalten.

  • Experiment 4: (1) Erzwungene Wahl mit funktionalem Objekt, kleiner Belohnung und Ablenkungsobjekten. 14 Versuche in der Werkzeugbedingung und 14 Versuche in der Tokenbedingung. (2). Wenn der Stein oder das Token gewählt worden war, konnte es verwendet werden, um eine Belohnung zu erhalten.

Die zu erlernenden Verhaltenssequenzen waren die folgenden:

  • Werkzeug-Bedingung: Stoken → Btake tool → Sapparatus → Buse tool → Sreward

  • Token condition: Stoken → Btake token → Shuman → Bgive token → Sreward

Den Raben wurde auch während einer Extinktionsphase beigebracht, dass es niemals belohnend ist, Distraktorobjekte auszuwählen oder zu benutzen. Dies war auch während aller Tests der Fall, oder:

  • Distraktoren: Sdistractor → Btake distractor → Sno reward

In den Selbstkontrollphasen der Studie hatten die Raben die Möglichkeit, eine kleine Belohnung zu wählen, die neben dem funktionalen Objekt (Werkzeug oder Token) und den Distraktorobjekten präsentiert wurde. Daher waren in den Experimenten 3 und 4 auch diese Verhaltenssequenzen möglich:

  • Werkzeugbedingung: Sdog kibble → Btake small reward → Ssmall reward

  • Token condition: Sdog kibble → Btake small reward → Ssmall reward

2.5. Illustration von Gedächtnisaktualisierungen während des Vortrainings

Um zu veranschaulichen, wie diese Verhaltenssequenzen durch das Lernen beeinflusst werden, ist hier ein Beispiel für Gedächtnisaktualisierungen beim Vortraining in der Rabenstudie. Die Verhaltenssequenz, die sich während des Vortrainings entwickelt hat, kann wie folgt beschrieben werden: Hocker → Werkzeug nehmen → Sapparatus → Werkzeug benutzen → Sbelohnung, wobei der Wert des Einsetzens des Steins in den Apparat zunahm, so dass vSapparatus → Werkzeug benutzen≫0. Da das Modell auch konditionierte Verstärkung enthält, wird der Wert des Steins selbst entsprechend dem Wert des folgenden Reizes, der großen Belohnung, aktualisiert. Bei wiederholten Erfahrungen wird der Reizwert (w) von S-Belohnung den Reizwert von Hocker wachsen lassen. Wie in unserer Beschreibung dieses Modells gezeigt, nähert sich der Wert des Werkzeugs mit genügend Erfahrung dem Wert der großen Belohnung an. Im Gegensatz dazu können die Extinktionsversuche mit wiederholten unbelohnten Erfahrungen mit den drei Distraktorobjekten als Sdistraktor → Bpick Distraktor → Sno Belohnung beschrieben werden. Diese Ereignisfolge bewirkt eine Verringerung sowohl der Assoziationsstärke bei der Wahl eines Distraktors vSdistractor → Bpick distractor als auch des konditionierten Verstärkungswertes (wdistractor) des Distraktors. Wenn der erste Test mit einer erzwungenen Wahl beginnt, wurde das Verhalten der Raben durch das Vortraining sowohl mit dem Stein als auch mit den Distraktoren beeinflusst.

2.6. Simulationsdetails

Das obige Modell wurde in ein Python-Programm integriert, in dem das Lernen gemäß den detaillierten Verfahren der beiden Studien, wie oben definiert, erfolgte, um Schätzungen der Wahrscheinlichkeiten für die Wahl der verschiedenen Stimuli und der v- und w-Werte während der Studien zu erhalten. Es wurden zwei Arten von Simulationen durchgeführt. Zunächst wurden Simulationen mit dem vollständigen Modell durchgeführt, dann Simulationen ohne Stimuluswerte (w), d. h. es wurde nur unsere Version des Reiz-Reaktions-Lernens unter Verwendung nur der ersten Zeile in Gleichung (2.1) zusammen mit der Entscheidungsfindung (Gleichung (2.2)) berücksichtigt. Dies geschah, um Unterschiede zwischen unserem Modell, das konditionierte Verstärkung beinhaltet, und einer Version des Reiz-Reaktions-Lernens allein zu untersuchen. Diese Version des Reiz-Reaktions-Lernens ist identisch mit der klassischen Rescorla-Wagner-Lernregel, aber wir betrachteten sie in einem instrumentellen statt in einem pawlowschen Setting.

Um Verzögerungen zu berücksichtigen, wurde ein Zeitschritt pro Minute zu Zeiten der Verzögerung in die Simulation aufgenommen. Während dieser Zeitschritte wurde nur ein Hintergrundreiz erlebt. Dies ist für die Aktualisierung des Gedächtnisses nicht sehr wichtig, da sowohl das Reiz-Reaktions- als auch das Reizwertgedächtnis ein Langzeitgedächtnis sind. Dass sich die Tiere Reiz-Reaktions-Assoziationen und Reizwerte sehr lange merken, wurde in keiner der simulierten Studien erwähnt.

In allen Simulationen wurden die gleichen Lernparameter verwendet. Alle Verhaltensweisen begannen mit einem anfänglichen Reiz-Reaktions-Wert v = 1, sowohl v- als auch w-Werte wurden mit einer Lernrate α = 0,2 aktualisiert, die Exploration wurde auf β = 1 gesetzt, und die Belohnungen wurden auf u = 6 gesetzt, mit Ausnahme der geringwertigen Belohnungen in den Experimenten 3 und 4 in Kabadayi & Osvath, die auf u = 2 gesetzt wurden. Die Verhaltenskosten für alle Verhaltensweisen betrugen 0,1, mit Ausnahme der passiven Reaktionen, die auf 0 gesetzt wurden (siehe Informationen zu allen Verhaltensweisen und Stimuluselementen, die in den Simulationen enthalten sind, im elektronischen Zusatzmaterial). Alle Simulationen wurden mit 500 Probanden durchgeführt, und die Anzahl der Versuche entsprach in etwa derjenigen der Experimente. Dass die Anzahl der Versuche nicht genau mit den empirischen Studien übereinstimmte, lag an der probabilistischen Natur der Entscheidungsgleichung. Das Fehlen von Informationen über die Ausgangswerte der Tiere erschwert exakte quantitative Vergleiche.

Obwohl sowohl die Raben als auch die Affen eine reiche Vorgeschichte hatten, wurde zuvor erlerntes Verhalten ignoriert und es wurde angenommen, dass die Ausgangswerte für Ablenkungsobjekte und funktionale Objekte gleich sind. Um konservativ zu sein, wurde angenommen, dass alle Assoziationsstärken zwischen Verhalten und Stimuli zu Beginn der Simulationen gleich sind. Kabadayi & Osvath kalibrierte die Präferenzen der Raben nicht in Bezug auf den Wert der beiden verschiedenen Futterbelohnungen, so dass es keine quantitativen Informationen über die Unterschiede zwischen den verfügbaren Belohnungen gibt. Sie stellten in der Methode fest, dass die hochwertige Futterbelohnung sowohl größer als auch attraktiver war. Genaue Informationen über den Umfang der Extinktion fehlten in der Rabenstudie, daher wurde angenommen, dass die Raben fünf Extinktionserfahrungen mit den Distraktoren hatten.

Die in den Simulationen verwendeten Verhaltensweisen und Stimuluselemente waren wie folgt:

2.6.1. Behaviours
  • Mulcahy & Call Tube: take tube, use tube, take distractor, being passive

  • Mulcahy & Call Hook: take hook, use hook, take distractor, being passive

  • Kabadayi & Osvath Tool: Werkzeug nehmen, Werkzeug benutzen, Ablenker nehmen, passiv sein, kleine Belohnung nehmen

  • Kabadayi & Osvath Token: Token nehmen, Token benutzen, Ablenker nehmen, passiv sein, kleine Belohnung nehmen

2.6.2. Stimuluselemente
  • Mulcahy & Call Tube: Hintergrund, Tube, Tube Aufgabe, Ablenker, Belohnung

  • Mulcahy & Call Hook: Hintergrund, Haken, Haken Aufgabe, Ablenker, Belohnung

  • Kabadayi & Osvath Tool: Hintergrund, Werkzeug, Gerät, Ablenker, Belohnung, kleine Belohnung

  • Kabadayi & Osvath Token: Hintergrund, Token, Mensch, Ablenker, Belohnung, kleine Belohnung

2.7. Daten aus den empirischen Studien

Um die Simulationsergebnisse mit den empirischen Daten aus den beiden Studien zu vergleichen, wurden Durchschnittswerte aus den verfügbaren Daten der beiden jeweiligen Studien berechnet (siehe Abbildungen in Ergebnisse). Daraus ergab sich der durchschnittliche Anteil der richtigen und falschen Entscheidungen in den Forced-Choice-Tests. Es ist zu beachten, dass Experiment 4 in der Affenstudie kein korrektes Verhalten mit dem Werkzeug bei der Rückkehr zum Gerät nach der Verzögerung beinhaltete, was die Interpretation dieses Experiments erschwert. Außerdem waren die Daten zu den Wahlmöglichkeiten für Versuch 4 im Text nicht verfügbar, daher wurden für diesen Datenpunkt die Daten von verwendet. Es ist bedauerlich, Daten auf diese Weise zu vermischen, aber ich habe mich dafür entschieden, die Daten von Experiment 4 wegzulassen.

Ergebnisse

Insgesamt stimmten die Simulationen mit den Ergebnissen sowohl der Raben- als auch der Menschenaffenstudie überein. Die Simulationen zeigen, wie zwei Faktoren zusammen zu dem von Menschenaffen und Raben gezeigten zukunftsorientierten Verhalten beitragen können. Erstens waren konditionierte Verstärkungswerte von funktionalen Objekten, die durch Vortraining und Auslöschung etabliert wurden, in der Lage, anfänglich richtige Entscheidungen zu treffen. Dies ist in Abbildung 1 zu sehen, wo der Anteil der richtigen Entscheidungen dargestellt ist. Zweitens wurden richtige Entscheidungen in allen Studien belohnt, mit Ausnahme von Experiment 4 im Affenexperiment. Die Tatsache, dass die Verwendung von funktionalen Objekten durchgehend belohnt wurde, reichte aus, um die Leistung deutlich über das Zufallsniveau zu heben (Abbildung 1). In der Rabenstudie erklären die Belohnungen während des Experiments die nahezu perfekte Leistung in den beiden letzten Teilen der Studie.

Abbildung 1. Ergebnisse aus empirischen (Punkte) und simulierten (Linien) Daten, die den Anteil der richtigen Antworten auf funktionale Objekte zeigen, und für die Rabenstudie den simulierten Anteil der Antworten auf kleine Belohnungen (gestrichelte Linien). Bonobos und Orang-Utans sind im oberen Feld und Raben im unteren Feld dargestellt. Bei den Affen war die Wahl der Röhre in den Experimenten 1 und 2 (linke Linie) und die Wahl des Hakens in den Experimenten 3 und 4 (rechte Linie) die richtige Wahl. Beachten Sie, dass die X-Achse des oberen Feldes gebrochen ist, da Experiment 4 mit neuen Individuen durchgeführt wurde, die vor dem Experiment nur ein Vortraining absolviert hatten. Bei den Raben war die richtige Wahl in der ersten Hälfte des Experiments ein Werkzeug (linke Linie). Im zweiten Teil des Experiments war ein Token die richtige Wahl (rechte Linie). Die horizontalen Linien stellen die erwarteten Zufallswerte für die richtige Wahl während der Testphasen dar (d. h. Rohr, Haken, Werkzeug bzw. Wertmarke). Bei den empirischen Daten handelt es sich um Durchschnittswerte der Daten vom Ende der jeweiligen Phase in den beiden Studien. Die Bonobo- und Rabengrafiken wurden von openclipart.org heruntergeladen.

Die Übereinstimmung zwischen den empirischen Tests (in Abbildung 1 als gefüllte Kreise dargestellt) und den Simulationen war insofern gut, als die funktionalen Objekte mit größerer Wahrscheinlichkeit ausgewählt wurden als die Ablenkungsobjekte. Die Simulationen folgten auch dem allgemeinen Trend, dass die Leistung in der Menschenaffenstudie während der Experimente 1 und 2 zunahm und dass die Leistung in Experiment 3 abnahm. Obwohl die Simulationen die Leistung in der Werkzeugbedingung der Rabenstudie unterschätzten, folgten die Simulationen genau dem Muster, dass die Leistung in Experiment 1 hoch war, in Experiment 3 abnahm und in Experiment 4 eine nahezu perfekte Leistung erreichte. Ein Grund für die geringere Erfolgsquote der Simulation in der Werkzeugbedingung könnte sein, dass die Raben gut trainiert waren und einen reichen Hintergrund hatten, der in Testsituationen hilfreich ist. Diese Vögel wurden von Menschen aufgezogen und interagieren regelmäßig mit Menschen. Außerdem sind sie mit vielen verschiedenen Objekten, Versuchsanordnungen und Belohnungen vertraut. Im Gegensatz dazu gingen die Simulationen von keinerlei Vorkenntnissen aus. Die Simulationen und die empirischen Daten für die Token-Bedingung stimmten gut überein, aber der Leistungsabfall während des Experiments 3 war bei den empirischen Daten größer.

Die Simulationen ergaben auch, dass die Menschenaffen insgesamt eine geringere Erfolgsquote aufwiesen als die Raben. Mindestens zwei Faktoren könnten zu diesem Unterschied beigetragen haben. Die Affen hatten weniger Vortraining als die Raben, und im Gegensatz zu den Raben durften die Affen vor dem Test kein Extinktionstraining mit den Ablenkungsobjekten durchführen. Dies ist in Abbildung 1 zu sehen, wo die Wahrscheinlichkeit, das richtige Objekt zu wählen, zu Beginn von Experiment 1 in der Rabenstudie viel höher ist als in der Affenstudie. Dass eine große Anzahl von Vorübungen (35 in der Token-Bedingung) in Kombination mit Extinktionsversuchen zu einer hohen Leistung bei den erzwungenen Entscheidungen führen kann, zeigt sich am deutlichsten in der Token-Bedingung der Rabenstudie. Hier spiegelte die Simulation die beobachtete hohe Erfolgsrate genau wider.

Vortraining und Extinktionstraining beeinflussten nicht nur die Wahrscheinlichkeit, richtige Entscheidungen zu treffen. Die Simulationen zeigen, wie Pretraining und Extinktion auch den Anteil der Wahl falscher Objekte, wie etwa kleine Belohnungen, beeinflussen (Abbildung 1). Der Effekt des Vortrainings und der Extinktion war in der Token-Bedingung der Rabenstudie am stärksten ausgeprägt, wo die Simulation nahelegt, dass die Wahrscheinlichkeit, dass die Raben die kleinen Belohnungen gegenüber den funktionalen Objekten wählen, nahe bei Null lag. Die große Menge an belohnenden Erfahrungen mit den funktionalen Objekten (Werkzeug und Token) führte zu großen konditionierten Verstärkungswerten für diese Objekte (Abbildung 2). Die Simulationen bestätigten das Muster, dass Raben keine kleinen Belohnungen anstelle von funktionalen Objekten wählten, und dass Selbstkontrolle durch assoziatives Lernen entstehen sollte.

Abbildung 2. Ergebnisse der Simulationen, die einen Vergleich zwischen dem Ergebnis unseres Lernmodells, das konditionierte Verstärkung (Reizwerte) beinhaltet, und einer instrumentellen Version des Rescorla-Wagner (R-W) Modells ermöglichen. Die Simulationen der Rabenstudie befinden sich auf der linken Seite und die Simulationen der Affenstudie auf der rechten Seite. Die oberen Felder zeigen Gedächtnisaktualisierungen: Reiz-Reaktions-Assoziationen v für Verhaltensweisen gegenüber funktionalen Objekten und Reizwerte w dieser Objekte. Da die funktionalen Objekte selbst nicht belohnend sind, zeigen die Simulationen, dass sich Reiz-Reaktions-Assoziationen für die Wahl funktionaler Objekte mit dem einfacheren Lernmodell (R-W) nicht entwickeln werden. Und die unteren Felder zeigen, dass das Reiz-Reaktions-Lernmodell (R-W) die in den beiden Studien beobachteten Verhaltensmuster nicht reproduzieren kann, ganz im Gegensatz zu unserem Lernmodell, das konditionierte Verstärkung ermöglicht. Die Versuchsphasen sind dieselben wie in Abbildung 1, aber hier sind die Phasen aus Gründen der Übersichtlichkeit nicht dargestellt. Beachten Sie, dass die X-Achsen in den rechten Feldern gebrochen sind, da Experiment 4 mit neuen Individuen durchgeführt wurde, die vor dem Experiment nur ein Vortraining absolvierten. Die Raben- und Affengrafiken wurden von openclipart.org heruntergeladen.

Das Wachstum der Reiz-Reaktions-Werte und der Reizwerte ist im oberen Feld von Abbildung 2 dargestellt.

Beachten Sie, dass Experiment 4 in der Menschenaffenstudie den Simulationen am wenigsten entspricht. Hier durften zwei neue Affen die Belohnung erhalten, ohne das zuvor funktionierende Werkzeug zu benutzen, und sie kehrten 2 von 16 Mal mit einem korrekten Werkzeug zurück, weniger als in der Simulation. Dieser Unterschied zwischen dem empirischen Test und der Simulation konnte durch eine Erhöhung der Kosten für das Verhalten verringert werden. Eine Erhöhung der Kosten für ein Verhalten, das nicht zu einer Belohnung führt, führt zu einer Verringerung der Durchführung des Verhaltens. Es ist jedoch unklar, was von den Tieren in dieser Situation zu erwarten ist, wenn die Affen mit einer Situation konfrontiert werden, in der der Zusammenhang zwischen einem Werkzeug und einer Belohnung weniger klar ist. Und zwei der vier Affen versuchten nie, das Problem zu lösen. Abschließend lässt sich sagen, dass es schwierig ist, die Genauigkeit und Bedeutung dieses Datenpunkts zu beurteilen (siehe ).

Die Simulationen zeigen auch die Unterschiede zwischen assoziativen Lernmodellen unterschiedlicher Komplexität. Die Grenzen unserer Version des Reiz-Reaktions-Lernens werden deutlich, wenn man sie mit Simulationen vergleicht, die unser Lernmodell verwenden, das sowohl das pawlowsche als auch das instrumentelle Lernen umfasst. Beim Reiz-Reaktions-Lernen allein können Verhaltenssequenzen, auf die nicht unmittelbar eine Belohnung folgt, nicht gelernt werden (Abbildung 2). Damit sich Verhaltenssequenzen entwickeln können, müssen Reize, die mehr als einen Schritt vor der Belohnung liegen, durch konditionierte Verstärkung belohnend werden. Wenn ein zuvor neutraler Reiz einen positiven w-Wert erhält, d. h. er wird belohnend, kann er den Erwerb positiver v-Werte für Verhaltensweisen fördern, die nicht unmittelbar zu einer Belohnung führen (oberes Feld in Abbildung 2). Vergleicht man unser Modell, das Verhaltenssequenzen lernen kann, mit der instrumentellen Version des Rescorla-Wagner-Modells, so wird deutlich, dass die Wahrscheinlichkeit, den richtigen Reiz zu wählen, nicht steigt, wenn nur Reiz-Reaktions-Lernen erlaubt ist (Abbildung 2). Da die v-Werte beim Reiz-Reaktions-Lernen nur durch den unmittelbaren Verstärker aktualisiert werden, hat dies außerdem zur Folge, dass die kleine Belohnung zugunsten des Tokens und des Werkzeugs gewählt wird, da der Token und das Werkzeug nicht zu wertvollen Reizen werden können. Dies ist in Abbildung 2 zu sehen, da die falsche Wahl der kleinen Belohnungen über alle Versuche hinweg zunimmt, wenn nur unsere Version des Reiz-Reaktions-Lernens zugelassen wird (in Abbildung 2 mit R-W gekennzeichnet). Reiz-Reaktions-Lernen allein konnte die Ergebnisse weder in der Raben- noch in der Affenstudie erklären.

Diskussion

Simulationen der beiden Planungsstudien an Raben und Menschenaffen deuten darauf hin, dass das Verhalten, von dem zuvor behauptet wurde, es sei durch flexible Planung entstanden, durch assoziatives Lernen erklärt werden kann. Wie in der Forschung zur künstlichen Intelligenz und zum Verhalten von Tieren gezeigt wurde, sind diese Modelle des assoziativen Lernens in der Lage, flexible Verhaltenssequenzen zu erzeugen. Daher ist die in der Raben- und der Menschenaffenstudie gezogene Schlussfolgerung, dass Raben und Menschenaffen diese Probleme durch einen spezifischen flexiblen Mechanismus lösen, wenig stichhaltig. Die hier durchgeführten Simulationen unterstützen die Kritiker, die diese Ergebnisse als Folgen des assoziativen Lernens interpretierten. Wenn künftige Studien darauf abzielen, assoziative Prozesse von anderen Arten mentaler Mechanismen zu unterscheiden, würden sie von einer verbesserten Versuchsplanung einschließlich geeigneter Kontrollen profitieren, die die Vorteile modernster Lernmodelle nutzen.

Interessant war, dass die Simulationen den Unterschied zwischen der Studie an Raben und Menschenaffen erfassten. Dies deutet darauf hin, dass die Simulationen die Auswirkungen von Pre-Training, Extinktionsphasen und Belohnungen in den Studien gut erfasst haben. Hohe konditionierte Verstärkungswerte (w-Werte) für die richtigen Objekte (Werkzeug und Token) und niedrige Werte für die Ablenkungsobjekte wurden vor den ersten Tests festgelegt (Abbildung 2). Besonders deutlich wurde dies im Token-Teil des Raben-Experiments, wo die Raben 35 Vortrainingsversuche durchliefen, bei denen die Verhaltenssequenz Stoken → Btake token → Shuman → Bgive token → Sreward durchgängig belohnt wurde (unteres Feld, Abbildung 1).

Ein weiterer wichtiger Faktor für die positiven Ergebnisse in den Raben- und Menschenaffenstudien war, dass die Wahl der richtigen Objekte während der gesamten Tests belohnt wurde. Dadurch blieben die v- und w-Werte für korrektes Verhalten bzw. korrekte Objekte hoch. Dies erklärt auch, warum die Raben die kleine Belohnung vernachlässigten, wenn sie zusammen mit den funktionalen Objekten präsentiert wurde (Abbildung 1). Die funktionalen Objekte führten während der gesamten Studie immer wieder zu Belohnungen, so dass sie hohe Stimuluswerte erworben hatten. Solange diese Werte höher sind als der Wert der kleinen Belohnung, werden diese funktionalen Objekte die meiste Zeit über gewählt. Bei einem reinen Reiz-Reaktions-Lernen, das nur die Aktualisierung der v-Werte wie im Rescorla-Wagner-Modell zulässt, wird jedoch die kleine Belohnung gewählt, da in diesem Modell die konditionierte Verstärkung fehlt (Abbildung 2). Wenn man das Lernen während der Tests vermeiden will, ist es von Vorteil, die Tests unter Auslöschung durchzuführen, wie z. B. in Studien zur Neubewertung von Ergebnissen (z. B. ). Auf diese Weise können Tests die Folgen vorheriger experimenteller Manipulationen aufdecken.

Die Ergebnisse unterstützen die Idee, dass Selbstkontrolle durch assoziatives Lernen entstanden ist. Wir haben bereits gezeigt, wie Tiere durch assoziatives Lernen Selbstkontrolle erlangen können, wenn sie genügend Informationen und Erfahrungen erhalten. Kabadayi & Osvath definierte die Selbstkontrolle nicht, aber in einer früheren Studie definierten sie sie als „die Unterdrückung unmittelbarer Triebe zugunsten verzögerter Belohnungen“. Diese funktionale Sichtweise der Selbstkontrolle passt zu vielen Verhaltensbeschreibungen in der Tierverhaltensliteratur. Beobachtungen, dass Tiere lernen, kleine Belohnungen abzulehnen, wenn sie große Belohnungen erwarten, oder mit anderen Worten, unrentable Beute abzulehnen, wenn rentable Beute im Überfluss vorhanden ist, stammen beispielsweise von Fischen (Bluegill Sunfish Lepomis macrochirus, ), Krustentieren (Strandkrabben, Carcinus maenas, ) und Vögeln (Kohlmeisen Parus major und Rotschenkel Tringa totanus, ). Diese Art von Studien wurde in Studien, in denen die Selbstkontrolle häufig als eigenständiger mentaler Mechanismus und nicht als etwas, das erlernt werden kann, untersucht wurde, weitgehend ignoriert (z. B. ). Im Lichte dieser Simulationen können frühere Studien zur Selbstkontrolle in der Tierkognitionsforschung (wie z.B. ) am besten als durch Lernen einschließlich konditionierter Verstärkung verursacht verstanden werden.

Theoretisch kann sich Selbstkontrolle auf mehr als eine Weise entwickeln. Selbstkontrolle kann durch den Erwerb von hohen konditionierten Verstärkungswerten für die funktionalen Objekte entstehen. Das funktionale Objekt wird wertvoller als eine kleine Belohnung. Selbstkontrolle kann aber auch entstehen, wenn zum Beispiel „Warten“ als eigenständiges Verhalten betrachtet wird. In diesem Fall kann die Selbstkontrolle durch einen erhöhten v-Wert für „Warten“ in Gegenwart eines bestimmten Reizes entstehen. Selbstkontrolle bei jagenden Katzen könnte durch hohe v-Werte für das Warten entstehen, wenn sie einer weit entfernten Beute ausgesetzt sind. Weitere Forschungsarbeiten sind erforderlich, um besser zu verstehen, wie die verschiedenen Aspekte der Lernmechanismen zusammenwirken und zu Mustern der Selbstbeherrschung führen. Genetische Prädispositionen spielen wahrscheinlich eine große Rolle und interagieren mit Reiz-Reaktions-Assoziationen und Reizwerten.

Ein weiteres wichtiges Ergebnis war, dass der Unterschied zwischen der Leistung der Raben in Experiment 3 und Experiment 4 durch die Simulationen erfasst wurde. Der Grund für die perfekte Leistung in Experiment 4 sowohl in der Rabenstudie als auch in der Simulation war, dass die Verzögerung zwischen der Wahl und dem Verhalten, das zu einer Belohnung führte, weggelassen wurde. Stattdessen gab es die Möglichkeit, das Objekt direkt nach der erzwungenen Wahl zu benutzen, um eine Belohnung zu erhalten. Aus diesem Grund führte jeder Versuch potenziell direkt zu einer Belohnung, während die Wahl des richtigen Objekts in Versuch 3 erst nach der Verzögerung belohnt wurde. Mit anderen Worten: In den Experimenten 1 bis 3 konnten die Raben nur jedes zweite Mal eine Belohnung erhalten, wenn sie den richtigen Gegenstand wählten, während sie in Experiment 4 jedes Mal eine Belohnung erhielten, nachdem sie den funktionalen Gegenstand gewählt und benutzt hatten.

Eine Ähnlichkeit zwischen unserem Lernmodell und einigen Modellen des Verstärkungslernens in der KI besteht darin, dass diese Mechanismen es Agenten und Tieren ermöglichen, Weltzustände zu identifizieren, die wertvoll sind, und welche Verhaltensweisen in diesen wertvollen Zuständen produktiv sind. In einem operativen Sinne erzeugen diese Lernmodelle eine Planung, wenn ein Verhalten (in ein Gerät stecken oder einem Menschen geben) gegenüber einem Stimulus (Stein oder Token) zu einem späteren Zeitpunkt hochwertiges Futter hervorbringen wird. Dies geschieht trotz der Tatsache, dass das Futter (oder ein anderer belohnender Reiz) nicht vorhanden ist. Osvath & Kabadayi definierte in einer Antwort auf Kritiker flexibles Planen als „Entscheidungen über Zukünfte außerhalb des aktuellen Wahrnehmungsbereichs in Bereichen treffen, für die man nicht prädisponiert ist“. Unabhängig davon, ob die Modelle aus der KI oder aus dem Tierverhalten stammen, entstehen durch das geschickte Zusammenspiel von Reiz-Reaktions-Werten und Reizwerten Planungsverhaltensweisen, die dieser Definition entsprechen, wenn konditionierte Verstärkung in Lernmodelle einbezogen wird. Der Schlüssel liegt darin, dass aktuell verfügbare Reize Informationen darüber liefern können, welche Verhaltensweisen ausgeführt werden sollten, um zukünftige wertvolle Zustände zu erreichen. Diese Lernmodelle können jedoch keine unterschiedlichen Ergebnisse mental simulieren, sie können nicht mental in der Zeit reisen und auch keine Informationen intern reorganisieren. Um Roberts zu paraphrasieren, können nicht-menschliche Tiere „in der Zeit feststecken“ und dennoch planendes Verhalten zeigen.

Mulcahy & Call versuchte, instrumentelle Konditionierung als Erklärung für das Verhalten der Affen auszuschließen, indem er Experiment 4 durchführte. Diese Phase ähnelte dem Experiment 3, aber die Affen wurden nicht für die Benutzung des funktionalen Werkzeugs belohnt. Anstatt dass ein Affe den Raum mit einem funktionalen Werkzeug betrat, das zum Erhalt einer Belohnung verwendet werden konnte (wie in Versuch 3), betrat ein Affe den Raum und fand eine Belohnung, wenn er das funktionale Werkzeug aus dem Warteraum in den Versuchsraum getragen hatte. Es wurde argumentiert, dass, wenn die Affen in den anderen Experimenten besser abschnitten als in diesem, dies darauf hindeuten würde, dass die Affen flexibel planten. Mulcahy & Call kam zu dem Schluss, dass ihre Ergebnisse „einen echten Fall von Zukunftsplanung darstellen“. Ein Advokat des Teufels könnte Unterschiede zwischen den Experimenten 3 und 4 feststellen, die das Lernen zu einer wahrscheinlicheren Erklärung machen. In Versuch 3 wurden die Affen ausdrücklich für die Benutzung des Werkzeugs belohnt. Daraus ergibt sich ein hoher konditionierter Verstärkungswert für das Werkzeug und ein hoher Reiz-Reaktions-Wert für die Verwendung des Werkzeugs am Gerät. In Experiment 4 wies Mulcahy & Call jedoch darauf hin, dass zwischen dem Aufheben des Werkzeugs im Warteraum, dem Tragen des Werkzeugs in den Testraum und dem anschließenden Erhalt einer Belohnung ohne Verwendung des Werkzeugs eine längere Zeitspanne lag. Möglicherweise wurde die geringe Leistung in Experiment 4 durch die unklare Verbindung zwischen dem Werkzeug und der Belohnung verursacht, da die Verzögerung den Erwerb des Werkzeugs hemmt, um später eine Belohnung zu erhalten. Geeignete Kontrollbedingungen sind wichtig, um Hypothesen eindeutig verwerfen zu können (siehe z. B. die jüngsten Diskussionen in ). Unser Lernmodell kann in der zukünftigen Forschung verwendet werden, um solche Verhaltensunterschiede zu analysieren, die durch Variation der Lernkontingente verursacht werden.

Die Simulationen zeigen, dass die Affenstudie und die Rabenstudie durch assoziatives Lernen verstanden werden können. Ergebnisse aus Experimenten mit Caching-Spezialisten, die wahrscheinlich von genetischen Spezialisierungen abhängen, liegen jedoch derzeit außerhalb des Rahmens unseres Lernmodells. Caching-Verhalten und Fütterungsverhalten sind mit unterschiedlichen Motivationszuständen bei Tieren verbunden. Motivationszustände können als interne Stimuli betrachtet und leicht in ein assoziatives Lernmodell integriert werden, was zu einer größeren Flexibilität bei der Entscheidungsfindung in Bezug auf die Nahrungssuche und das Caching führen würde. In unserem Modell sind verschiedene Motivationszustände derzeit nicht berücksichtigt, aber wir haben Beispiele dafür gegeben, wie genetische Prädispositionen in das Modell integriert werden können. Eine mögliche Lösung wäre die Einführung einer Kontextabhängigkeit, so dass die Erkundung bei verschiedenen externen Reizen und/oder bei verschiedenen internen Zuständen unterschiedlich ausfällt. Wichtig ist, dass bei der Annahme flexiblerer mentaler Mechanismen die höheren Explorationskosten berücksichtigt werden müssen, die durch eine erhöhte Flexibilität entstehen (siehe ). Wir gehen davon aus, dass die Evolution genetische Prädispositionen fein abgestimmt hat, die zusammen mit assoziativem Lernen produktive und artspezifische Verhaltensweisen hervorbringen.

Ein weiterer wichtiger Punkt für künftige Studien ist, dass es sich um Langzeitgedächtnisse handelt, wenn Tiere über Konsequenzen von Verhalten lernen und Reiz-Reaktions-Werte und Reizwerte aktualisiert werden (siehe z. B. auch ). Ein Rabe, der darauf trainiert wurde, einem Menschen Münzen zu geben, vergisst nicht einfach, wie er dies einen Tag später tun kann. In Bezug auf das Verhalten ist die Werkzeugbedingung der Rabenstudie identisch mit dem Verhalten von Hundebesitzern, die ihren pelzigen Freunden beibringen, „aufzuräumen“, indem sie Spielzeug in einen dafür vorgesehenen Korb legen. Anstatt dass der Rabe belohnt wird, wenn er einen Stein in ein Gerät legt, erhält der Hund eine Belohnung, wenn er ein Spielzeug in einen Korb legt. Solche Langzeitgedächtnisse, die durch assoziatives Lernen aktualisiert werden, unterscheiden sich stark vom Kurzzeitgedächtnis für beliebige Reize.

Zusammenfassend lässt sich sagen, dass die Entwicklung von Modellen für assoziatives Lernen in der KI-Forschung beeindruckend ist und dass sich die Modelle bei der Erzeugung komplexer Verhaltensweisen als sehr leistungsfähig erwiesen haben. Man kann sich fragen, warum diese leistungsfähigen Modelle nicht häufiger auf das Verhalten nicht-menschlicher Tiere angewendet werden und warum diese Modelle als Ursache für flexibles Verhalten bei nicht-menschlichen Tieren unterschätzt werden. Dies ist besonders relevant, wenn man bedenkt, dass die Forschung auf dem Gebiet der Tierkognition, bei der nicht-menschlichen Tieren Einsichten, kausales Denken und der Plan unterstellt werden, regelmäßig kritisiert wird, weil sie große Behauptungen auf der Grundlage einer schwachen Methodik aufstellt (z. B. ). Eine Möglichkeit, dieses Paradoxon des assoziativen Lernens zu lösen, besteht darin, die Bereiche KI, tierisches Lernen und tierische Kognition zu integrieren. Um die Mechanismen zu verstehen, die Verhalten erzeugen, sind formale assoziative Bottom-up-Modelle wahrscheinlich aufschlussreicher als verbale Top-down-Modelle „höherer Ordnung“. Letztere sind zum Beispiel schwieriger zu verwerfen und können nicht in Simulationen implementiert oder beim Bau von Robotern verwendet werden. Zusammenfassend lässt sich sagen, dass man nicht ausschließen kann, dass flexible Planung bei Affen und Rabenvögeln und wahrscheinlich auch bei vielen anderen Arten durch assoziatives Lernen entsteht.

Zugänglichkeit der Daten

Abbildungen und Daten aus Simulationen können mit der Software und dem Code, wie im elektronischen Zusatzmaterial angegeben, erzeugt werden.

Beiträge der Autoren

J.L. konzipierte die Forschung, führte Computersimulationen durch, analysierte Daten und schrieb das Manuskript.

Konkurrierende Interessen

Es gibt keine konkurrierenden Interessen.

Finanzierung

Diese Arbeit wurde von der Knut und Alice Wallenberg Stiftung, KAW 2015.005, unterstützt.

Danksagungen

Danke an Markus Jonsson, Magnus Enquist, Anna Jon-And und Stefano Ghirlanda. Dank auch an zwei anonyme Gutachter für wertvolle und aufschlussreiche Kommentare.

Fußnoten

Elektronisches Zusatzmaterial ist online verfügbar unter https://dx.doi.org/10.6084/m9.figshare.c.4302740.

© 2018 The Authors.

Veröffentlicht von der Royal Society unter den Bedingungen der Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, die eine uneingeschränkte Nutzung erlaubt, sofern der ursprüngliche Autor und die Quelle genannt werden.

  • Mnih Vet al.2015Kontrolle auf menschlicher Ebene durch tiefes Verstärkungslernen. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
  • Emery NJ, Clayton NS. 2004The mentality of crows: convergent evolution of intelligence in corvids and apes. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
  • Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontaneous prosocial choice by chimpanzees. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
  • MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
  • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016How chimpanzees cooperate in a competitive world. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
  • Whiten A. 2017Social learning and culture in child and chimpanzee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
  • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
  • Tomasello M, Call J. 1997Primate cognition. Oxford, UK: Oxford University Press. Google Scholar
  • Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Insightful problem solving and creative tool modification by captive nontool-using rooks. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Reply to Lind et al.: insight and learning. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
  • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Using the Aesop’s fable paradigm to investigate causal understanding of water displacement by New Caledonian crows. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
  • Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
  • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
  • Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees and bonobos differ in intrinsic motivation for tool use. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
  • Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behaviour. R. Soc. Open Sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
  • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, UK: Oxford University Press. Crossref, Google Scholar
  • Carew TJ, Sahley CL. 1986Invertebrate learning and memory: from behavior to molecules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
  • Bouton ME. 2007Learning and behavior: a modern synthesis. Sinauer, MA: Sunderland. Google Scholar
  • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
  • Mulcahy NJ, Call J. 2006Apes save tools for future use. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
  • Naqshbandi M, Roberts WA. 2006Antizipation zukünftiger Ereignisse bei Totenkopfäffchen (Saimiri sciureus) und Ratten (Rattus norvegicus): Tests der Bischof-Köhler-Hypothese. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
  • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planung für die Zukunft durch westliche Buschhäher. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
  • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobos and orangutans, but not chimpanzees, flexibly plan for the future in a token-exchange task. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
  • Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
  • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
  • Suddendorf T, Corballis MC. 2010Behavioural evidence for mental time travel in nonhuman animals. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2010Mental time travel in animals. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
  • Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Bulley A, Miloyan B. 2018Prospection and natural selection. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
  • Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, UK: Psychology Press. Google Scholar
  • Shettleworth S. 2010Cognition, evolution, and behavior. Oxford, UK: Oxford University Press. Google Scholar
  • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
  • Eaton RL. 1970Die Raubtiersequenz, mit Betonung des Tötungsverhaltens und seiner Ontogenese, beim Gepard (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
  • Kelleher RT, Gollub LR. 1962A review of positive conditioned reinforcement. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
  • Mackintosh NJ. 1974The psychology of animal learning. London, UK: Academic Press. Google Scholar
  • Williams BA. 1994Konditionierte Verstärkung: experimentelle und theoretische Fragen. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
  • McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Australia: Darlington Press. Google Scholar
  • Rescorla RA, Wagner AR. 1972A theory of Pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement. In Classical conditioning II: current research and theory (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
  • Blough DS. 1975Steady state data and a quantitative model of operant generalization and discrimination. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Cross, Google Scholar
  • Sutton RS, Barto AG. 1998Reinforcement Learning. Cambridge, MA: MIT Press. Google Scholar
  • Balleine B, Dickinson A. 1991Instrumental performance following reinforcer devaluation depends upon incentive learning. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
  • Dickinson A, Balleine B. 1994Motivational control of goal-directed action. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
  • Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
  • Werner EE, Hall DJ. 1974Optimal foraging and the size selection of prey by the bluegill sunfish (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
  • Elner RW, Hughes RN. 1978Energiemaximierung in der Ernährung der Strandkrabbe Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
  • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimale Beutewahl bei der Kohlmeise (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
  • Goss-Custard JD. 1977Optimal foraging and the size selection of worms by redshank, Tringa totanus, in the field. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
  • Osvath M, Kabadayi C. 2018Contrary to the gospel, ravens do plan flexibly. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
  • Barto AJ. 2003Reinforcement Learning. In The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
  • Roberts WA. 2002Are animals stuck in time?Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Lind J. 2017’Aesop’s fable‘ experiments demonstrate trial-and-error learning in birds, but no causal understanding. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
  • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Meta-analytische Techniken zeigen, dass das kausale Denken von Rabenvögeln im Äsop-Fabel-Paradigma durch Versuch-und-Irrtum-Lernen angetrieben wird. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
  • Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays anticipate future needs independently of their current motivational state. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2012Eurasische Eichelhäher (Garrulus glandarius) überwinden ihre aktuellen Wünsche, um zwei unterschiedliche zukünftige Bedürfnisse zu antizipieren und entsprechend zu planen. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
  • Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
  • Skinner BF. 1950Are theories of learning necessary?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
  • Vaughan W, Greene SL. 1984Pigeon visual memory capacity. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
  • Gleitman H. 1971Forgetting of long-term memories in animals. In Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
  • Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwin’s mistake: explaining the discontinuity between human and nonhuman minds. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
  • Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
  • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
  • Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
  • Manger P. 2013Questing the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
  • Dymond S, Stewart I. 2016Relational and analogical reasoning in comparative cognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
  • Lindenfors P. 2017Vogelgehirne: sind Krähen so intelligent, wie einige Wissenschaftler behaupten?Skept. Mag. 22, 10-11. Google Scholar
  • Lind J, Enquist M. 2009More synthetic work is needed. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.