Que peut faire l’apprentissage associatif pour la planification ?

Introduction

A la stupéfaction du monde, les modèles d’apprentissage associatif utilisés dans la recherche sur l’intelligence artificielle (IA) atteignent maintenant des compétences de niveau humain dans les jeux vidéo et battent les maîtres humains dans le jeu de plateau chinois Go , les échecs et le shogi . Malgré le fait que l’apprentissage associatif dans la recherche sur l’IA est reconnu pour produire un comportement semblable à celui de l’homme, l’apprentissage associatif est souvent soit non mentionné (p. ex.), soit perçu comme indésirable ou d’une sophistication insuffisante (p. ex.) pour fournir des explications sur le comportement flexible des animaux non humains. C’est un paradoxe intriguant que l’apprentissage associatif soit reconnu pour produire un comportement flexible complexe dans le cadre de la recherche sur l’IA, mais qu’il soit souvent écarté et négligé en tant que modèle de comportement flexible dans les systèmes biologiques (à la fois les humains et les animaux non humains).

Si le développement de séquences de comportement chez les animaux non humains peut être compris en termes d’apprentissage associatif ou non, cela a des conséquences de grande portée pour notre compréhension de l’étude du comportement. Si un comportement perçu comme avancé ou complexe, tel que l’utilisation d’outils par le chimpanzé (Pan troglodytes), peut se développer par le biais de processus associatifs, les différences entre espèces peuvent être recherchées en termes de différences génétiques dans les répertoires de comportements, de tendances exploratoires telles que la curiosité, et de facteurs motivationnels et attentionnels. Si les processus associatifs ne suffisent pas à rendre compte de la manière dont les informations sont traitées et les souvenirs mis à jour pour générer un comportement, d’autres mécanismes doivent être identifiés pour nous permettre de comprendre comment ce comportement se développe. Aujourd’hui, les chercheurs ont des avis très contrastés sur cette question. D’un côté, certains suggèrent que les processus associatifs, associés à des facteurs tels que la taille du répertoire comportemental et l’exploration, sont puissants et peuvent expliquer en grande partie la manière dont les animaux acquièrent un comportement (par exemple). D’autres, au contraire, mettent l’accent sur des mécanismes alternatifs et proposent que les animaux disposent d’un grand nombre de mécanismes différents qui résolvent différents problèmes spécifiques et que ces mécanismes sont affinés par l’évolution (p. ex.). Toutes les études ne tombent pas dans ces deux catégories et certaines études testent des explications alternatives et contrôlent l’apprentissage associatif. Cependant, il est courant que ces études ne supposent que les formes les plus simples d’apprentissage associatif. Cela risque d’entraîner de faux rejets des hypothèses d’apprentissage associatif. En effet, la plupart des vertébrés et des invertébrés présentent des capacités d’apprentissage instrumental et pavlovien , qui, associées à des mémoires spécialisées, rendent la plupart des animaux capables d’un apprentissage plus complexe que ce que permettent les formes les plus simples d’apprentissage associatif.

Le but de cette étude était d’explorer si un modèle d’apprentissage , similaire à l’apprentissage par renforcement utilisé dans la recherche en IA, peut nous aider à comprendre l’acquisition du comportement de planification chez les corvidés et les grands singes, comportements parfois perçus comme complexes et semblables à ceux des humains. Il a été conclu que plusieurs espèces planifient l’avenir de manière flexible, un peu comme les humains (par exemple). L’idée est que ce type de planification est le résultat d’un mécanisme mental flexible qui peut simuler, mentalement, différents états futurs à partir des informations actuelles. Toutefois, ces affirmations ont été contestées sur la base d’au moins deux lignes d’arguments différents. Premièrement, les chercheurs ont émis des doutes quant à la capacité générale des oiseaux à planifier, car les études sur la planification chez les oiseaux impliquent généralement des spécialistes de la mise en cachette effectuant des tâches de mise en cachette, comme les geais des broussailles (Aphelocoma californica), les geais eurasiens (Garrulus glandarius) et les mésanges à tête noire (Poecile atricapillus). Ces résultats peuvent être dus à des répertoires de mémoire spécialisés (cf. ). La deuxième raison pour rejeter l’idée que les animaux non humains planifient de manière flexible est que le comportement observé n’a pas été causé par une planification de type humain, mais est mieux compris comme des résultats de l’apprentissage associatif, et que les lacunes méthodologiques rendent ces études équivoques .

Pourquoi un modèle d’apprentissage associatif serait-il utile pour comprendre le comportement orienté vers le futur ? L’apprentissage associatif est bien connu pour provoquer des comportements d’anticipation, des comportements qui peuvent prédire des événements significatifs ultérieurs sans bénéfices immédiats . De plus, le contrôle de soi, souvent mentionné comme étant important pour la planification, peut apparaître par le biais de l’apprentissage associatif. On pourrait supposer que l’autocontrôle n’est pas possible par l’apprentissage associatif, car un comportement immédiatement récompensé devrait toujours être préféré à un comportement non récompensé. Mais, pour de nombreux animaux, « attendre » ou « traquer » sont des comportements qui peuvent être renforcés lorsqu’ils sont suivis de possibilités ultérieures de récompenses. Par exemple, les prédateurs apprennent les compétences de traque et d’attente lorsqu’ils sont jeunes .

Le modèle utilisé ici est un modèle d’apprentissage associatif capable d’apprendre un comportement optimal dans un monde complexe . Le modèle comprend deux mémoires différentes et un mécanisme de prise de décision. Une mémoire stocke la force associative de l’exécution du comportement B vers le stimulus S, et l’autre mémoire stocke la valeur estimée du stimulus S. Le modèle peut apprendre des séquences de comportement en reliant des comportements uniques par le biais d’un renforcement conditionné (renforcement secondaire). De cette façon, les stimuli initialement neutres qui précèdent les renforcements primaires peuvent eux-mêmes devenir des renforcements, modifiant ainsi un comportement auparavant non récompensé. Par exemple, un lapin entraîné au clicker a entendu des clics à plusieurs reprises avant d’être récompensé par de la nourriture. Pour ce lapin, un clic devient gratifiant en soi et il apprendra à adopter des comportements qui n’entraînent que l’audition d’un clic. Le modèle est expliqué plus en détail dans la section Matériel et méthodes ci-dessous.

Je teste ici l’hypothèse selon laquelle un modèle d’apprentissage associatif peut rendre compte des résultats trouvés dans les études de planification non humaines. Le modèle d’apprentissage a été utilisé pour simuler les résultats de deux études de planification, une avec des orangs-outans (Pongo pygmaeus) et des bonobos (Pan paniscus) et une avec des corbeaux (Corvus corax) . Il a été constaté que les simulations suivaient des modèles clés au sein de ces études et entre elles. En conclusion, on ne peut exclure que les études sur la planification flexible chez les singes et les corvidés puissent être expliquées par l’apprentissage associatif. Par conséquent, l’apprentissage associatif ne peut pas seulement produire un comportement de type humain (par exemple ), mais est une explication candidate pour les observations de la planification et du contrôle de soi chez les animaux non humains.

Matériel et méthodes

Je décris ici notre modèle d’apprentissage , la logique des deux études différentes qui ont été utilisées pour les simulations, et les détails des simulations.

2.1. Une description du modèle

Un animal a un répertoire de comportements et il peut utiliser ses comportements pour naviguer dans un monde d’états environnementaux détectables. Un comportement fait passer l’animal d’un état à un autre. Chaque état, ou stimulus, a une valeur de renforcement primaire qui est fixée génétiquement. Ces valeurs peuvent être négatives, neutres ou positives, et elles guident l’apprentissage de manière à favoriser les comportements favorisant la survie et la reproduction. Les animaux sont supposés faire des choix qui maximisent la valeur totale, et des attentes concernant la valeur d’un état futur peuvent se développer. Le modèle peut donc générer un comportement dirigé vers un but (voir pour une autre discussion du comportement dirigé vers un but et de l’apprentissage).

En bref, le modèle décrit l’apprentissage de séquences de comportement envers des stimuli par le biais de changements dans la mémoire. Il inclut la prise de décision qui prend en compte la mémoire pour déterminer quel comportement doit être sélectionné lorsqu’un stimulus donné est perçu. Prenons l’exemple de l’apprentissage d’un comportement unique, comme lorsqu’un chien apprend à donner la patte en réponse à l’ordre « secouer ». Lever la patte est le comportement, l’ordre « secouer » et la récompense sont des stimuli. La séquence d’événements à apprendre est la suivante : commande ‘secouer’ → lever la patte → récompense, ou

Scommande ‘secouer′→Lève la patte→Récompense alimentaire

Le modèle recueille des informations sur la valeur de l’exécution de comportements vers différents stimuli (ou états), et des informations sur la valeur de différents stimuli (ou être dans des états spécifiques) . L’apprentissage se produit par des mises à jour de deux types de mémoires différentes. Ces mémoires correspondent à l’apprentissage pavlovien et instrumental et sont mises à jour après une séquence d’événements comme dans l’exemple du chien, ou en termes généraux la séquence d’événements S → B → S′. Le premier type de mémoire est une association stimulus-réponse. Nous avons utilisé vS→B pour désigner la force associative entre le stimulus S et le comportement B. En termes fonctionnels, vS→B peut être décrit comme la valeur estimée de l’exécution du comportement B lors de la perception du stimulus S. La deuxième mémoire stocke la valeur d’un stimulus. Nous avons utilisé wS pour désigner cette valeur de stimulus et elle est mise à jour en fonction de la valeur d’un stimulus ultérieur. En d’autres termes, wS est la valeur de renforcement conditionné d’être dans l’état S. Ces mémoires sont mises à jour selon

ΔvS→B=αv(uS′+wS′-vS→B)etΔwS=αw(uS′+wS′-wS)}2,1

après avoir expérimenté la séquence d’événements S → B → S′. L’association stimulus-réponse vS→B est mise à jour en fonction de uS′ une valeur fixe innée primaire du stimulus S′, et wS′ la valeur de renforcement conditionné et l’association stimulus-réponse vS→B précédemment mémorisée. Avec le renforcement conditionné, la valeur d’exécution du comportement B lors de la perception du stimulus S est la somme de la valeur de renforcement primaire et conditionné du stimulus S′. Si seule la première équation est utilisée et que w est exclu, alors elle représente l’apprentissage instrumental stimulus-réponse, c’est-à-dire une version instrumentale du modèle d’apprentissage classique de Rescorla-Wagner . Les taux d’apprentissage αv et αw déterminent la vitesse à laquelle les mises à jour de la mémoire ont lieu.

Pour que le modèle d’apprentissage génère et sélectionne un comportement, un mécanisme de prise de décision est nécessaire. Nous avons utilisé un mécanisme de prise de décision qui sélectionne les réponses comportementales et provoque une certaine variation du comportement par l’exploration. Cela spécifie la probabilité du comportement B dans l’état S comme

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2,2

qui inclut un paramètre β qui régule la quantité d’exploration. Tous les comportements ont la même probabilité d’être sélectionnés si β = 0 sans tenir compte des valeurs estimées. Si β est grand, alors le comportement avec la valeur estimée la plus élevée (v) sera principalement sélectionné.

Revenons au chien pour un exemple pratique. Le chien entend l’ordre  » secouer « , stimulus S. Si le chien bouge sa patte vers le haut, c’est-à-dire s’il exécute le comportement B, il recevra la récompense S′. La récompense alimentaire S′ a une valeur primaire innée u. Lorsque le chien reçoit cette récompense après avoir répondu correctement à l’ordre ‘shake’, la mémoire stimulus-réponse vcommande `shake′→ lever la patte va augmenter selon la ligne supérieure de l’équation (2.1). En outre, la valeur du stimulus w de la commande ‘shake’ sera mise à jour selon la ligne inférieure de l’équation (2.1). Cette valeur w de la commande « secouer » se rapprochera de la valeur u de la récompense alimentaire et acquerra ainsi des propriétés de renforcement à part entière ; elle est devenue un renforçateur conditionné. L’agent de renforcement conditionné peut ouvrir la voie à l’apprentissage d’autres comportements avant le déplacement de la patte vers le haut. Cela peut se produire parce que les comportements qui ont pour résultat que le chien entend l’ordre  » secouer  » peuvent être renforcés.

2.2. Simulation des études de planification sur les grands singes et les corbeaux

Les simulations des expériences de planification étaient basées sur des descriptions détaillées du déroulement des événements dans les deux études où des événements clés ont été identifiés. Les événements clés comprenaient quels comportements ont été entraînés avant les tests et vers quels objets, et quels résultats ont résulté de différents choix pendant le pré-entraînement et les tests. Il est important d’identifier les détails dans ces études, car les phases de test comprenaient un mélange d’actions récompensées et non récompensées. Par conséquent, on s’attendait à ce que le stimulus-réponse (v) et les valeurs du stimulus (w) changent tout au long des tests.

Pour rendre les simulations possibles et réalistes, on a supposé que les animaux entraient dans ces études avec certaines compétences quotidiennes nécessaires. Il a été supposé que les animaux avaient, par exemple, appris auparavant à tenir des objets, à se déplacer entre les pièces et les compartiments, à savoir où se trouvaient les différentes choses, et certaines compétences de base concernant la façon d’interagir avec les expérimentateurs. Par exemple, les singes ont été expulsés de la salle de test après avoir fait des choix pour être autorisés à y retourner plus tard. En ignorant ces compétences quotidiennes, les simulations et les descriptions de comportement se sont concentrées sur les séquences de comportement uniques que les animaux devaient apprendre dans le cadre des expériences.

Les deux études partagent des caractéristiques clés. Avant le début des tests, les animaux ont été soumis à un pré-entraînement. Ils y ont appris à exécuter des comportements qui ont été notés comme corrects par la suite. Outre le pré-entraînement aux comportements corrects, l’étude sur les corbeaux comprenait également un entraînement d’extinction. Au cours de l’entraînement à l’extinction, les corbeaux ont eu l’occasion d’apprendre que les objets non fonctionnels ne donnaient pas lieu à des récompenses. Dans les deux études, les événements clés utilisés pour évaluer les choix corrects par rapport aux choix incorrects étaient des tests de choix forcé. Dans ce cas, les animaux étaient forcés de choisir entre un objet dont ils avaient appris précédemment qu’il pouvait donner lieu à une récompense et d’autres objets qui ne pouvaient pas être utilisés pour des récompenses ultérieures (objets distracteurs). Les corbeaux ont appris au cours d’un entraînement d’extinction que ces objets distracteurs ne pouvaient pas donner lieu à des récompenses. Après le choix forcé, les deux études comportaient un délai d’un certain temps, après lequel les animaux étaient autorisés à effectuer un comportement en utilisant l’objet précédemment choisi. Si un animal faisait un choix correct avant le délai, il pouvait ensuite utiliser l’objet choisi pour obtenir une récompense. Si un animal faisait un choix incorrect avant le délai, il n’avait aucune possibilité d’effectuer des comportements de récompense après le délai.

Les simulations réalisées suivaient la phase de pré-entraînement et la phase de test des études. Les comparaisons sont faites avec les niveaux de chance de choix corrects fixés par les deux études. Mulcahy & Call s’attendait à ce que les singes choisissent le bon par hasard 25% des fois (un objet fonctionnel et trois objets distracteurs). Kabadayi & Osvath s’attendait à ce que les corbeaux fassent par hasard 25% de choix corrects dans les expériences 1 et 2, et 20% de choix corrects dans les expériences 3 et 4 (un objet fonctionnel et trois objets distracteurs dans les expériences 1 et 2, et 1 objet fonctionnel, 1 petite récompense et trois objets distracteurs dans les expériences 3 et 4). Voir les scripts de simulation pour les descriptions exactes (voir matériel électronique supplémentaire). Pour faciliter le suivi des simulations, voici des descriptions approfondies des deux études.

2.3. Une description de l’étude de Mulcahy et Call sur les grands singes

Ces tests ont été réalisés avec des orangs-outans et des bonobos . L’étude a commencé par un pré-entraînement. Ici, un animal a été placé dans une salle de test et entraîné à deux tâches différentes à l’aide d’outils pour obtenir une récompense d’un appareil. Ces outils fonctionnels seront désignés sous le nom d’objets fonctionnels. L’une des tâches consistait à choisir un tube et à l’insérer dans un appareil. L’autre tâche consistait à choisir un crochet et à l’utiliser pour atteindre une bouteille qui ne pouvait être atteinte sans le crochet. Après le pré-entraînement, l’animal a été soumis à un test de choix forcé entre des objets fonctionnels et trois objets non fonctionnels correspondants (appelés par la suite objets distracteurs). Mais pendant ce choix forcé, l’accès à l’appareil contenant une récompense était bloqué. Une fois le choix effectué, l’animal a été conduit de la salle de test à une salle d’attente. Les objets que l’animal n’avait pas pris étaient alors retirés de la salle de test. À ce stade, il y avait un délai. Après ce délai, l’animal était à nouveau autorisé à entrer dans la salle de test et à accéder aux appareils. Si un objet fonctionnel avait été choisi dans le test de choix forcé, l’animal pouvait maintenant utiliser l’objet pour obtenir une récompense, montrant ainsi le comportement qu’il avait appris pendant la préformation.

Cette étude comprenait quatre tests légèrement différents. Les tests variaient en ce qui concerne l’outil qui était l’objet fonctionnel et la durée des délais. De plus, dans le dernier test, les animaux n’avaient pas à utiliser l’outil pour obtenir une récompense. Notez qu’ici, dans l’expérience 4, deux nouveaux individus ont été utilisés et qu’ils n’ont pas participé aux expériences 1, 2 ou 3. Cette dernière partie a eu peu d’importance ici pour les raisons mentionnées dans la section Résultats. Les simulations ont suivi la logique de l’étude, et voici le détail des événements clés et des délais utilisés dans la simulation :

  • Préformation : Avant les tests, tous les sujets ont appris à utiliser les outils fonctionnels. En deux étapes, un minimum de trois plus huit essais de préformation ont été autorisés pour la tâche du tube et un minimum de cinq essais de préformation ont été autorisés pour la tâche du crochet.

  • Expérience 1, condition tube : (1) Choix forcé avec tube fonctionnel et objets distracteurs (16 essais). (2) Après le choix, aller dans une autre pièce. (3) Attendre 1 h. (4) Revenir et si le tube fonctionnel avait été choisi, cela pouvait être utilisé pour obtenir une récompense.

  • Expérience 2, condition tube : (1) Choix forcé avec tube fonctionnel et objets distracteurs (12 essais). (2) Après le choix, aller dans une autre pièce. (3) Attendre 14 h. (4) Revenir et si le tube fonctionnel avait été choisi, cela pouvait être utilisé pour obtenir une récompense.

  • Expérience 3, condition crochet : (1) Choix forcé avec crochet fonctionnel et objets distracteurs (16 essais). (2) Après le choix, aller dans une autre pièce. (3) Attendre 1 h. (4) Revenir et si le crochet fonctionnel avait été choisi, cela pouvait être utilisé pour obtenir une récompense.

  • Expérience 4, condition crochet : (1) Choix forcé avec crochet fonctionnel et objets distracteurs (16 essais). (2) Après le choix, aller dans une autre pièce. (3) Attendre 1 h. (4) Revenir et si le crochet fonctionnel avait été choisi, une récompense était reçue sans utiliser le crochet.

Les séquences de comportement à apprendre étaient les suivantes :

  • Condition tube : Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Condition du crochet : Shook → Btake hook → Sapparatus → Buse hook → Sreward

Dans les deux conditions, les singes n’ont jamais été récompensés pour avoir choisi les objets distracteurs, ou:

  • Distracteurs : Sdistracteur → Btake distracteur → Sno récompense

2.4. Une description de Kabadayi &L’étude d’Osvath sur les corbeaux

Ces tests ont été réalisés avec des corbeaux . Cette étude a commencé par un pré-entraînement. Ici, un animal a été placé dans une salle de test et entraîné à deux tâches d’outils différents pour obtenir une récompense d’un appareil. Comme ci-dessus, les outils fonctionnels seront appelés objets fonctionnels. La première tâche consistait à placer une pierre dans un appareil pour obtenir une récompense. L’autre tâche consistait à prendre une capsule de bouteille (appelée jeton) et à la donner à un humain. Contrairement à l’étude sur les singes, avant le début des tests, les corbeaux ont également eu droit à des essais d’extinction. Dans ce cas, l’animal était autorisé à interagir avec les objets qui seraient présents pendant les tests de choix forcé, mais qui ne pourraient jamais être utilisés pour obtenir des récompenses (appelés par la suite objets distracteurs). Après un entraînement préalable, l’animal était soumis à un test de choix forcé entre un objet fonctionnel et trois objets distracteurs. Après avoir fait son choix, l’animal n’était pas autorisé à utiliser l’objet fonctionnel pendant un certain temps. En d’autres termes, aucune récompense ne pouvait être perçue immédiatement après le test de choix (à l’exception de l’expérience 4). À ce moment-là, il y avait un délai. Après ce délai, l’animal était autorisé à utiliser l’objet choisi. Si un objet fonctionnel avait été choisi dans le test de choix forcé, l’animal pouvait maintenant utiliser cet objet pour obtenir une récompense, montrant ainsi le comportement qu’il avait appris pendant la préformation.

Cette étude comprenait également quatre tests légèrement différents. Les tests variaient en ce qui concerne le nombre d’essais, la durée des délais et, dans le dernier test, les animaux n’avaient pas à attendre avant d’utiliser un objet fonctionnel pour obtenir une récompense. Il convient de noter que dans cette étude, deux récompenses différentes ont été utilisées. Une récompense de grande valeur a été utilisée lors du pré-entraînement et dans toutes les expériences. Et dans les expériences 3 et 4, une récompense connue de faible valeur a été utilisée dans la situation de choix forcé aux côtés de l’outil fonctionnel et des objets distracteurs. Notez que les expériences n’ont pas été réalisées dans le même ordre que celui dans lequel elles ont été numérotées dans l’étude publiée. J’ai choisi de présenter les tests dans l’ordre temporel dans lequel ils ont été réalisés (1,3,2,4). Les simulations ont suivi la logique de l’étude, et voici le détail des événements clés utilisés dans la simulation : les événements clés avant et pendant les expériences étaient :

  • Préformation : Avant les tests, tous les sujets ont appris à utiliser les outils fonctionnels. En deux étapes, un minimum de trois plus cinq essais de préformation ont été autorisés pour la tâche outil et 35 essais de préformation ont été autorisés pour la tâche jeton.

  • Essais d’extinction : Dans cette phase, les sujets ont été autorisés à manipuler des objets distracteurs pendant 5 min sans recevoir de récompenses.

  • Expérience 1 : (1) Choix forcé avec objet fonctionnel et objets distracteurs. 14 essais dans la condition outil et 12 × 3 essais dans la condition jeton. (2) Attente de 15 minutes. (3) L’objet choisi peut être utilisé à nouveau, et si la pierre ou le jeton avait été choisi, il pouvait être utilisé pour obtenir une récompense.

  • Expérience 3 : (1) Choix forcé avec objet fonctionnel, petite récompense et objets distracteurs. 14 essais dans la condition outil et 14 essais dans la condition jeton. (2) Attente de 15 minutes. (3) L’objet choisi peut être utilisé à nouveau, et si la pierre ou le jeton avait été choisi, il pouvait être utilisé pour obtenir une récompense.

  • Expérience 2 : (1) Choix forcé avec objet fonctionnel et objets distracteurs. 6 essais dans la condition outil et 6 essais dans la condition jeton. (2) Attendre 17 h. (3) L’objet choisi peut être utilisé à nouveau, et si la pierre ou le jeton avait été choisi, il pouvait être utilisé pour obtenir une récompense.

  • Expérience 4 : (1) Choix forcé avec objet fonctionnel, petite récompense, et objets distracteurs. 14 essais dans la condition outil et 14 essais dans la condition jeton. (2). Si la pierre ou le jeton avait été choisi, il pouvait être utilisé pour obtenir une récompense.

Les séquences de comportement à apprendre étaient les suivantes :

  • Condition outil : Tabouret → Outil Btake → Sapparatus → Outil Buse → Sreward

  • Condition du jeton : Stoken → Btake jeton → Shuman → Bgive jeton → Sreward

On a également appris aux corbeaux, lors d’une phase d’extinction, qu’il n’était jamais gratifiant de choisir ou d’utiliser des objets distracteurs. C’était également le cas pendant tous les tests, ou:

  • Distracteurs : Sdistracteur → Btake distracteur → Sno récompense

Dans les phases d’autocontrôle de l’étude, les corbeaux avaient la possibilité de choisir une petite récompense qui était présentée à côté de l’objet fonctionnel (outil ou jeton) et des objets distracteurs. Par conséquent, dans les expériences 3 et 4, ces séquences de comportement étaient également possibles :

  • Condition outil : Sdog croquette → Bprendre petite récompense → Ssmall récompense

  • Condition du jeton : Sdog croquette → Btake petite récompense → Ssmall récompense

2.5. Illustration des mises à jour de la mémoire pendant le pré-entraînement

Pour illustrer comment ces séquences de comportement sont affectées par l’apprentissage, voici un exemple de mises à jour de la mémoire pour le pré-entraînement dans l’étude sur le corbeau. La séquence comportementale qui s’est développée pendant le préapprentissage peut être décrite comme Tabouret → Btake tool → Sapparatus → Buse tool → Sreward où la valeur de l’insertion de la pierre dans l’appareil a augmenté, de sorte que vSapparatus → Buse tool≫0. Comme le modèle inclut également un renforcement conditionné, la valeur de la pierre elle-même est actualisée en fonction de la valeur du stimulus suivant, la grande récompense. Avec des expériences répétées, la valeur du stimulus (w) de Sreward fera croître la valeur du stimulus de Stool. Comme nous l’avons montré dans notre description de ce modèle, avec suffisamment d’expériences, la valeur de l’outil se rapprochera de la valeur de la grande récompense. En revanche, les essais d’extinction avec des expériences répétées non récompensées des trois objets distracteurs peuvent être décrits comme Sdistracteur → Bpick distracteur → Sno récompense. Cette séquence d’événements entraînera une réduction à la fois de la force associative du choix d’un distracteur vSdistracteur → Bpick distracteur et de la valeur de renforcement conditionné (wdistracteur) du distracteur. Lorsque le premier test commence par un choix forcé, le comportement des corbeaux a été influencé par le pré-entraînement à la fois avec la pierre et les distracteurs.

2.6. Détails de la simulation

Le modèle ci-dessus a été incorporé dans un programme Python où l’apprentissage s’est produit selon les procédures détaillées des deux études, telles que définies ci-dessus, afin d’obtenir des estimations des probabilités de choisir les différents stimuli, et des valeurs v et w, tout au long des études. Deux types de simulations ont été effectués. Tout d’abord, des simulations avec le modèle complet ont été effectuées, puis des simulations sans valeurs de stimulus (w), c’est-à-dire ne permettant que notre version de l’apprentissage par stimulus-réponse utilisant uniquement la première ligne de l’équation (2.1) ainsi que la prise de décision (équation (2.2)). Ceci a été fait pour explorer les différences entre notre modèle qui inclut le renforcement conditionné et une version de l’apprentissage stimulus-réponse seul. Cette version de l’apprentissage stimulus-réponse est identique à la règle d’apprentissage classique de Rescorla-Wagner, mais dans nous l’avons considéré en termes de cadre instrumental plutôt que pavlovien.

Pour tenir compte des retards, un pas de temps par minute a été inclus dans la simulation aux moments de retard. Pendant ces pas de temps, seul un stimulus de fond a été expérimenté. Ceci n’est pas très important pour le bien des mises à jour de la mémoire car les mémoires de stimulus-réponse et de valeur de stimulus sont toutes deux des mémoires à long terme. Le fait que les animaux se souviennent des associations stimulus-réponse et des valeurs de stimulus pendant une très longue période n’a été mentionné dans aucune des études simulées.

Les mêmes paramètres d’apprentissage ont été utilisés dans toutes les simulations. Tous les comportements ont commencé avec une valeur initiale stimulus-réponse v = 1, les valeurs v et w ont été mises à jour avec un taux d’apprentissage α = 0,2, l’exploration a été fixée à β = 1, et les récompenses ont été fixées à u = 6 en dehors des récompenses de faible valeur dans les expériences 3 et 4 de Kabadayi & Osvath qui ont été fixées à u = 2. Le coût du comportement pour tous les comportements était de 0,1, à l’exception des réponses passives qui étaient fixées à 0 (voir les informations sur tous les comportements et éléments de stimulus inclus dans les simulations dans le matériel électronique supplémentaire). Toutes les simulations ont été effectuées pour 500 sujets et le nombre d’essais a suivi approximativement celui des expériences. Le fait que le nombre d’essais ne corresponde pas parfaitement aux études empiriques est dû à la nature probabiliste de l’équation de décision. Le manque d’information sur les valeurs initiales des animaux rend les comparaisons quantitatives exactes difficiles.

Bien que les corbeaux et les singes aient eu des antécédents riches, le comportement précédemment appris a été ignoré et les valeurs initiales ont été supposées être les mêmes pour les objets distracteurs et les objets fonctionnels. Pour être conservateur, toutes les forces associatives entre les comportements et les stimuli ont été supposées être égales au début des simulations. Kabadayi & Osvath n’a pas calibré les préférences des corbeaux par rapport à la valeur des deux récompenses alimentaires différentes, il n’y a donc aucune information quantitative sur les différences entre les récompenses disponibles. Ils ont indiqué dans la méthode que la récompense alimentaire de haute qualité était à la fois plus grande et plus attractive. Des informations exactes sur la quantité d’extinction manquaient dans l’étude sur les corbeaux, il a donc été supposé que les corbeaux avaient cinq expériences d’extinction avec les distracteurs.

Les comportements et les éléments de stimulus utilisés dans les simulations étaient les suivants :

2.6.1. Comportements
  • Mulcahy & Appel Tube : prendre le tube, utiliser le tube, prendre le distracteur, être passif

  • Mulcahy & Appel Crochet : prendre le crochet, utiliser le crochet, prendre le distracteur, être passif

  • Kabadayi & Osvath Outil : prendre outil, utiliser outil, prendre distracteur, être passif, prendre petite récompense

  • Kabadayi & Osvath Jeton : prendre jeton, utiliser jeton, prendre distracteur, être passif, prendre petite récompense

2.6.2. Eléments de stimulation
  • Mulcahy & Tube d’appel : fond, tube, tâche tube, distracteur, récompense

  • Mulcahy & Crochet d’appel : fond, crochet, tâche crochet, distracteur, récompense

  • Kabadayi & Outil Osvath : fond, outil, appareil, distracteur, récompense, petite récompense

  • Kabadayi & Osvath Token : fond, token, humain, distracteur, récompense, petite récompense

2.7. Données des études empiriques

Pour comparer les résultats de la simulation avec les données empiriques des deux études , des moyennes ont été calculées à partir des données disponibles dans les deux études respectives (voir figures dans Résultats). On a ainsi obtenu la proportion moyenne de choix corrects et incorrects dans les tests de choix forcé. Il convient de noter que l’expérience 4 de l’étude sur les singes ne comportait aucun comportement correct lors de l’utilisation de l’outil au retour dans l’appareil après le délai, ce qui rend cette expérience difficile à interpréter. De plus, les données sur les choix pour l’expérience 4 n’étaient pas disponibles dans le texte, donc les données de ont été utilisées pour ce point de données. Il est malheureux de mélanger les données de cette façon, mais j’ai choisi cela en faveur de laisser les données de l’expérience 4 hors.

Résultats

Dans l’ensemble, les simulations correspondaient aux résultats de l’étude du corbeau et du grand singe. Les simulations montrent comment deux facteurs peuvent contribuer ensemble au comportement orienté vers l’avenir manifesté par les grands singes et les corbeaux. Tout d’abord, les valeurs de renforcement conditionnées des objets fonctionnels, établies par le biais d’un entraînement préalable et de l’extinction, étaient capables d’entraîner des choix initiaux corrects. Ceci est illustré dans la figure 1 où la proportion de choix corrects est indiquée. Deuxièmement, les choix corrects ont été récompensés tout au long des études, à l’exception de l’expérience 4 sur les singes. Le fait que l’utilisation d’objets fonctionnels ait été récompensée tout au long de l’étude a suffi pour que les performances dépassent largement les niveaux de chance (figure 1). Dans l’étude sur les corbeaux, les récompenses délivrées pendant l’expérience expliquent bien la performance quasi parfaite dans les deux dernières parties de cette étude.

Figure 1. Résultats des données empiriques (points) et de simulation (lignes) montrant la proportion de réponses correctes aux objets fonctionnels et, pour l’étude sur le corbeau, la proportion simulée de réponses aux petites récompenses (lignes pointillées). Les bonobos et les orangs-outans figurent dans le panneau supérieur et les corbeaux dans le panneau inférieur. Pour les singes, le choix du tube était correct dans les expériences 1 et 2 (ligne de gauche), et le choix du crochet était le bon dans les expériences 3 et 4 (ligne de droite). Notez que l’axe des X du panneau supérieur est brisé, car l’expérience 4 a été réalisée avec de nouveaux individus qui n’ont subi qu’un pré-entraînement avant l’expérience. Pour les corbeaux, le choix correct dans la première moitié de l’expérience était un outil (ligne de gauche). Un jeton était le choix correct dans la deuxième partie de l’expérience (ligne de droite). Les lignes horizontales représentent les niveaux de chance attendus des choix corrects pendant les phases de test (c’est-à-dire tube, crochet, outil et jeton, respectivement). Les données empiriques sont des moyennes des données de la fin de chaque phase respective dans les deux études. Les graphiques du bonobo et du corbeau ont été téléchargés à partir de openclipart.org.

L’ajustement était bon entre les tests empiriques (représentés par des cercles remplis dans la figure 1) et les simulations en ce sens que les objets fonctionnels étaient plus susceptibles d’être choisis que les objets distracteurs. Les simulations ont également suivi les tendances générales en ce sens que la performance a augmenté dans l’étude des grands singes au cours des expériences 1 et 2 et que la performance a été réduite dans l’expérience 3. Bien que les simulations aient sous-estimé la performance dans la condition « outil » de l’étude sur les corbeaux, elles ont suivi de près le modèle selon lequel la performance était élevée dans l’expérience 1, diminuait dans l’expérience 3 pour atteindre une performance presque parfaite dans l’expérience 4. L’une des raisons pour lesquelles la simulation a eu un taux de réussite plus faible dans la condition de l’outil pourrait être que les corbeaux étaient bien entraînés et avaient des antécédents riches qui sont utiles dans les situations de test. Ces oiseaux ont été élevés par des humains et interagissent régulièrement avec eux. Ils sont également familiarisés avec de nombreux objets, montages expérimentaux et récompenses différents. En revanche, les simulations partaient du principe qu’ils n’avaient aucune connaissance préalable. Il y avait une correspondance étroite entre les simulations et les données empiriques pour la condition de jeton, mais la réduction des performances au cours de l’expérience 3 était plus importante dans les données empiriques.

Les simulations ont également capturé que les grands singes présentaient un taux de réussite global inférieur à celui des corbeaux. Au moins deux facteurs pourraient avoir contribué à cette différence. Les grands singes ont connu moins de pré-entraînement que les corbeaux et, contrairement aux corbeaux, les grands singes n’ont pas eu droit à un entraînement d’extinction avec les objets distracteurs avant le test. Ceci est illustré dans la figure 1 où la probabilité de choisir l’objet correct est beaucoup plus élevée au début de l’expérience 1 dans l’étude sur les corbeaux que dans l’étude sur les singes. Le fait qu’un grand nombre d’essais de pré-entraînement (35 dans la condition de jeton), combiné à des essais d’extinction, puisse donner lieu à des performances élevées dans les choix forcés est clairement démontré dans la condition de jeton de l’étude sur le corbeau. Ici, la simulation a suivi de près le taux de réussite élevé observé.

L’entraînement de pré-entraînement et d’extinction n’a pas seulement influencé la probabilité de prendre des décisions correctes. Les simulations révèlent comment le prétraitement et l’extinction affectent également la proportion de choix des objets incorrects, comme les petites récompenses (figure 1). L’effet de la préformation et de l’extinction était le plus prononcé dans la condition de jeton de l’étude sur les corbeaux, où la simulation suggère que la probabilité que les corbeaux choisissent les petites récompenses plutôt que les objets fonctionnels était proche de zéro. Le grand nombre d’expériences gratifiantes avec les objets fonctionnels (outil et jeton) a entraîné de grandes valeurs de renforcement conditionné pour ces objets (figure 2). Les simulations ont corroboré le schéma selon lequel les corbeaux ne choisissaient pas les petites récompenses au lieu des objets fonctionnels, et que la maîtrise de soi devrait émerger de l’apprentissage associatif.

Figure 2. Résultats des simulations pour permettre des comparaisons entre la sortie de notre modèle d’apprentissage qui inclut le renforcement conditionné (valeurs de stimulus), avec une version instrumentale du modèle Rescorla-Wagner (R-W) . Les simulations de l’étude sur les corbeaux sont à gauche et les simulations de l’étude sur les singes sont à droite. Les panneaux supérieurs montrent les mises à jour de la mémoire : associations stimulus-réponse v pour les comportements envers les objets fonctionnels, et valeurs de stimulus w de ces objets. Comme les objets fonctionnels ne sont pas eux-mêmes gratifiants, les simulations montrent que les associations stimulus-réponse pour le choix des objets fonctionnels ne se développeront pas avec le modèle d’apprentissage plus simple (R-W). Et les panneaux du bas montrent que le modèle d’apprentissage stimulus-réponse (R-W) ne peut pas reproduire les comportements observés dans les deux études, ce qui contraste fortement avec notre modèle d’apprentissage qui permet un renforcement conditionné. Les phases expérimentales sont les mêmes que dans la figure 1, mais ici les phases ne sont pas représentées pour plus de clarté. Notez que les axes X dans les panneaux de droite sont brisés parce que l’expérience 4 a été réalisée avec de nouveaux individus qui n’ont subi qu’un pré-entraînement avant l’expérience. Les graphiques de corbeau et de singe ont été téléchargés à partir de openclipart.org.

La croissance des valeurs de stimulus-réponse et des valeurs de stimulus sont montrées dans le panneau supérieur de la figure 2.

Notez que l’expérience 4 dans l’étude des grands singes correspond le moins aux simulations. Ici, deux nouveaux singes ont été autorisés à obtenir la récompense sans utiliser l’outil précédemment fonctionnel et ils sont revenus avec un outil correct 2 fois sur 16, soit moins que dans la simulation. Cette différence entre le test empirique et la simulation pourrait être réduite en augmentant le coût du comportement. L’augmentation du coût d’un comportement qui ne donne pas lieu à une récompense entraînera une réduction de l’exécution du comportement. Mais il est difficile de savoir ce que l’on peut attendre des animaux dans cette situation lorsque les singes sont confrontés à une situation où le lien entre un outil et une récompense est moins clair. Et deux des quatre singes n’ont jamais tenté de résoudre le problème. En conclusion, il est difficile de juger de la précision et de la signification de ce point de données (voir ).

Les simulations montrent également les différences entre des modèles d’apprentissage associatif de complexité différente. Les limites de notre version de l’apprentissage par stimulus-réponse deviennent évidentes lorsqu’on les compare aux simulations utilisant notre modèle d’apprentissage qui intègre à la fois l’apprentissage pavlovien et instrumental . Dans l’apprentissage stimulus-réponse seul, les séquences de comportement où un comportement n’est pas immédiatement suivi d’une récompense ne peuvent pas être apprises (figure 2). Pour que des séquences de comportement se développent, il faut que des stimuli précédant de plus d’une étape la récompense deviennent gratifiants par le biais d’un renforcement conditionné. Lorsqu’un stimulus précédemment neutre acquiert une valeur w positive, c’est-à-dire qu’il devient gratifiant, il peut entraîner l’acquisition de valeurs v positives pour des comportements qui n’entraînent pas de récompense immédiate (panneau supérieur de la figure 2). Lorsque l’on compare notre modèle capable d’apprendre des séquences de comportement avec la version instrumentale du modèle de Rescorla-Wagner, il est clair que la probabilité de choisir le bon stimulus n’augmente pas si seul l’apprentissage stimulus-réponse est autorisé (figure 2). En outre, comme les valeurs v ne sont actualisées que par le renforçateur immédiat dans l’apprentissage stimulus-réponse, cela a également pour conséquence que la petite récompense sera choisie en faveur du jeton et de l’outil, puisque le jeton et l’outil ne peuvent pas devenir des stimuli de valeur. Ceci est illustré dans la figure 2, où le choix incorrect des petites récompenses augmente au fil des essais lorsque seule notre version de l’apprentissage stimulus-réponse est autorisée (marquée par R-W dans la figure 2). L’apprentissage stimulus-réponse seul ne pouvait pas expliquer les résultats ni dans l’étude sur les corbeaux ni dans celle sur les grands singes.

Discussion

Les simulations des deux études de planification sur les corbeaux et les grands singes suggèrent que le comportement précédemment prétendument généré par une planification flexible peut être expliqué par l’apprentissage associatif. Comme le montrent les recherches sur l’intelligence artificielle et le comportement animal, ces modèles d’apprentissage associatif sont puissants pour générer des séquences de comportement flexibles . Par conséquent, la conclusion tirée dans les études sur les corbeaux et les grands singes, à savoir que les corbeaux et les grands singes résolvent ces problèmes par un mécanisme flexible spécifique, n’est guère justifiée. Les simulations réalisées ici donnent raison aux critiques qui ont interprété ces résultats comme des conséquences de l’apprentissage associatif . Si les études futures visent à distinguer les processus associatifs d’autres types de mécanismes mentaux, elles bénéficieraient d’une conception expérimentale améliorée comprenant des contrôles appropriés tirant parti des modèles d’apprentissage de pointe.

Il était intéressant de noter que les simulations ont capturé la différence entre l’étude sur les corbeaux et les grands singes . Cela suggère que les simulations ont bien capturé les effets des phases de pré-entraînement, d’extinction et des récompenses tout au long des études. Des valeurs élevées de renforcement conditionné (valeurs w) pour les objets corrects (outil et jeton) et des valeurs faibles pour les objets distracteurs ont été établies avant les premiers tests (figure 2). Cela était particulièrement évident dans la partie jeton de l’expérience sur les corbeaux, où les corbeaux ont été soumis à 35 essais de pré-entraînement où la séquence de comportement Stoken → Btake token → Shuman → Bgive token → Sreward était systématiquement récompensée (panneau inférieur, figure 1).

Un autre facteur important pour les résultats positifs des études sur les corbeaux et les grands singes était que le choix des objets corrects était récompensé tout au long des tests. Cela a permis de maintenir des valeurs v- et w élevées pour les comportements corrects et les objets corrects, respectivement. Cela explique également pourquoi les corbeaux ont négligé la petite récompense lorsqu’elle était présentée en même temps que les objets fonctionnels (figure 1). Les objets fonctionnels ont donné lieu à des récompenses répétées tout au long de l’étude et ont donc acquis des valeurs de stimulus élevées. Tant que ces valeurs sont supérieures à la valeur de la petite récompense, ces objets fonctionnels seront choisis la plupart du temps. Cependant, si l’on se contente d’un apprentissage stimulus-réponse – en autorisant uniquement les mises à jour des valeurs v comme dans le modèle de Rescorla-Wagner – la petite récompense sera choisie car ce modèle ne comporte pas de renforcement conditionné (figure 2). Si l’on veut éviter l’apprentissage pendant les tests, il y a des avantages à effectuer des tests sous extinction, comme par exemple dans les études de réévaluation des résultats (par exemple). De cette façon, les tests peuvent révéler les conséquences de manipulations expérimentales antérieures.

Les résultats soutiennent l’idée que la maîtrise de soi a émergé par apprentissage associatif. Nous avons précédemment montré comment les animaux peuvent, grâce à l’apprentissage associatif, acquérir le contrôle de soi, à condition qu’on leur fournisse suffisamment d’informations et d’expériences . Kabadayi & Osvath n’a pas défini le contrôle de soi, mais dans une étude précédente, ils l’ont défini comme « la suppression des pulsions immédiates en faveur des récompenses différées ». Cette vision fonctionnelle de la maîtrise de soi correspond à de nombreuses descriptions de comportement dans la littérature sur le comportement animal. Les observations d’animaux apprenant à rejeter de petites récompenses lorsqu’ils en attendent de grandes, ou en d’autres termes à rejeter des proies non rentables lorsque les proies rentables sont abondantes, proviennent par exemple de poissons (crapet arlequin Lepomis macrochirus, ), de crustacés (crabes de rivage, Carcinus maenas, ) et d’oiseaux (mésanges charbonnières Parus major et chevaliers gambettes Tringa totanus, ). Ces types d’études ont été dans une large mesure ignorés dans les études où la maîtrise de soi est souvent étudiée comme un type distinct de mécanisme mental et non comme quelque chose qui est sujet à l’apprentissage (par exemple). Au lieu de cela, à la lumière de ces simulations, les études précédentes sur le contrôle de soi dans le cadre de la recherche sur la cognition animale (comme par exemple ) peuvent être mieux comprises comme étant causées par l’apprentissage, y compris le renforcement conditionné .

Théoriquement, le contrôle de soi peut se développer de plus d’une façon. L’autocontrôle peut émerger par l’acquisition de valeurs de renforcement conditionné élevées pour les objets fonctionnels. L’objet fonctionnel devient plus précieux qu’une petite récompense. Mais la maîtrise de soi peut également émerger si, par exemple, l’attente est considérée comme un comportement à part entière. Dans ce cas, la maîtrise de soi peut se manifester par une augmentation de la valeur de renforcement de l’attente en présence d’un stimulus particulier. La maîtrise de soi chez les chats chasseurs pourrait se manifester par des valeurs v élevées pour l’attente en présence d’une proie éloignée. Des recherches supplémentaires sont nécessaires pour mieux comprendre comment les différents aspects des mécanismes d’apprentissage interagissent pour donner naissance à des modèles de maîtrise de soi. Les prédispositions génétiques sont susceptibles de jouer un grand rôle et d’interagir avec les associations stimulus-réponse et les valeurs de stimulus.

Un autre résultat important est que la différence entre les performances des corbeaux dans l’expérience 3 et l’expérience 4 a été capturée par les simulations. La raison de la performance parfaite dans l’expérience 4, à la fois dans l’étude des corbeaux et dans la simulation, était que le délai entre le choix et le comportement résultant de la récompense était omis. Au lieu de cela, il y avait une opportunité d’utiliser l’objet pour collecter une récompense juste après le choix forcé. Pour cette raison, chaque essai conduisait potentiellement directement à une récompense, alors que le choix du bon objet dans l’expérience 3 n’était récompensé qu’après le délai. Ou en d’autres termes, dans les expériences 1-3, les corbeaux ne pouvaient obtenir une récompense qu’une fois sur deux lorsqu’ils choisissaient le bon objet, alors que dans l’expérience 4, ils obtenaient des récompenses à chaque fois et immédiatement après avoir choisi et utilisé l’objet fonctionnel.

Une similitude entre notre modèle d’apprentissage et certains modèles d’apprentissage par renforcement en IA est que ces mécanismes permettent aux agents et aux animaux d’identifier les états du monde qui ont de la valeur, et quels comportements sont productifs dans ces états de valeur. Dans un sens opérationnel, ces modèles d’apprentissage génèrent la planification du moment où un comportement (mettre dans un appareil ou donner à un humain) envers un stimulus (pierre ou jeton) produira de la nourriture de grande valeur à un stade ultérieur. Cela se produit en dépit du fait que la nourriture (ou un autre stimulus gratifiant) est absente. Osvath & Kabadayi, dans une réponse aux critiques, a défini la planification flexible comme « la prise de décisions concernant des futurs en dehors de son champ sensoriel actuel dans des domaines pour lesquels il n’est pas prédisposé ». Que les modèles proviennent de l’IA ou du comportement animal, lorsque le renforcement conditionné est inclus dans les modèles d’apprentissage, des comportements de planification correspondant à cette définition émergeront grâce à l’interaction intelligente des valeurs de stimulus-réponse et des valeurs de stimulus. La clé est que les stimuli actuellement disponibles peuvent fournir des informations sur les comportements à exécuter pour accéder aux futurs états de valeur. Cependant, ces modèles d’apprentissage ne peuvent pas simuler mentalement différents résultats, ils ne peuvent pas voyager mentalement dans le temps, ni réorganiser l’information en interne. Pour paraphraser Roberts , les animaux non humains peuvent être  » bloqués dans le temps « , tout en présentant un comportement de planification.

Mulcahy & Call a tenté d’écarter le conditionnement instrumental comme explication du comportement des singes en réalisant l’expérience 4. Cette phase était similaire à l’expérience 3, mais les singes n’étaient pas récompensés pour avoir utilisé l’outil fonctionnel. Au lieu qu’un singe entre dans la pièce avec un outil fonctionnel pouvant être utilisé pour obtenir une récompense (comme dans l’expérience 3), un singe entre dans la pièce et trouve une récompense s’il a transporté l’outil fonctionnel de la salle d’attente à la salle de test. Il a été argumenté que si les singes ont obtenu de meilleurs résultats dans les autres expériences que dans celle-ci, cela suggérerait que les singes ont planifié de manière flexible. Mulcahy & Call a conclu que leurs résultats « représentent un véritable cas de planification future ». Un avocat du diable pourrait identifier des différences entre les expériences 3 et 4, rendant l’apprentissage une explication plus probable. Dans l’expérience 3, les singes ont été explicitement récompensés pour avoir utilisé l’outil. Il en résulte une valeur de renforcement conditionné élevée pour l’outil et une valeur stimulus-réponse élevée pour l’utilisation de l’outil sur l’appareil. Dans l’expérience 4, cependant, Mulcahy & Call souligne qu’il y avait un temps plus long entre le fait de prendre l’outil dans la salle d’attente, de transporter l’outil dans la salle de test, pour ensuite obtenir une récompense sans utiliser l’outil. Peut-être que la faible performance de l’expérience 4 était due au lien peu clair entre l’outil et la récompense, car le délai inhibe l’acquisition du fait de ramasser l’outil pour recevoir ensuite une récompense. Des conditions de contrôle appropriées sont importantes pour permettre le rejet d’hypothèses sans ambiguïté (par exemple, les discussions récentes dans ). Notre modèle d’apprentissage peut être utilisé dans des recherches futures pour analyser de telles différences comportementales causées par la variation des contingences d’apprentissage.

Les simulations montrent que l’étude du singe et celle du corbeau peuvent être comprises par l’apprentissage associatif. Cependant, les résultats des expériences avec les spécialistes de la cachette , probablement dépendants des spécialisations génétiques , sont actuellement hors de portée de notre modèle d’apprentissage. Le comportement de cachette et le comportement alimentaire impliquent des états motivationnels différents chez les animaux. Les états motivationnels peuvent être considérés comme des stimuli internes et facilement intégrés dans un modèle d’apprentissage associatif, ce qui se traduirait par une flexibilité accrue en termes de prise de décisions concernant la recherche de nourriture et la mise en cachette. Notre modèle n’inclut pas différents états motivationnels dans son état actuel, mais nous avons donné des exemples de la façon dont les prédispositions génétiques peuvent être intégrées au modèle . Une solution possible serait d’introduire la dépendance au contexte, de sorte que l’exploration soit différente pour différents stimuli externes et/ou pour différents états internes. Il est important de noter que, lorsque l’on fait des hypothèses sur des mécanismes mentaux plus flexibles, il faut tenir compte des coûts d’exploration plus élevés qu’entraîne une flexibilité accrue (voir ). Nous nous attendons à ce que l’évolution ait affiné les prédispositions génétiques qui, avec l’apprentissage associatif, génèrent des comportements productifs et spécifiques à l’espèce.

Un autre point important pour les études futures est que lorsque les animaux apprennent les conséquences du comportement, et que les valeurs stimulus-réponse et les valeurs du stimulus sont mises à jour, il s’agit de mémoires à long terme (par exemple, voir également ). Un corbeau entraîné à donner des jetons à un humain n’oublie pas simplement comment le faire un jour plus tard. Sur le plan comportemental, la condition d’utilisation de l’outil dans l’étude sur les corbeaux est identique à celle utilisée par les propriétaires de chiens pour apprendre à leurs amis à fourrure à « nettoyer » en mettant leurs jouets dans un panier prévu à cet effet. Au lieu que le corbeau soit récompensé pour avoir mis une pierre dans un appareil, le chien reçoit une récompense pour avoir mis un jouet dans un panier. De telles mémoires à long terme qui sont mises à jour par l’apprentissage associatif sont très différentes de la mémoire à court terme de stimuli arbitraires.

En conclusion, le développement de modèles d’apprentissage associatif est impressionnant dans la recherche en IA et les modèles se sont avérés puissants pour générer des comportements complexes. On peut se demander pourquoi ces modèles puissants ne sont pas plus largement appliqués au comportement des animaux non humains et pourquoi ces modèles sont sous-estimés comme une cause de comportement flexible chez les animaux non humains. Cette question est particulièrement pertinente étant donné que la recherche sur la cognition animale, dans laquelle les animaux non humains sont censés avoir des intuitions, faire preuve de raisonnement causal, et le plan est régulièrement critiqué pour souffrir de grandes revendications basées sur une méthodologie faible (par exemple ). Une façon de résoudre ce paradoxe de l’apprentissage associatif est d’intégrer les domaines de l’IA, de l’apprentissage animal et de la cognition animale. Pour comprendre les mécanismes qui génèrent le comportement, les modèles associatifs formels ascendants sont susceptibles d’être plus éclairants que les modèles cognitifs verbaux descendants d’ordre supérieur. Par exemple, parce que ces derniers modèles sont plus difficiles à rejeter et qu’ils ne peuvent être mis en œuvre dans des simulations ou utilisés lors de la construction de robots. En résumé, on conclut que l’on ne peut pas exclure que la planification flexible chez les singes et les corvidés, et probablement chez beaucoup d’autres espèces, émerge par l’apprentissage associatif.

Accessibilité des données

Les figures et les données des simulations peuvent être générées en utilisant le logiciel et le code comme spécifié dans le matériel supplémentaire électronique.

Contributions des auteurs

J.L.. a conçu la recherche, réalisé les simulations informatiques, analysé les données et rédigé le manuscrit.

Intérêts concurrents

Il n’y a pas d’intérêts concurrents.

Financement

Ce travail a été soutenu par la Fondation Knut et Alice Wallenberg, KAW 2015.005.

Reconnaissance

Merciements à Markus Jonsson, Magnus Enquist, Anna Jon-And et Stefano Ghirlanda. Merci également à deux arbitres anonymes pour leurs commentaires précieux et perspicaces.

Notes de bas de page

Le matériel électronique supplémentaire est disponible en ligne à https://dx.doi.org/10.6084/m9.figshare.c.4302740.

© 2018 The Authors.

Publié par la Royal Society selon les termes de la Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, qui permet une utilisation sans restriction, à condition que l’auteur original et la source soient crédités.

  • Mnih Vet al.2015Contrôle à l’échelle humaine par apprentissage par renforcement profond. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2016Maîtriser le jeu de Go avec des réseaux neuronaux profonds et la recherche d’arbres. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
  • Silver Det al.2017Maîtriser les échecs et le shogi par l’auto-jeu avec un algorithme général d’apprentissage par renforcement. (http://arxiv.org/abs/1712.01815). Google Scholar
  • Emery NJ, Clayton NS. 2004La mentalité des corbeaux : évolution convergente de l’intelligence chez les corvidés et les singes. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
  • Horner V, Carter JD, Suchak M, de Waal FB. 2011Le choix prosocial spontané par les chimpanzés. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
  • MacLean ELet al.2014L’évolution du contrôle de soi. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
  • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016Comment les chimpanzés coopèrent dans un monde compétitif. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
  • Whiten A. 2017Apprentissage social et culture chez l’enfant et le chimpanzé. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
  • Allen C, Bekoff M. 1995Cognitive éthologie et l’intentionnalité du comportement animal. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
  • Tomasello M, Call J. 1997Primate cognition. Oxford, UK : Oxford University Press. Google Scholar
  • Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Résolution perspicace des problèmes et modification créative des outils par des rooks captifs n’utilisant pas d’outils. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
  • Bird CD, Emery NJ. 2009Reply to Lind et al. : perspicacité et apprentissage. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
  • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Utilisation du paradigme de la fable d’Ésope pour étudier la compréhension causale du déplacement de l’eau par les corbeaux de Nouvelle-Calédonie. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
  • Heyes C. 2012Simple minds : a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Lien, ISI, Google Scholar
  • Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Enquist M, Lind J. 2013Coevolution de l’intelligence, du répertoire comportemental et de la durée de vie. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
  • Koops K, Furuichi T, Hashimoto C. 2015Les chimpanzés et les bonobos diffèrent dans la motivation intrinsèque pour l’utilisation d’outils. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
  • Enquist M, Lind J, Ghirlanda S. 2016Le pouvoir de l’apprentissage associatif et l’ontogenèse du comportement optimal. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
  • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, Royaume-Uni : Oxford University Press. Crossref, Google Scholar
  • Carew TJ, Sahley CL. 1986Apprentissage et mémoire des invertébrés : du comportement aux molécules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
  • Bouton ME. 2007Apprentissage et comportement : une synthèse moderne. Sinauer, MA : Sunderland. Google Scholar
  • Lind J, Enquist M, Ghirlanda S. 2015Mémoire animale : un examen des données de correspondance retardée à l’échantillon. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
  • Mulcahy NJ, Call J. 2006Les singes sauvent des outils pour une utilisation future. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
  • Naqshbandi M, Roberts WA. 2006Anticipation d’événements futurs chez les singes écureuils (Saimiri sciureus) et les rats (Rattus norvegicus) : tests de l’hypothèse de Bischof-Köhler. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
  • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planification de l’avenir par les geais des broussailles de l’Ouest. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
  • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Les bonobos et les orangs-outans, mais pas les chimpanzés, planifient de manière flexible l’avenir dans une tâche d’échange de jetons. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
  • Kabadayi C, Osvath M. 2017Les ravens sont parallèles aux grands singes dans la planification flexible pour l’utilisation d’outils et le troc. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
  • Premack D. 2007Cognition humaine et animale : continuité et discontinuité. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
  • Suddendorf T, Corballis MC. 2010Preuves comportementales pour le voyage dans le temps mental chez les animaux non humains. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2010Le voyage dans le temps mental chez les animaux. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
  • Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
  • Suddendorf T, Bulley A, Miloyan B. 2018Prospection et sélection naturelle. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
  • Pearce JM. 2008Animal learning and cognition, 3e éd. Hove, UK : Psychology Press. Google Scholar
  • Shettleworth S. 2010Cognition, évolution et comportement. Oxford, UK : Oxford University Press. Google Scholar
  • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
  • Eaton RL. 1970La séquence prédatrice, avec l’accent sur le comportement de mise à mort et son ontogenèse, chez le guépard (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
  • Kelleher RT, Gollub LR. 1962Une revue du renforcement conditionné positif. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
  • Mackintosh NJ. 1974La psychologie de l’apprentissage animal. London, UK : Academic Press. Google Scholar
  • Williams BA. 1994Renforcement conditionné : questions expérimentales et théoriques. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
  • McGreevy P, Boakes R. 2011Carottes et bâtons : principes du dressage des animaux. Sydney, Australie : Darlington Press. Google Scholar
  • Rescorla RA, Wagner AR. 1972Une théorie du conditionnement pavlovien : variations de l’efficacité du renforcement et du non-renforcement. In Classical conditioning II : current research and theory (eds AH Black, WF Prokasy), pp. 64-99. New York, NY : Appleton-Century-Crofts. Google Scholar
  • Blough DS. 1975Données d’état stable et un modèle quantitatif de la généralisation et de la discrimination opérante. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
  • Sutton RS, Barto AG. 1998Reinforcement learning. Cambridge, MA : MIT Press. Google Scholar
  • Balleine B, Dickinson A. 1991La performance instrumentale après dévaluation du renforçateur dépend de l’apprentissage par incitation. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
  • Dickinson A, Balleine B. 1994Contrôle motivationnel de l’action dirigée vers un but. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
  • Osvath M, Osvath H. 2008Prévoyance du chimpanzé (Pan troglodytes) et de l’orang-outan (Pongo abelii) : autocontrôle et pré-expérience face à l’utilisation future d’outils. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
  • Werner EE, Hall DJ. 1974La recherche optimale de nourriture et la sélection de la taille des proies par le crapet arlequin (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
  • Elner RW, Hughes RN. 1978Maximisation de l’énergie dans le régime alimentaire du crabe de rivage Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
  • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Sélection optimale des proies chez la mésange charbonnière (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
  • Goss-Custard JD. 1977Fourrage optimal et sélection de la taille des vers par le chevalier gambette, Tringa totanus, sur le terrain. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
  • Osvath M, Kabadayi C. 2018Contrairement à l’évangile, les corbeaux planifient effectivement de manière flexible. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
  • Barto AJ. 2003L’apprentissage par renforcement. In The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA : MIT Press. Google Scholar
  • Roberts WA. 2002Les animaux sont-ils coincés dans le temps ? Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
  • Ghirlanda S, Lind J. 2017Les expériences de la  » fable d’Esope  » démontrent un apprentissage par essais et erreurs chez les oiseaux, mais aucune compréhension causale. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
  • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Les techniques méta-analytiques révèlent que le raisonnement causal des corvidés dans le paradigme de la fable d’Ésope est dirigé par l’apprentissage par essais et erreurs. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
  • Correia SP, Dickinson A, Clayton NS. 2007Les geais des broussailles occidentaux anticipent leurs besoins futurs indépendamment de leur état motivationnel actuel. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
  • Cheke LG, Clayton NS. 2012Les geais d’Eurasie (Garrulus glandarius) surmontent leurs désirs actuels pour anticiper deux besoins futurs distincts et les planifier de manière appropriée. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
  • Clayton NS, Dickinson A. 1999Contrôle motivationnel du comportement de cache chez le geai des broussailles Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
  • Skinner BF. 1950Les théories de l’apprentissage sont-elles nécessaires?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
  • Vaughan W, Greene SL. 1984Capacité de mémoire visuelle du pigeon. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
  • Gleitman H. 1971Forgetting of long-term memories in animals. In Animal memory (eds W Honig, P James), pp. 1-44. New York, NY : Academic Press. Google Scholar
  • Penn DC, Holyoak KJ, Povinelli DJ. 2008L’erreur de Darwin : expliquer la discontinuité entre les esprits humains et non humains. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
  • Wynne C. 2008Aping Language : a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
  • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
  • Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
  • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans : is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
  • Dymond S, Stewart I. 2016Raisonnement relationnel et analogique dans la cognition comparative. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
  • Lindenfors P. 2017Cerveaux d’oiseaux : les corbeaux sont-ils aussi intelligents que certains scientifiques le prétendent ? Skept. Mag. 22, 10-11. Google Scholar
  • Lind J, Enquist M. 2009Plus de travail synthétique est nécessaire. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.