¿Qué puede hacer el aprendizaje asociativo por la planificación? | Royal Society Open Science

Introducción

Para asombro del mundo, los modelos de aprendizaje asociativo utilizados en la investigación de la inteligencia artificial (IA) alcanzan ahora habilidades de nivel humano en los videojuegos y ganan a los maestros humanos en el juego de mesa chino Go , el ajedrez y el shogi . A pesar de que el aprendizaje asociativo en la investigación de la IA es reconocido por producir comportamientos similares a los humanos, el aprendizaje asociativo a menudo no se menciona (por ejemplo), o se percibe como no deseado o de insuficiente sofisticación (por ejemplo) para proporcionar explicaciones sobre el comportamiento flexible en los animales no humanos. Es una paradoja intrigante que el aprendizaje asociativo se reconozca por producir un comportamiento flexible complejo dentro de la investigación de la IA, pero que a menudo se desestime y se descuide como modelo de comportamiento flexible en los sistemas biológicos (tanto en humanos como en animales no humanos).

Si el desarrollo de secuencias de comportamiento en animales no humanos puede entenderse en términos de aprendizaje asociativo o no, tiene consecuencias de gran alcance para nuestra comprensión del estudio del comportamiento. Si el comportamiento percibido como avanzado o complejo, como el uso de herramientas por parte de los chimpancés (Pan troglodytes), puede desarrollarse a través de procesos asociativos, las diferencias entre especies pueden buscarse en términos de diferencias genéticas en los repertorios de comportamiento, tendencias exploratorias como la curiosidad, y factores motivacionales y atencionales. Si los procesos asociativos no bastan para explicar cómo se procesa la información y se actualizan los recuerdos para generar un comportamiento, habrá que identificar mecanismos alternativos para entender cómo se desarrolla ese comportamiento. En la actualidad, los investigadores tienen puntos de vista muy contrastados sobre esta cuestión. Por un lado, algunos sugieren que los procesos asociativos, junto con factores como el tamaño del repertorio de conductas y la exploración, son poderosos y pueden explicar gran parte de cómo los animales adquieren conductas (por ejemplo, ). Por el contrario, otros hacen hincapié en mecanismos alternativos y proponen que los animales tienen muchos mecanismos diferentes que resuelven distintos problemas específicos y que estos mecanismos están afinados por la evolución (p. ej. ). No todos los estudios entran en estas dos categorías y algunos ponen a prueba explicaciones alternativas y controlan el aprendizaje asociativo. Sin embargo, es habitual que estos estudios asuman sólo las formas más simples de aprendizaje asociativo. Es probable que esto dé lugar a falsos rechazos de las hipótesis de aprendizaje asociativo. Esto se debe a que la mayoría de los vertebrados e invertebrados exhiben capacidades para el aprendizaje instrumental y pavloviano , que junto con las memorias especializadas hacen que la mayoría de los animales sean capaces de un aprendizaje más complejo que el que permiten las formas más simples de aprendizaje asociativo.

El objetivo de este estudio era explorar si un modelo de aprendizaje , similar al aprendizaje por refuerzo utilizado en la investigación de la IA, puede ayudarnos a entender la adquisición del comportamiento de planificación en córvidos y simios, comportamientos que a veces se perciben como complejos y similares a los humanos. Se ha llegado a la conclusión de que varias especies planifican con flexibilidad el futuro, no como los humanos (por ejemplo). La idea es que este tipo de planificación es el resultado de un mecanismo mental flexible que puede simular, mentalmente, diferentes estados futuros a partir de la información actual. Sin embargo, estas afirmaciones han sido impugnadas basándose en al menos dos líneas de argumentos diferentes. En primer lugar, los investigadores han planteado dudas sobre la capacidad general de las aves para planificar porque los estudios de planificación en aves suelen implicar a especialistas en la realización de tareas de caché, como los arrendajos de los matorrales (Aphelocoma californica), los arrendajos euroasiáticos (Garrulus glandarius) y los carboneros de cabeza negra (Poecile atricapillus) . Estos resultados pueden deberse a repertorios de memoria especializados (cf. ). La segunda razón para rechazar la idea de que los animales no humanos planifiquen de forma flexible es que el comportamiento observado no fue causado por una planificación similar a la humana, sino que se entiende mejor como resultado del aprendizaje asociativo, y que las deficiencias metodológicas hacen que estos estudios sean equívocos.

¿Por qué un modelo de aprendizaje asociativo sería útil para entender el comportamiento orientado al futuro? El aprendizaje asociativo es bien conocido por causar comportamientos anticipatorios, comportamientos que pueden predecir eventos significativos posteriores sin beneficios inmediatos . Además, el autocontrol, a menudo mencionado como importante para la planificación, puede surgir a través del aprendizaje asociativo. Se podría suponer que el autocontrol no es posible a través del aprendizaje asociativo porque el comportamiento inmediatamente recompensado debería ser siempre preferido al que no lo es. Pero, para muchos animales, «esperar» o «acechar» son comportamientos que pueden reforzarse cuando van seguidos de posteriores posibilidades de recompensa. Por ejemplo, los depredadores aprenden habilidades de acecho y espera cuando son jóvenes.

El modelo utilizado aquí es un modelo de aprendizaje asociativo capaz de aprender un comportamiento óptimo en un mundo complejo . El modelo incluye dos memorias diferentes y un mecanismo de toma de decisiones. Una de las memorias almacena la fuerza asociativa de la realización de la conducta B hacia el estímulo S, y la otra memoria almacena el valor estimado del estímulo S. El modelo puede aprender secuencias de conductas enlazando conductas individuales a través del refuerzo condicionado (refuerzo secundario). De este modo, los estímulos inicialmente neutros que preceden a los reforzadores primarios pueden convertirse a su vez en reforzadores, modificando así un comportamiento previamente no recompensado. Por ejemplo, un conejo entrenado con clicker ha escuchado repetidamente clics antes de las recompensas de comida. Para este conejo, un clic se convierte en una recompensa en sí mismo y el conejo aprenderá a realizar comportamientos que sólo dan lugar a que el conejo oiga un clic. El modelo se explica con más detalle en la sección de Material y métodos más adelante.

Aquí pruebo la hipótesis de que un modelo de aprendizaje asociativo puede explicar los resultados encontrados en estudios de planificación no humanos. El modelo de aprendizaje se utilizó para simular los resultados de dos estudios de planificación, uno con orangutanes (Pongo pygmaeus) y bonobos (Pan paniscus) y otro con cuervos (Corvus corax) . Se comprobó que las simulaciones seguían patrones clave dentro de estos estudios y entre ellos. Se concluye que no se puede descartar que los estudios de planificación flexible en simios y córvidos puedan explicarse por el aprendizaje asociativo. Por lo tanto, el aprendizaje asociativo no sólo puede producir un comportamiento similar al de los humanos (por ejemplo, ), sino que es una explicación candidata para las observaciones de la planificación y el autocontrol en los animales no humanos.

Material y métodos

Aquí describo nuestro modelo de aprendizaje , la lógica de los dos estudios diferentes que se utilizaron para las simulaciones, y los detalles de las simulaciones.

2.1. Una descripción del modelo

Un animal tiene un repertorio de comportamientos y puede utilizar sus comportamientos para navegar en un mundo de estados ambientales detectables. Un comportamiento lleva al animal de un estado a otro. Cada estado, o estímulo, tiene un valor de refuerzo primario que está fijado genéticamente. Estos valores pueden ser negativos, neutros o positivos, y guían el aprendizaje para que se promuevan los comportamientos que favorecen la supervivencia y la reproducción. Se supone que los animales hacen elecciones que maximizan el valor total, y se pueden desarrollar expectativas sobre el valor de un estado futuro. Así, el modelo puede generar un comportamiento dirigido por objetivos (véase otra discusión sobre el comportamiento dirigido por objetivos y el aprendizaje).

En resumen, el modelo describe el aprendizaje de secuencias de comportamiento hacia estímulos a través de cambios en la memoria. Incluye la toma de decisiones que tiene en cuenta la memoria para determinar qué comportamiento debe seleccionarse cuando se percibe un estímulo determinado. Tomemos, por ejemplo, el aprendizaje de un solo comportamiento, como cuando un perro aprende a dar la pata en respuesta a la orden «sacudir». Levantar la pata es el comportamiento, la orden «sacudir» y la recompensa son los estímulos. La secuencia de eventos a aprender es: orden ‘sacudir’ → levantar la pata → recompensa, o

Orden ‘sacudir′→Levantar la pata→Premio de comida

El modelo recoge información sobre el valor de realizar comportamientos hacia diferentes estímulos (o estados), e información sobre el valor de diferentes estímulos (o estar en estados específicos) . El aprendizaje se produce a través de la actualización de dos tipos diferentes de memorias. Estas memorias corresponden al aprendizaje pavloviano e instrumental y se actualizan tras una secuencia de eventos como en el ejemplo del perro, o en términos generales la secuencia de eventos S → B → S′. El primer tipo de memoria es una asociación estímulo-respuesta. Utilizamos vS→B para denotar la fuerza asociativa entre el estímulo S y la conducta B. En términos funcionales, vS→B puede describirse como el valor estimado de realizar la conducta B al percibir el estímulo S. La segunda memoria almacena el valor de un estímulo. Utilizamos wS para denotar este valor del estímulo y se actualiza según el valor de un estímulo posterior. En otras palabras, wS es el valor de refuerzo condicionado de estar en el estado S. Estas memorias se actualizan según

ΔvS→B=αv(uS′+wS′-vS→B)yΔwS=αw(uS′+wS′-wS)}2.1

tras experimentar la secuencia de eventos S → B → S′. La asociación estímulo-respuesta vS→B se actualiza en función de uS′ un valor fijo primario innato del estímulo S′, y wS′ el valor de refuerzo condicionado y la asociación estímulo-respuesta vS→B previamente almacenada. Con el refuerzo condicionado, el valor de realizar la conducta B al percibir el estímulo S es la suma del valor de refuerzo primario y condicionado del estímulo S′. Si sólo se utiliza la primera ecuación y se excluye w, entonces se representa el aprendizaje instrumental estímulo-respuesta, es decir, una versión instrumental del modelo clásico de aprendizaje de Rescorla-Wagner . Las tasas de aprendizaje αv y αw determinan la velocidad a la que se producen las actualizaciones de la memoria.

Para que el modelo de aprendizaje genere y seleccione la conducta, se necesita un mecanismo de toma de decisiones. Utilizamos un mecanismo de toma de decisiones que selecciona las respuestas de comportamiento y provoca cierta variación en el comportamiento a través de la exploración. Esto especifica la probabilidad del comportamiento B en el estado S como

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

que incluye un parámetro β que regula la cantidad de exploración. Todos los comportamientos tienen la misma probabilidad de ser seleccionados si β = 0 sin tener en cuenta los valores estimados. Si β es grande, entonces se seleccionará principalmente el comportamiento con el valor estimado más alto (v).

Volvamos al perro para ver un ejemplo práctico. El perro oye la orden «sacudir», estímulo S. Si el perro mueve la pata hacia arriba, es decir, realiza el comportamiento B, recibirá la recompensa S′. La recompensa alimenticia S′ tiene un valor primario innato u. Cuando el perro recibe esta recompensa después de haber respondido correctamente a la orden ‘sacudir’, la memoria estímulo-respuesta vcomando ‘sacudir′→levantar la pata aumentará según la fila superior de la ecuación (2.1). Además, el valor del estímulo w del comando ‘shake’ se actualizará según la fila inferior de la ecuación (2.1). Este valor w de la orden «sacudir» se acercará al valor u de la recompensa de comida y, por lo tanto, adquirirá propiedades de refuerzo por derecho propio; se ha convertido en un reforzador condicionado. El reforzador condicionado puede allanar el camino para el aprendizaje de más conductas antes de mover la pata hacia arriba. Esto puede ocurrir porque las conductas que dan lugar a que el perro escuche la orden «sacudir» pueden ser reforzadas.

2.2. Simulación de estudios de planificación en grandes simios y cuervos

Las simulaciones de los experimentos de planificación se basaron en descripciones detalladas del curso de los acontecimientos en los dos estudios en los que se identificaron los acontecimientos clave. Los eventos clave incluían qué comportamientos se entrenaron antes de las pruebas y hacia qué objetos, y qué resultados se obtuvieron de las diferentes elecciones durante el preentrenamiento y las pruebas. Es importante identificar los detalles en estos estudios, porque las fases de las pruebas incluían una mezcla de acciones gratificantes y no gratificantes. Por lo tanto, se esperaba que tanto el estímulo-respuesta (v) como los valores del estímulo (w) cambiaran a lo largo de las pruebas.

Para que las simulaciones fueran posibles y realistas, se asumió que los animales entraban en estos estudios con algunas habilidades cotidianas necesarias. Se suponía que los animales habían aprendido previamente, por ejemplo, a sujetar objetos, a moverse entre habitaciones y compartimentos, a saber dónde se encontraban las distintas cosas y a tener algunas habilidades básicas para interactuar con los experimentadores. Por ejemplo, se sacaba a los simios de la sala de pruebas después de las elecciones para luego permitirles volver a la sala de pruebas. Al ignorar estas habilidades cotidianas, las simulaciones y las descripciones del comportamiento se centraron en las secuencias de comportamiento únicas que los animales tenían que aprender como parte de los experimentos.

Los dos estudios comparten características clave. Antes de comenzar las pruebas, los animales fueron sometidos a un preentrenamiento. Aquí aprendieron a realizar comportamientos que luego se calificaron como correctos. Además del preentrenamiento de conductas correctas, el estudio de los cuervos también incluía un entrenamiento de extinción. Durante el entrenamiento de extinción, los cuervos tuvieron la oportunidad de aprender que los objetos no funcionales no daban lugar a recompensas. Los eventos clave en ambos estudios utilizados para puntuar las elecciones correctas frente a las incorrectas fueron pruebas de elección forzada. En ellas, los animales se veían obligados a elegir entre un objeto que habían aprendido previamente que podía dar lugar a una recompensa, frente a otros objetos que no podían utilizarse para obtener recompensas posteriores (objetos distractores). Los cuervos aprendieron durante el entrenamiento de extinción que estos objetos distractores no podían dar lugar a recompensas. Después de la elección forzada, ambos estudios incluían un retraso de cierto tiempo, tras el cual se permitía a los animales realizar una conducta utilizando el objeto previamente elegido. Si un animal realizaba una elección correcta antes de la demora, podía utilizar posteriormente el objeto elegido para obtener una recompensa. Si un animal hacía una elección incorrecta antes del retraso, no había oportunidades de realizar conductas de recompensa después del retraso.

Las simulaciones realizadas siguieron a la fase de preentrenamiento y a la fase de prueba de los estudios. Las comparaciones se realizan con los niveles de azar de las elecciones correctas establecidas por los dos estudios. Mulcahy & Call esperaba que los simios eligieran lo correcto por azar el 25% de las veces (un objeto funcional y tres objetos distractores). Kabadayi & Osvath esperaba que los cuervos eligieran correctamente por azar el 25% de las veces en los experimentos 1 y 2, y el 20% de las veces en los experimentos 3 y 4 (un objeto funcional y tres objetos distractores en los experimentos 1 y 2, y 1 objeto funcional, 1 pequeña recompensa y tres objetos distractores en los experimentos 3 y 4). Véanse los guiones de simulación para las descripciones exactas (véase el material suplementario electrónico). Para facilitar el seguimiento de las simulaciones aquí hay descripciones en profundidad de los dos estudios.

2.3. Una descripción del estudio de Mulcahy y Call sobre los grandes simios

Estas pruebas se realizaron con orangutanes y bonobos . El estudio comenzó con un entrenamiento previo. Aquí se colocó a un animal en una sala de pruebas y se le entrenó en dos tareas con herramientas diferentes para obtener una recompensa de un aparato. Estas herramientas funcionales se denominarán objetos funcionales. Una de las tareas consistía en elegir un tubo e introducirlo en un aparato. La otra tarea consistía en elegir un gancho y utilizarlo para alcanzar una botella que no se podía alcanzar sin tener el gancho. Tras el preentrenamiento, se sometió al animal a una prueba de elección forzada entre objetos funcionales y tres objetos no funcionales correspondientes (denominados posteriormente objetos distractores). Pero durante esta elección forzada, se bloqueaba el acceso al aparato que contenía una recompensa. Una vez realizada la elección, el animal era conducido fuera de la sala de pruebas a una sala de espera. Los objetos que no habían sido tomados por el animal se retiraban de la sala de pruebas. En este momento, se produjo un retraso. Una vez transcurrido el plazo, se permitía al animal entrar de nuevo en la sala de pruebas y acceder a los aparatos. Si se había elegido un objeto funcional en la prueba de elección forzada, el animal podía ahora utilizar el objeto para obtener una recompensa, mostrando así el comportamiento que había aprendido durante el preentrenamiento.

Este estudio incluía cuatro pruebas que eran ligeramente diferentes. Las pruebas variaron con respecto a qué herramienta era el objeto funcional y la duración de los retrasos. Además, en la última prueba, los animales no tenían que utilizar la herramienta para obtener una recompensa. Nótese que aquí, en el experimento 4, se utilizaron dos nuevos individuos que no participaron en los experimentos 1, 2 o 3. Esta última parte tuvo poca importancia aquí por las razones mencionadas en la sección de Resultados. Las simulaciones siguieron la lógica del estudio, y aquí están los detalles de los eventos clave y los retrasos utilizados en la simulación:

Preentrenamiento: Antes de las pruebas, todos los sujetos aprendieron a utilizar las herramientas funcionales. En dos pasos, se permitió un mínimo de tres más ocho ensayos de preentrenamiento para la tarea del tubo y un mínimo de cinco ensayos de preentrenamiento para la tarea del gancho.
Experimento 1, condición del tubo: (1) Elección forzada con tubo funcional y objetos distractores (16 ensayos). (2) Después de la elección ir a otra habitación. (3) Esperar 1 h. (4) Regresar y si el tubo funcional había sido elegido, éste podía ser utilizado para obtener una recompensa.
Experimento 2, condición de tubo: (1) Elección forzada con tubo funcional y objetos distractores (12 ensayos). (2) Después de la elección ir a otra habitación. (3) Esperar 14 h. (4) Regresar y si se había elegido el tubo funcional se podía utilizar para obtener una recompensa.
Experimento 3, condición gancho: (1) Elección forzada con gancho funcional y objetos distractores (16 ensayos). (2) Después de la elección ir a otra habitación. (3) Esperar 1 h. (4) Regresar y si se había elegido el gancho funcional, éste podía utilizarse para obtener una recompensa.
Experimento 4, condición gancho: (1) Elección forzada con gancho funcional y objetos distractores (16 ensayos). (2) Después de la elección ir a otra habitación. (3) Esperar 1 h. (4) Volver y si se había elegido el gancho funcional se recibía una recompensa sin usar el gancho.

Las secuencias de conducta a aprender eran las siguientes:

Condición tubo: Stube → Btake tube → Sapparatus → Buse tube → Sreward
Condición de gancho: Sdistractor → Btake gancho → Sapparatus → Buse gancho → Sreward

En ambas condiciones, los simios nunca fueron recompensados por elegir los objetos distractores, o:

Distractores: Sdistractor → Btake distractor → Sno reward

2.4. Una descripción del estudio de Kabadayi & Osvath sobre cuervos

Estas pruebas se realizaron con cuervos . Este estudio comenzó con el pre-entrenamiento. Aquí se colocaba un animal en una sala de pruebas y se le entrenaba en dos tareas de herramientas diferentes para obtener una recompensa de un aparato. Como en el caso anterior, las herramientas funcionales se denominarán objetos funcionales. Una de las tareas consistía en colocar una piedra en un aparato para obtener una recompensa. La otra tarea consistía en coger un tapón de botella (llamado token) y dárselo a un humano. A diferencia del estudio sobre los simios, antes de comenzar las pruebas también se permitió a los cuervos realizar ensayos de extinción. Aquí se permitía al animal interactuar con los objetos que estarían presentes durante las pruebas de elección forzada, pero que nunca podrían ser utilizados para obtener recompensas (posteriormente denominados objetos distractores). Tras el preentrenamiento, se sometía al animal a una prueba de elección forzada entre un objeto funcional y tres objetos distractores. Una vez realizada la elección, el animal no podía utilizar el objeto funcional durante un tiempo. En otras palabras, no se podía recoger ninguna recompensa inmediatamente después de la prueba de elección (con la excepción del experimento 4). En este momento, se produjo un retraso. Tras el retraso, se permitía al animal utilizar el objeto elegido. Si se había elegido un objeto funcional en la prueba de elección forzada, el animal podía ahora utilizar ese objeto para obtener una recompensa, mostrando así el comportamiento que había aprendido durante el preentrenamiento.

Este estudio también incluía cuatro pruebas que eran ligeramente diferentes. Las pruebas variaban con respecto al número de ensayos, la duración de los retrasos y, en la última prueba, los animales no tenían que esperar antes de utilizar un objeto funcional para obtener una recompensa. Cabe señalar que en este estudio se utilizaron dos recompensas diferentes. En el preentrenamiento y en todos los experimentos se utilizó una recompensa de alto valor. Y en los experimentos 3 y 4, se utilizó una recompensa conocida de poco valor en la situación de elección forzada junto con la herramienta funcional y los objetos distractores. Hay que tener en cuenta que los experimentos no se realizaron en el mismo orden en que fueron numerados en el estudio publicado. He optado por presentar las pruebas en el orden temporal en que se realizaron (1,3,2,4). Las simulaciones siguieron la lógica del estudio, y aquí están los detalles de los eventos clave utilizados en la simulación: los eventos clave antes y durante los experimentos fueron:

Preentrenamiento: Antes de las pruebas, todos los sujetos aprendieron a utilizar las herramientas funcionales. En dos pasos, se permitió un mínimo de tres más cinco ensayos de preentrenamiento para la tarea de herramientas y 35 ensayos de preentrenamiento para la tarea de fichas.
Ensayos de extinción: En esta fase, se permitió a los sujetos manipular objetos distractores durante 5 min sin recibir ninguna recompensa.
Experimento 1: (1) Elección forzada con objeto funcional y objetos distractores. 14 ensayos en la condición de herramienta y 12 × 3 ensayos en la condición de ficha. (2) Espera de 15 minutos. (3) El objeto elegido se puede volver a utilizar, y si la piedra o la ficha habían sido elegidas se podían utilizar para obtener una recompensa.
Experimento 3: (1) Elección forzada con objeto funcional, pequeña recompensa y objetos distractores. 14 ensayos en la condición de herramienta y 14 ensayos en la condición de ficha. (2) Esperar 15 min. (3) El objeto elegido puede ser utilizado de nuevo, y si la piedra o el token habían sido elegidos podían ser utilizados para obtener una recompensa.
Experimento 2: (1) Elección forzada con objeto funcional y objetos distractores. 6 ensayos en la condición de herramienta y 6 ensayos en la condición de ficha. (2) Esperar 17 h. (3) El objeto elegido puede volver a usarse, y si la piedra o la ficha habían sido elegidas podían usarse para obtener una recompensa.
Experimento 4: (1) Elección forzada con objeto funcional, pequeña recompensa y objetos distractores. 14 ensayos en la condición de herramienta y 14 ensayos en la condición de ficha. (2). Si se había elegido la piedra o la ficha se podía utilizar para obtener una recompensa.

Las secuencias de conducta a aprender fueron las siguientes:

Condición herramienta: Stoken → Btake tool → Sapparatus → Buse tool → Sreward
Condición de token: Taburete → Btake token → Shuman → Bgive token → Sreward

También se enseñó a los cuervos durante una fase de extinción que nunca era gratificante elegir o usar objetos distractores. Esto también fue así durante todas las pruebas, o:

Distractores: Sdistractor → Btake distractor → Sno reward

En las fases de autocontrol del estudio, los cuervos tenían la oportunidad de elegir una pequeña recompensa que se presentaba junto al objeto funcional (herramienta o ficha) y los objetos distractores. Por lo tanto, en los experimentos 3 y 4, también fueron posibles estas secuencias de comportamiento:

Condición herramienta: Sperro croqueta → Btomar recompensa pequeña → Srecompensa pequeña
Condición de la ficha: Sdog kibble → Btake small reward → Ssmall reward

2.5. Ilustración de las actualizaciones de la memoria durante el preentrenamiento

Para ilustrar cómo estas secuencias de comportamiento se ven afectadas por el aprendizaje, he aquí un ejemplo de las actualizaciones de la memoria para el preentrenamiento en el estudio del cuervo. La secuencia de comportamiento que se desarrolló durante el preentrenamiento puede describirse como Taburete → Herramienta Btake → Sapparatus → Herramienta Buse → Sreward donde el valor de insertar la piedra en el aparato aumentó, de modo que vSapparatus → Herramienta Buse≫0. Como el modelo también incluye el refuerzo condicionado, el valor de la propia piedra se actualiza en función del valor del siguiente estímulo, la gran recompensa. Con experiencias repetidas, el valor del estímulo (w) de Sreward hará crecer el valor del estímulo de la Piedra. Como se muestra en nuestra descripción de este modelo, con suficientes experiencias el valor de la herramienta se aproximará al valor de la recompensa grande. Por el contrario, los ensayos de extinción con experiencias repetidas sin recompensa de los tres objetos distractores pueden describirse como Sdistractor → Bpick distractor → Sno recompensa. Esta secuencia de eventos causará una reducción tanto en la fuerza asociativa de elegir un distractor vSdistractor → Bpick distractor y el valor de refuerzo condicionado (wdistractor) del distractor. Cuando la primera prueba comienza con una elección forzada, el comportamiento de los cuervos fue influenciado por el preentrenamiento tanto con la piedra como con los distractores.

2.6. Detalles de la simulación

El modelo anterior se incorporó a un programa de Python en el que el aprendizaje se produjo según los procedimientos detallados de los dos estudios, tal y como se definió anteriormente, para obtener estimaciones de las probabilidades de elección de los diferentes estímulos, y de los valores v y w, a lo largo de los estudios. Se realizaron dos tipos de simulaciones. En primer lugar, se realizaron simulaciones con el modelo completo y, a continuación, simulaciones sin valores de estímulo (w), es decir, permitiendo únicamente nuestra versión del aprendizaje estímulo-respuesta utilizando sólo la primera fila de la ecuación (2.1) junto con la toma de decisiones (ecuación (2.2)). Esto se hizo para explorar las diferencias entre nuestro modelo que incluye el refuerzo condicionado y una versión del aprendizaje estímulo-respuesta solo . Esta versión del aprendizaje estímulo-respuesta es idéntica a la regla de aprendizaje clásica de Rescorla-Wagner, pero la consideramos en términos de un entorno instrumental en lugar de pavloviano.

Para tener en cuenta los retrasos, se incluyó en la simulación un paso de tiempo por minuto en los momentos de retraso. Durante estos pasos de tiempo, sólo se experimentó un estímulo de fondo. Esto no es muy importante para la actualización de la memoria porque tanto la memoria de estímulo-respuesta como la de valor de estímulo son memorias a largo plazo. El hecho de que los animales recuerden las asociaciones estímulo-respuesta y los valores del estímulo durante mucho tiempo no se mencionó en ninguno de los estudios simulados.

En todas las simulaciones se utilizaron los mismos parámetros de aprendizaje. Todos los comportamientos comenzaron con un valor inicial de estímulo-respuesta v = 1, tanto los valores v como w se actualizaron con una tasa de aprendizaje α = 0,2, la exploración se fijó en β = 1, y las recompensas se fijaron en u = 6, aparte de las recompensas de bajo valor en los experimentos 3 y 4 de Kabadayi & Osvath que se fijaron en u = 2. El coste de la conducta para todos los comportamientos fue de 0,1, salvo las respuestas pasivas que se fijaron en 0 (véase la información de todos los comportamientos y elementos de estímulo incluidos en las simulaciones en el material electrónico complementario). Todas las simulaciones se realizaron para 500 sujetos y el número de ensayos siguió aproximadamente el de los experimentos. El hecho de que el número de ensayos no se ajustara perfectamente a los estudios empíricos se debió a la naturaleza probabilística de la ecuación de decisión. La falta de información de los valores iniciales de los animales dificulta las comparaciones cuantitativas exactas.

Aunque tanto los cuervos como los simios tenían antecedentes ricos, se ignoró la conducta previamente aprendida y se supuso que los valores iniciales eran los mismos para los objetos distractores y los objetos funcionales. Para ser conservadores, se supuso que todas las fuerzas asociativas entre los comportamientos y los estímulos eran iguales al inicio de las simulaciones. Kabadayi & Osvath no calibró las preferencias de los cuervos con respecto al valor de las dos recompensas de comida diferentes, por lo que no hay información cuantitativa sobre las diferencias entre las recompensas disponibles. En el método indicaron que la recompensa de comida de alta calidad era mayor y más atractiva. En el estudio de los cuervos faltaba información exacta sobre la cantidad de extinción, por lo que se asumió que los cuervos tuvieron cinco experiencias de extinción con los distractores.

Los comportamientos y elementos de estímulo utilizados en las simulaciones fueron los siguientes:

2.6.1. Comportamientos

Mulcahy & Llamar tubo: coger tubo, usar tubo, coger distractor, estar pasivo
Mulcahy & Llamar gancho: coger gancho, usar gancho, coger distractor, estar pasivo
Kabadayi & Herramienta Osvath: tomar herramienta, usar herramienta, tomar distractor, ser pasivo, tomar pequeña recompensa
Kabadayi & Osvath Ficha: tomar ficha, usar ficha, tomar distractor, ser pasivo, tomar pequeña recompensa

2.6.2. Elementos de estímulo

Mulcahy & Llamada Tubo: fondo, tubo, tarea tubo, distractor, recompensa
Mulcahy & Llamada Gancho: fondo, gancho, tarea gancho, distractor, recompensa
Kabadayi & Herramienta Osvath: fondo, herramienta, aparato, distractor, recompensa, pequeña recompensa
Kabadayi & Osvath Token: fondo, token, humano, distractor, recompensa, pequeña recompensa

2.7. Datos de los estudios empíricos

Para comparar los resultados de la simulación con los datos empíricos de los dos estudios , se calcularon los promedios a partir de los datos disponibles en los dos estudios respectivos (véanse las figuras en Resultados). Esto dio como resultado la proporción media de elecciones correctas e incorrectas en las pruebas de elección forzada. Hay que tener en cuenta que el experimento 4 del estudio de los simios no incluía ningún comportamiento correcto al utilizar la herramienta al volver al aparato después del retraso, lo que hace que este experimento sea difícil de interpretar. Además, los datos sobre las elecciones del experimento 4 no estaban disponibles en el texto, por lo que se utilizaron los datos de ese punto. Es desafortunado mezclar los datos de esta manera, pero elegí esto en favor de dejar los datos del experimento 4 fuera.

Resultados

En general, las simulaciones coincidieron con los resultados del estudio del cuervo y del gran simio. Las simulaciones muestran cómo dos factores juntos pueden contribuir al comportamiento dirigido al futuro exhibido por los grandes simios y los cuervos. En primer lugar, los valores de refuerzo condicionados de los objetos funcionales, establecidos mediante el preentrenamiento y la extinción, fueron capaces de impulsar las elecciones correctas iniciales. Esto se muestra en la figura 1, donde aparece la proporción de elecciones correctas. En segundo lugar, las elecciones correctas fueron recompensadas en todos los estudios, excepto en el experimento 4 de los simios. El hecho de que el uso de los objetos funcionales se recompensara en todo momento fue suficiente para que el rendimiento estuviera muy por encima de los niveles de azar (figura 1). En el estudio del cuervo, las recompensas entregadas durante el experimento explican bien el rendimiento casi perfecto en las dos partes finales de ese estudio.

El ajuste fue bueno entre las pruebas empíricas (mostradas como círculos rellenos en la figura 1) y las simulaciones en el sentido de que los objetos funcionales tenían más probabilidades de ser elegidos que los objetos distractores. Las simulaciones también siguieron las tendencias generales en el sentido de que el rendimiento aumentó en el estudio de los grandes simios durante los experimentos 1 y 2 y que el rendimiento se redujo en el experimento 3. Aunque las simulaciones subestimaron el rendimiento en la condición de herramienta del estudio del cuervo, las simulaciones siguieron de cerca el patrón en el sentido de que el rendimiento fue alto en el experimento 1, disminuyó en el experimento 3 para alcanzar un rendimiento casi perfecto en el experimento 4. Una de las razones por las que la simulación tuvo una tasa de éxito más baja en la condición de herramienta podría ser que los cuervos estaban bien entrenados y tenían antecedentes ricos que son útiles en las situaciones de prueba. Estas aves fueron criadas por humanos e interactúan regularmente con ellos. También están familiarizadas con muchos objetos, montajes experimentales y recompensas diferentes. En cambio, las simulaciones partían de la base de que no tenían conocimientos previos. Hubo una estrecha coincidencia entre las simulaciones y los datos empíricos para la condición de fichas, pero la reducción en el rendimiento durante el experimento 3 fue mayor en los datos empíricos.

Las simulaciones también capturaron que los grandes simios exhibieron una tasa de éxito general más baja que la de los cuervos. Al menos dos factores podrían haber contribuido a esta diferencia. Los simios experimentaron menos preentrenamiento que los cuervos y, en contraste con los cuervos, a los simios no se les permitió el entrenamiento de extinción con los objetos distractores antes de la prueba. Esto se muestra en la figura 1, donde la probabilidad de elegir el objeto correcto es mucho mayor al comienzo del experimento 1 en el estudio de los cuervos en comparación con el estudio de los simios. El hecho de que una gran cantidad de ensayos de preentrenamiento (35 en la condición de fichas) combinados con ensayos de extinción pueden dar lugar a un alto rendimiento en las elecciones forzadas se muestra más claramente en la condición de fichas del estudio del cuervo. Aquí la simulación siguió de cerca la alta tasa de éxito observada.

El preentrenamiento y el entrenamiento de extinción no sólo influyeron en la probabilidad de tomar decisiones correctas. Las simulaciones revelan cómo el preentrenamiento y la extinción también afectan a la proporción de elección de los objetos incorrectos, como las recompensas pequeñas (figura 1). El efecto del preentrenamiento y la extinción fue más pronunciado en la condición de fichas del estudio de los cuervos, donde la simulación sugiere que la probabilidad de que los cuervos eligieran las recompensas pequeñas en lugar de los objetos funcionales era cercana a cero. La gran cantidad de experiencias gratificantes con los objetos funcionales (herramienta y ficha) dio lugar a grandes valores de refuerzo condicionado para estos objetos (figura 2). Las simulaciones corroboraron la pauta de que los cuervos no elegían recompensas pequeñas en lugar de objetos funcionales, y que se espera que el autocontrol surja del aprendizaje asociativo.

Figura 2. Resultados de las simulaciones para poder comparar la salida de nuestro modelo de aprendizaje que incluye el refuerzo condicionado (valores de los estímulos), con una versión instrumental del modelo de Rescorla-Wagner (R-W) . Las simulaciones del estudio del cuervo están a la izquierda y las del estudio del mono a la derecha. Los paneles superiores muestran las actualizaciones de la memoria: las asociaciones estímulo-respuesta v para los comportamientos hacia los objetos funcionales, y los valores de los estímulos w de estos objetos. Como los objetos funcionales no son en sí mismos gratificantes, las simulaciones muestran que las asociaciones estímulo-respuesta para elegir objetos funcionales no se desarrollarán con el modelo de aprendizaje más simple (R-W). Y los paneles inferiores muestran que el modelo de aprendizaje estímulo-respuesta (R-W) no puede reproducir los patrones de comportamiento observados en los dos estudios, en claro contraste con nuestro modelo de aprendizaje que permite el refuerzo condicionado. Las fases experimentales son las mismas que en la figura 1, pero aquí no se muestran las fases para mayor claridad. Nótese que los ejes X en los paneles de la derecha están rotos porque el experimento 4 se realizó con individuos nuevos que sólo experimentaron un preentrenamiento antes del experimento. Los gráficos de cuervos y simios se descargaron de openclipart.org.

El crecimiento de los valores de estímulo-respuesta y los valores de estímulo se muestran en el panel superior de la figura 2.

Nótese que el experimento 4 del estudio de los grandes simios es el que menos coincide con las simulaciones. Aquí se permitió que dos nuevos simios obtuvieran la recompensa sin usar la herramienta previamente funcional y regresaron con una herramienta correcta 2 de 16 veces, menos que en la simulación. Esta diferencia entre la prueba empírica y la simulación podría reducirse aumentando el coste de la conducta. Aumentar el coste de una conducta que no da lugar a una recompensa hará que se reduzca la realización de la misma. Pero no está claro qué esperar de los animales en esta situación cuando los simios se enfrentan a una situación con una conexión menos clara entre una herramienta y una recompensa. Además, dos de los cuatro simios nunca intentaron resolver el problema. Para concluir, es difícil juzgar la precisión y el significado de ese punto de datos (ver ).

Las simulaciones también muestran las diferencias entre modelos de aprendizaje asociativo de diferente complejidad. Los límites de nuestra versión del aprendizaje estímulo-respuesta se hacen evidentes cuando se comparan con las simulaciones que utilizan nuestro modelo de aprendizaje que incorpora tanto el aprendizaje pavloviano como el instrumental . En el aprendizaje estímulo-respuesta solo, no se pueden aprender secuencias de comportamiento en las que una conducta no vaya seguida inmediatamente de una recompensa (figura 2). Para que las secuencias de conducta se desarrollen, es necesario que los estímulos situados más de un paso antes de la recompensa se conviertan en gratificantes mediante un refuerzo condicionado. Cuando un estímulo previamente neutro adquiere un valor w positivo, es decir, se vuelve gratificante, puede impulsar la adquisición de valores v positivos para comportamientos que no dan lugar a una recompensa inmediata (panel superior de la figura 2). Al comparar nuestro modelo que puede aprender secuencias de comportamiento con la versión instrumental del modelo de Rescorla-Wagner, queda claro que la probabilidad de elegir el estímulo correcto no aumentará si sólo se permite el aprendizaje estímulo-respuesta (figura 2). Además, como los valores v sólo se actualizan por el reforzador inmediato en el aprendizaje estímulo-respuesta, esto también tiene la consecuencia de que la recompensa pequeña se elegirá en favor de la ficha y la herramienta, ya que la ficha y la herramienta no pueden convertirse en estímulos valiosos. Esto se muestra en la figura 2, ya que la elección incorrecta de las recompensas pequeñas aumenta a lo largo de los ensayos cuando sólo se permite nuestra versión de aprendizaje estímulo-respuesta (marcada con R-W en la figura 2). El aprendizaje estímulo-respuesta por sí solo no podía explicar los resultados ni en el estudio de los cuervos ni en el de los simios.

Discusión

Las simulaciones de los dos estudios de planificación en cuervos y grandes simios sugieren que el comportamiento que antes se consideraba generado por la planificación flexible puede explicarse por el aprendizaje asociativo. Como se ha demostrado en la investigación de la inteligencia artificial y del comportamiento animal, estos modelos de aprendizaje asociativo son potentes para generar secuencias de comportamiento flexibles . Por lo tanto, la conclusión extraída en los estudios de los cuervos y de los grandes simios, de que los cuervos y los simios resuelven estos problemas mediante un mecanismo flexible específico, tiene poco apoyo. Las simulaciones realizadas aquí apoyan a los críticos que interpretan estos resultados como consecuencias del aprendizaje asociativo . Si los futuros estudios pretenden distinguir los procesos asociativos de otros tipos de mecanismos mentales, se beneficiarían de un mejor diseño experimental que incluyera controles adecuados aprovechando los modelos de aprendizaje más avanzados.

Es interesante observar que las simulaciones captaron la diferencia entre el estudio sobre cuervos y grandes simios . Esto sugiere que las simulaciones capturaron bien los efectos del preentrenamiento, las fases de extinción y las recompensas a lo largo de los estudios. Antes de las primeras pruebas se establecieron valores de refuerzo condicionado altos (valores w) para los objetos correctos (herramienta y ficha) y valores bajos para los objetos distractores (figura 2). Esto fue especialmente obvio en la parte de la ficha del experimento con cuervos, en la que los cuervos fueron sometidos a 35 ensayos de preentrenamiento en los que la secuencia de comportamiento Stoken → Btake token → Shuman → Bgive token → Sreward fue recompensada sistemáticamente (panel inferior, figura 1).

Otro factor importante para los resultados positivos en los estudios con cuervos y grandes simios fue que la elección de los objetos correctos fue recompensada a lo largo de las pruebas. De este modo, se mantuvieron valores v y w elevados para las conductas y los objetos correctos, respectivamente. Esto también explica por qué los cuervos descuidaron la pequeña recompensa cuando se les presentó junto con los objetos funcionales (figura 1). Los objetos funcionales dieron lugar a recompensas repetidas veces a lo largo del estudio, por lo que habían adquirido valores de estímulo elevados. Mientras estos valores sean más altos que el valor de la recompensa pequeña, estos objetos funcionales serán elegidos la mayor parte del tiempo. Sin embargo, con sólo el aprendizaje estímulo-respuesta -permitiendo únicamente las actualizaciones de los valores v como en el modelo de Rescorla-Wagner- se elegirá la recompensa pequeña porque este modelo carece de refuerzo condicionado (figura 2). Si se quiere evitar el aprendizaje durante los ensayos, resulta ventajoso realizarlos bajo extinción, como por ejemplo en los estudios de revalorización de resultados (p. ej. ). De esta manera las pruebas pueden revelar las consecuencias de las manipulaciones experimentales previas.

Los resultados apoyan la idea de que el autocontrol surgió a través del aprendizaje asociativo. Anteriormente hemos demostrado cómo los animales pueden, a través del aprendizaje asociativo, adquirir el autocontrol, dado que se les proporciona suficiente información y experiencias . Kabadayi & Osvath no definió el autocontrol, pero en un estudio anterior lo definió como «la supresión de los impulsos inmediatos a favor de las recompensas diferidas». Esta visión funcional del autocontrol se ajusta a muchas descripciones del comportamiento en la literatura sobre el comportamiento animal. Las observaciones de animales que aprenden a rechazar recompensas pequeñas cuando esperan recompensas grandes, o, en otras palabras, a rechazar presas no rentables cuando las presas rentables son abundantes, proceden, por ejemplo, de peces (pez luna Lepomis macrochirus, ), crustáceos (cangrejos de costa, Carcinus maenas, ) y aves (herrerillos Parus major, y archibebes Tringa totanus, ). Este tipo de estudios han sido ignorados en gran medida en los estudios en los que el autocontrol se estudia a menudo como un tipo de mecanismo mental separado y no como algo que está sujeto al aprendizaje (por ejemplo). En cambio, a la luz de estas simulaciones, los estudios anteriores sobre el autocontrol dentro de la investigación de la cognición animal (como, por ejemplo, ) pueden entenderse mejor como causados por el aprendizaje, incluyendo el refuerzo condicionado.

Teóricamente, el autocontrol puede desarrollarse de más de una manera. El autocontrol puede surgir a través de la adquisición de altos valores de refuerzo condicionado para los objetos funcionales. El objeto funcional se vuelve más valioso que una pequeña recompensa. Pero el autocontrol también puede surgir si, por ejemplo, la «espera» se considera un comportamiento en sí mismo. En este caso, el autocontrol puede surgir a través de un mayor valor v para la «espera» en presencia de un estímulo particular. El autocontrol en los gatos cazadores podría surgir a través de valores v elevados para la espera cuando se somete a una presa que está lejos. Se necesita más investigación para comprender mejor cómo interactúan los diferentes aspectos de los mecanismos de aprendizaje para dar lugar a patrones de autocontrol. Es probable que las predisposiciones genéticas desempeñen un papel importante e interactúen con las asociaciones estímulo-respuesta y los valores de los estímulos.

Otro resultado importante fue que la diferencia entre el rendimiento de los cuervos en el experimento 3 y en el 4 fue captada por las simulaciones. La razón del rendimiento perfecto en el experimento 4, tanto en el estudio de los cuervos como en la simulación, fue que se omitió la demora entre la elección y el comportamiento que daba lugar a la recompensa. En su lugar, existía la oportunidad de utilizar el objeto para recoger una recompensa justo después de la elección forzada. Por esta razón, cada ensayo conducía potencialmente a una recompensa, mientras que la elección del objeto correcto en el experimento 3 sólo se recompensaba después del retraso. O en otras palabras, en los experimentos 1-3, los cuervos sólo podían obtener una recompensa cada dos veces que elegían el objeto correcto, mientras que en el experimento 4 obtenían recompensas cada vez e inmediatamente después de haber elegido y utilizado el objeto funcional.

Una similitud entre nuestro modelo de aprendizaje y algunos modelos de aprendizaje por refuerzo en IA es que estos mecanismos permiten a los agentes y a los animales identificar estados del mundo que son valiosos, y qué comportamientos son productivos en estos estados valiosos. En un sentido operativo, estos modelos de aprendizaje generan una planificación cuando un comportamiento (poner el aparato o dar al humano) hacia un estímulo (piedra o ficha) producirá comida de alto valor en una etapa posterior. Esto ocurre a pesar de que la comida (u otro estímulo gratificante) esté ausente. Osvath & Kabadayi , en una respuesta a los críticos, definió la planificación flexible como «la toma de decisiones sobre futuros fuera del ámbito sensorial actual en dominios para los que uno no está predispuesto». Independientemente de si los modelos proceden de la IA o del comportamiento animal, cuando se incluye el refuerzo condicionado en los modelos de aprendizaje, los comportamientos de planificación que se ajustan a esta definición surgirán gracias a la inteligente interacción de los valores estímulo-respuesta y los valores de los estímulos. La clave es que los estímulos disponibles en ese momento pueden proporcionar información sobre los comportamientos que deben realizarse para entrar en futuros estados valiosos. Sin embargo, estos modelos de aprendizaje no pueden simular mentalmente diferentes resultados, no pueden viajar mentalmente en el tiempo, ni reorganizar la información internamente. Parafraseando a Roberts , los animales no humanos pueden estar «atrapados en el tiempo», sin dejar de mostrar un comportamiento de planificación.

Mulcahy & Call intentó descartar el condicionamiento instrumental como explicación del comportamiento de los simios realizando el experimento 4. Esta fase fue similar al experimento 3, pero los simios no fueron recompensados por utilizar la herramienta funcional. En lugar de que un simio entrara en la sala con una herramienta funcional que podía utilizarse para obtener una recompensa (como en el experimento 3), un simio entraba en la sala y encontraba una recompensa si había llevado la herramienta funcional a la sala de pruebas desde la sala de espera. Se argumentó que si los simios actuaban mejor en los otros experimentos que en éste, ello sugeriría que los simios planificaban con flexibilidad. Mulcahy & Call concluyó que sus resultados «representan un caso genuino de planificación futura». Un abogado del diablo podría identificar las diferencias entre los experimentos 3 y 4, haciendo del aprendizaje una explicación más probable. En el experimento 3, los simios fueron recompensados explícitamente por utilizar la herramienta. Esto da como resultado un alto valor de refuerzo condicionado para la herramienta y un alto valor de estímulo-respuesta por usar la herramienta en el aparato. En el experimento 4, sin embargo, Mulcahy & Call señala que hubo un mayor tiempo entre recoger la herramienta en la sala de espera, llevar la herramienta a la sala de pruebas, para posteriormente obtener una recompensa sin usar la herramienta. Tal vez el bajo rendimiento en el experimento 4 fue causado por la conexión poco clara entre la herramienta y la recompensa, ya que el retraso inhibe la adquisición de recoger la herramienta para recibir posteriormente una recompensa. Unas condiciones de control adecuadas son importantes para poder rechazar las hipótesis de forma inequívoca (por ejemplo, discusiones recientes en ). Nuestro modelo de aprendizaje puede utilizarse en futuras investigaciones para analizar tales diferencias de comportamiento causadas por la variación de las contingencias de aprendizaje.

Las simulaciones muestran que el estudio de los simios y el de los cuervos pueden entenderse a través del aprendizaje asociativo. Sin embargo, los resultados de los experimentos con especialistas en caché , probablemente dependientes de las especializaciones genéticas, están actualmente fuera del alcance de nuestro modelo de aprendizaje. El comportamiento de almacenamiento y el de alimentación implican diferentes estados motivacionales en los animales. Los estados motivacionales pueden ser considerados como estímulos internos y fácilmente integrados en un modelo de aprendizaje asociativo, lo que daría lugar a una mayor flexibilidad en cuanto a la toma de decisiones de forrajeo y almacenamiento en caché. Nuestro modelo no incluye diferentes estados motivacionales en su estado actual, pero hemos dado ejemplos de cómo las predisposiciones genéticas pueden integrarse en el modelo . Una posible solución sería introducir la dependencia del contexto, de modo que la exploración sea diferente para diferentes estímulos externos y/o para diferentes estados internos. Es importante que, al hacer suposiciones sobre mecanismos mentales más flexibles, se tengan en cuenta los mayores costes de exploración en los que se incurre al aumentar la flexibilidad (véase ). Esperamos que la evolución haya afinado las predisposiciones genéticas que, junto con el aprendizaje asociativo, generan comportamientos productivos y específicos de la especie.

Otro punto importante para futuros estudios es que cuando los animales aprenden sobre las consecuencias del comportamiento, y se actualizan los valores estímulo-respuesta y los valores del estímulo, se trata de memorias a largo plazo (por ejemplo, véase también ). Un cuervo entrenado para dar fichas a un humano no olvida simplemente cómo hacerlo un día después. Desde el punto de vista del comportamiento, la condición de la herramienta del estudio del cuervo es idéntica a cuando los dueños de perros enseñan a sus amigos peludos a «limpiar» poniendo los juguetes en una cesta designada. En lugar de recompensar al cuervo por poner una piedra en un aparato, el perro recibe una recompensa por poner un juguete en una cesta. Estas memorias a largo plazo que se actualizan a través del aprendizaje asociativo son muy diferentes de la memoria a corto plazo de los estímulos arbitrarios .

En conclusión, el desarrollo de modelos de aprendizaje asociativo es impresionante en la investigación de la IA y los modelos han demostrado ser poderosos en la generación de comportamientos complejos. Cabe preguntarse por qué estos potentes modelos no se aplican más ampliamente al comportamiento de los animales no humanos y por qué se subestiman estos modelos como causa del comportamiento flexible en los animales no humanos. Esto es especialmente relevante dado que la investigación en cognición animal en la que se afirma que los animales no humanos tienen perspicacia, exhiben razonamiento causal y el plan es criticado regularmente por sufrir de grandes afirmaciones basadas en una metodología débil (por ejemplo, ). Una forma de resolver esta paradoja del aprendizaje asociativo es integrando los campos de la IA, el aprendizaje animal y la cognición animal. Para comprender los mecanismos que generan el comportamiento, es probable que los modelos asociativos formales ascendentes sean más esclarecedores que los modelos cognitivos verbales descendentes de «orden superior». Por ejemplo, porque estos últimos modelos son más difíciles de rechazar y no pueden implementarse en simulaciones ni utilizarse al construir robots. En resumen, se concluye que no se puede descartar que la planificación flexible en simios y córvidos, y probablemente en muchas otras especies, surja a través del aprendizaje asociativo.

Accesibilidad a los datos

Las figuras y los datos de las simulaciones pueden generarse utilizando el software y el código que se especifican en el material electrónico complementario.

Contribuciones de los autores

J.L. concibió la investigación, realizó las simulaciones por ordenador, analizó los datos y redactó el manuscrito.

Intereses contrapuestos

No hay intereses contrapuestos.

Financiación

Este trabajo fue apoyado por la Fundación Knut y Alice Wallenberg, KAW 2015.005.

Agradecimientos

Gracias a Markus Jonsson, Magnus Enquist, Anna Jon-And y Stefano Ghirlanda. Gracias también a dos árbitros anónimos por sus valiosos y perspicaces comentarios.

Notas a pie de página

El material complementario electrónico está disponible en línea en https://dx.doi.org/10.6084/m9.figshare.c.4302740.

Publicado por la Royal Society bajo los términos de la Licencia de Atribución de Creative Commons http://creativecommons.org/licenses/by/4.0/, que permite su uso sin restricciones, siempre que se acrediten el autor original y la fuente.

Mnih Vet al.2015Control a nivel humano a través del aprendizaje de refuerzo profundo. Nature 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
Emery NJ, Clayton NS. 2004La mentalidad de los cuervos: evolución convergente de la inteligencia en córvidos y simios. Science 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
Horner V, Carter JD, Suchak M, de Waal FB. 2011Elección prosocial espontánea de los chimpancés. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016Cómo cooperan los chimpancés en un mundo competitivo. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
Whiten A. 2017Aprendizaje social y cultura en el niño y el chimpancé. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
Allen C, Bekoff M. 1995Etología cognitiva y la intencionalidad del comportamiento animal. Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
Tomasello M, Call J. 1997Primate cognition. Oxford, Reino Unido: Oxford University Press. Google Scholar
Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
Bird CD, Emery NJ. 2009Insightful problem solving and creative tool modification by captive nontool-using rooks. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
Bird CD, Emery NJ. 2009Repuesta a Lind et al.: insight and learning. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:1073/pnas.0906351106) Crossref, ISI, Google Scholar
Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Using the Aesop’s fable paradigm to investigate causal understanding of water displacement by New Caledonian crows. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
Heyes C. 2012Simple minds: a qualified defence of associative learning. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
Heyes C. 2012¿Qué hay de social en el aprendizaje social?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
Koops K, Furuichi T, Hashimoto C. 2015Chimpancés y bonobos difieren en la motivación intrínseca para el uso de herramientas. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
Enquist M, Lind J, Ghirlanda S. 2016El poder del aprendizaje asociativo y la ontogenia del comportamiento óptimo. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, Reino Unido: Oxford University Press. Crossref, Google Scholar
Carew TJ, Sahley CL. 1986Invertebrate learning and memory: from behavior to molecules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
Bouton ME. 2007Aprendizaje y comportamiento: una síntesis moderna. Sinauer, MA: Sunderland. Google Scholar
Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data. Behavior. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
Mulcahy NJ, Call J. 2006Apes guardan herramientas para el futuro. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
Naqshbandi M, Roberts WA. 2006Anticipación de eventos futuros en monos ardilla (Saimiri sciureus) y ratas (Rattus norvegicus): pruebas de la hipótesis de Bischof-Köhler. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planificación del futuro por parte de los arrendajos de matorrales occidentales. Nature 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobos y orangutanes, pero no chimpancés, planifican con flexibilidad el futuro en una tarea de intercambio de fichas. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. Science 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
Premack D. 2007Cognición humana y animal: continuidad y discontinuidad. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
Suddendorf T, Corballis MC. 2010Evidencia conductual del viaje mental en el tiempo en animales no humanos. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
Cheke LG, Clayton NS. 2010El viaje en el tiempo mental en los animales. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
Suddendorf T, Bulley A, Miloyan B. 2018Prospección y selección natural. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, Reino Unido: Psychology Press. Google Scholar
Shettleworth S. 2010Cognition, evolution, and behavior. Oxford, Reino Unido: Oxford University Press. Google Scholar
Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
Eaton RL. 1970The predatory sequence, with emphasis on killing behavior and its ontogeny, in the cheetah (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
Kelleher RT, Gollub LR. 1962Una revisión del refuerzo condicionado positivo. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
Mackintosh NJ. 1974The psychology of animal learning. London, UK: Academic Press. Google Scholar
Williams BA. 1994El refuerzo condicionado: cuestiones experimentales y teóricas. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Australia: Darlington Press. Google Scholar
Rescorla RA, Wagner AR. 1972Una teoría del condicionamiento pavloviano: variaciones en la eficacia del refuerzo y del no refuerzo. En Classical conditioning II: current research and theory (eds AH Black, WF Prokasy), pp. 64-99. Nueva York, NY: Appleton-Century-Crofts. Google Scholar
Blough DS. 1975Datos de estado estable y un modelo cuantitativo de generalización y discriminación operante. J. Exp. Psychol. Anim. Behav. Process. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
Sutton RS, Barto AG. 1998Reinforcement learning. Cambridge, MA: MIT Press. Google Scholar
Balleine B, Dickinson A. 1991Instrumental performance following reinforcer devaluation depends upon incentive learning. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
Dickinson A, Balleine B. 1994Motivational control of goal-directed action. Anim. Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
Werner EE, Hall DJ. 1974Optimal foraging and the size selection of prey by the bluegill sunfish (Lepomis macrochirus). Ecology 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
Elner RW, Hughes RN. 1978Maximización de la energía en la dieta del cangrejo de costa Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimal prey selection in the great tit (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
Goss-Custard JD. 1977El forrajeo óptimo y la selección del tamaño de los gusanos por el archibebe, Tringa totanus, en el campo. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
Osvath M, Kabadayi C. 2018Contrariamente al evangelio, los cuervos sí planifican con flexibilidad. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
Barto AJ. 2003Reinforcement learning. En The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
Roberts WA. 2002 ¿Están los animales atrapados en el tiempo? Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
Ghirlanda S, Lind J. 2017Los experimentos de la ‘fábula de Esopo’ demuestran el aprendizaje por ensayo y error en las aves, pero no la comprensión causal. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Las técnicas meta-analíticas revelan que el razonamiento causal de los córvidos en el paradigma de la fábula de Esopo es impulsado por el aprendizaje por ensayo y error. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays anticipar las necesidades futuras independientemente de su estado de motivación actual. Current Biology 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
Cheke LG, Clayton NS. 2012Los arrendajos euroasiáticos (Garrulus glandarius) superan sus deseos actuales para anticipar dos necesidades futuras distintas y planificarlas adecuadamente. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
Clayton NS, Dickinson A. 1999Motivational control of caching behaviour in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
Skinner BF. 1950¿Son necesarias las teorías del aprendizaje? Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
Vaughan W, Greene SL. 1984Capacidad de memoria visual de las palomas. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
Gleitman H. 1971Forgetting of long-term memories in animals. En Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
Penn DC, Holyoak KJ, Povinelli DJ. 2008Darwin’s mistake: explaining the discontinuity between human and nonhuman minds. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Skeptic 13, 10-15. Google Scholar
Lind J, Ghirlanda S, Enquist M. 2009¿Aprendizaje de la visión o conformación? Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
Shettleworth SJ. 2010Clever animals and killjoy explanations in comparative psychology. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
Manger P. 2013Cuestionando las interpretaciones de las observaciones del comportamiento de los cetáceos: ¿hay realmente apoyo para un estatus intelectual especial para este orden de mamíferos?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
Dymond S, Stewart I. 2016Razonamiento relacional y analógico en la cognición comparativa. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
Lindenfors P. 2017Cerebros de aves: ¿son los cuervos tan inteligentes como afirman algunos científicos?Skept. Mag. 22, 10-11. Google Scholar
Lind J, Enquist M. 2009Se necesita más trabajo sintético. Adapt. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar