Cosa può fare l'apprendimento associativo per la pianificazione? | Royal Society Open Science

Introduzione

Con grande stupore del mondo, i modelli di apprendimento associativo usati nella ricerca sull’intelligenza artificiale (IA) ora raggiungono abilità di livello umano nei videogiochi e battono i maestri umani nei giochi da tavolo cinesi Go, scacchi e shogi. Nonostante il fatto che l’apprendimento associativo all’interno della ricerca sull’IA sia riconosciuto per produrre un comportamento simile a quello umano, l’apprendimento associativo spesso non è menzionato (ad esempio), o percepito come indesiderato o di insufficiente sofisticazione (ad esempio) per fornire spiegazioni per il comportamento flessibile negli animali non umani. È un paradosso intrigante che l’apprendimento associativo sia riconosciuto per la produzione di comportamenti flessibili complessi nell’ambito della ricerca sull’IA, ma sia spesso respinto e trascurato come modello per il comportamento flessibile nei sistemi biologici (sia negli esseri umani che negli animali non umani).

Se lo sviluppo di sequenze di comportamento negli animali non umani può essere compreso in termini di apprendimento associativo o meno ha conseguenze di vasta portata per la nostra comprensione dello studio del comportamento. Se il comportamento percepito come avanzato o complesso, come l’uso di strumenti da parte dello scimpanzé (Pan troglodytes), può svilupparsi attraverso processi associativi, le differenze di specie possono essere ricercate in termini di differenze genetiche nei repertori di comportamento, tendenze esplorative come la curiosità, e fattori motivazionali e attenzionali. Se i processi associativi non sono sufficienti a spiegare come le informazioni vengono elaborate e le memorie vengono aggiornate per generare il comportamento, allora è necessario identificare meccanismi alternativi per capire come si sviluppa tale comportamento. Oggi i ricercatori hanno opinioni molto contrastanti su questo tema. Da un lato, alcuni suggeriscono che i processi associativi, insieme a fattori come la dimensione del repertorio del comportamento e l’esplorazione sono potenti e possono spiegare gran parte di come gli animali acquisiscono il comportamento (ad esempio). Al contrario, altri enfatizzano meccanismi alternativi e propongono che gli animali abbiano molti meccanismi diversi che risolvono diversi problemi specifici e che questi meccanismi siano messi a punto dall’evoluzione (per esempio). Non tutti gli studi rientrano in queste due categorie e alcuni studi testano spiegazioni alternative e controllano l’apprendimento associativo. Tuttavia, è comune che tali studi assumano solo le forme più semplici di apprendimento associativo. È probabile che questo si traduca in falsi rifiuti delle ipotesi di apprendimento associativo. Questo perché la maggior parte dei vertebrati e degli invertebrati mostrano capacità di apprendimento strumentale e pavloviano, che insieme a memorie specializzate rendono la maggior parte degli animali capaci di un apprendimento più complesso di quello che le forme più semplici di apprendimento associativo permettono.

Lo scopo di questo studio è stato quello di esplorare se un modello di apprendimento, simile all’apprendimento di rinforzo utilizzato nella ricerca sull’IA, può aiutarci a capire l’acquisizione del comportamento di pianificazione nei corvidi e nelle scimmie, comportamenti talvolta percepiti come complessi e simili a quelli umani. È stato concluso che diverse specie pianificano in modo flessibile per il futuro, non diversamente dagli umani (ad esempio). L’idea è che questo tipo di pianificazione sia il risultato di un meccanismo mentale flessibile che può simulare, mentalmente, diversi stati futuri dalle informazioni attuali. Tuttavia, queste affermazioni sono state contestate sulla base di almeno due diverse linee di argomenti. In primo luogo, i ricercatori hanno sollevato dubbi sulla capacità generale degli uccelli di pianificare perché gli studi di pianificazione negli uccelli coinvolgono tipicamente specialisti del caching che eseguono compiti di caching, come le ghiandaie della macchia (Aphelocoma californica), le ghiandaie eurasiatiche (Garrulus glandarius) e le cinciallegre dal cappuccio nero (Poecile atricapillus). Questi risultati possono essere causati da repertori di memoria specializzati (cfr. ). La seconda ragione per respingere l’idea che gli animali non umani pianificano in modo flessibile è che il comportamento osservato non è stato causato da una pianificazione simile a quella umana, ma è meglio compreso come risultato dell’apprendimento associativo, e che le carenze metodologiche rendono questi studi equivoci.

Perché un modello di apprendimento associativo sarebbe utile per comprendere il comportamento orientato al futuro? L’apprendimento associativo è ben noto per causare comportamenti anticipatori, comportamenti che possono prevedere eventi significativi successivi senza benefici immediati. Inoltre, l’autocontrollo, spesso menzionato come importante per la pianificazione, può sorgere attraverso l’apprendimento associativo. Si potrebbe supporre che l’autocontrollo non sia possibile attraverso l’apprendimento associativo perché un comportamento immediatamente ricompensato dovrebbe essere sempre preferito a un comportamento non ricompensato. Ma, per molti animali “aspettare” o “pedinare” sono comportamenti che possono essere rinforzati quando sono seguiti da successive possibilità di ricompensa. Per esempio, i predatori imparano le abilità di stalking e di attesa quando sono giovani.

Il modello qui utilizzato è un modello di apprendimento associativo capace di apprendere un comportamento ottimale in un mondo complesso. Il modello include due diverse memorie e un meccanismo decisionale. Una memoria memorizza la forza associativa dell’esecuzione del comportamento B verso lo stimolo S, e l’altra memoria memorizza il valore stimato dello stimolo S. Il modello può apprendere sequenze di comportamenti collegando insieme i singoli comportamenti attraverso il rinforzo condizionato (rinforzo secondario). In questo modo, gli stimoli inizialmente neutri che precedono i rinforzi primari possono diventare essi stessi rinforzi, modificando così il comportamento precedentemente non premiato. Per esempio, un coniglio addestrato con il clicker ha sentito i click ripetutamente prima della ricompensa del cibo. Per questo coniglio, un clic diventa gratificante di per sé e il coniglio imparerà ad eseguire comportamenti che risultano solo nel coniglio sentire un clic. Il modello è ulteriormente spiegato nella sezione Materiale e metodi qui sotto.

Qui testo l’ipotesi che un modello di apprendimento associativo può rendere conto dei risultati trovati negli studi di pianificazione non umana. Il modello di apprendimento è stato utilizzato per simulare i risultati di due studi di pianificazione, uno con oranghi (Pongo pygmaeus) e bonobo (Pan paniscus) e uno con corvi (Corvus corax). Le simulazioni sono state trovate per tracciare i modelli chiave all’interno e tra questi studi. Si conclude che non si può escludere che gli studi sulla pianificazione flessibile nelle scimmie e nei corvidi possano essere spiegati dall’apprendimento associativo. Pertanto, l’apprendimento associativo non può produrre solo un comportamento simile a quello umano (ad esempio), ma è una spiegazione candidata per le osservazioni di pianificazione e autocontrollo negli animali non umani.

Materiale e metodi

Qui descrivo il nostro modello di apprendimento, la logica dei due diversi studi che sono stati utilizzati per le simulazioni, e i dettagli delle simulazioni.

2.1. Una descrizione del modello

Un animale ha un repertorio di comportamenti e può usare i suoi comportamenti per navigare in un mondo di stati ambientali rilevabili. Un comportamento porta l’animale da uno stato ad un altro. Ogni stato, o stimolo, ha un valore di rinforzo primario che è geneticamente fissato. Questi valori possono essere negativi, neutri o positivi, e guidano l’apprendimento in modo da promuovere i comportamenti che favoriscono la sopravvivenza e la riproduzione. Si suppone che gli animali facciano scelte che massimizzano il valore totale, e le aspettative del valore di uno stato futuro possono svilupparsi. Il modello può quindi generare un comportamento diretto all’obiettivo (vedi per un’altra discussione sul comportamento diretto all’obiettivo e l’apprendimento).

In breve, il modello descrive l’apprendimento di sequenze di comportamento verso gli stimoli attraverso i cambiamenti nella memoria. Include un processo decisionale che tiene conto della memoria per determinare quale comportamento deve essere selezionato quando viene percepito un dato stimolo. Prendiamo per esempio l’apprendimento di un singolo comportamento, come quando un cane impara a dare la zampa in risposta al comando “scuoti”. Sollevare la zampa è il comportamento, il comando ‘shake’ e la ricompensa sono stimoli. La sequenza di eventi da apprendere è: comando ‘shake’ → sollevamento zampa → ricompensa, oppure

Comando ‘shake′→sollevamento zampa→Ricompensa cibo

Il modello raccoglie informazioni sul valore di eseguire comportamenti verso stimoli diversi (o stati), e informazioni sul valore di stimoli diversi (o essere in stati specifici) . L’apprendimento avviene attraverso l’aggiornamento di due diversi tipi di memorie. Queste memorie corrispondono all’apprendimento pavloviano e strumentale e vengono aggiornate dopo una sequenza di eventi come nell’esempio del cane, o in termini generali la sequenza di eventi S → B → S′. Il primo tipo di memoria è un’associazione stimolo-risposta. Abbiamo usato vS→B per denotare la forza associativa tra lo stimolo S e il comportamento B. In termini funzionali, vS→B può essere descritto come il valore stimato di eseguire il comportamento B quando si percepisce lo stimolo S. La seconda memoria memorizza il valore di uno stimolo. Abbiamo usato wS per indicare questo valore di stimolo e viene aggiornato in base al valore di uno stimolo successivo. In altre parole, wS è il valore di rinforzo condizionato di essere nello stato S. Queste memorie sono aggiornate secondo

ΔvS→B=αv(uS′+wS′-vS→B)eΔwS=αw(uS′+wS′-wS)}2.1

dopo aver sperimentato la sequenza di eventi S → B → S′. L’associazione stimolo-risposta vS→B viene aggiornata in base a uS′ un valore fisso innato primario dello stimolo S′, e wS′ il valore di rinforzo condizionato e l’associazione stimolo-risposta vS→B precedentemente memorizzata. Con il rinforzo condizionato, il valore di eseguire il comportamento B quando si percepisce lo stimolo S è la somma del valore di rinforzo primario e condizionato dello stimolo S′. Se si usa solo la prima equazione e si esclude w, allora si rappresenta l’apprendimento strumentale stimolo-risposta, cioè una versione strumentale del classico modello di apprendimento di Rescorla-Wagner. I tassi di apprendimento αv e αw determinano il tasso di aggiornamento della memoria.

Perché il modello di apprendimento generi e selezioni il comportamento, è necessario un meccanismo di decisione. Abbiamo usato un meccanismo decisionale che seleziona le risposte comportamentali e provoca una certa variazione nel comportamento attraverso l’esplorazione. Questo specifica la probabilità del comportamento B nello stato S come

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

che include un parametro β che regola la quantità di esplorazione. Tutti i comportamenti hanno la stessa probabilità di essere selezionati se β = 0 senza prendere in considerazione i valori stimati. Se β è grande, allora il comportamento con il più alto valore stimato (v) sarà principalmente selezionato.

Torniamo al cane per un esempio pratico. Il cane sente il comando ‘shake’, stimolo S. Se il cane muove la zampa verso l’alto, cioè esegue il comportamento B, riceverà la ricompensa S′. La ricompensa alimentare S′ ha un valore primario innato u. Quando il cane riceve questa ricompensa dopo aver risposto correttamente al comando ‘shake’, la memoria stimolo-risposta vcomando `shake′→alza la zampa aumenterà secondo la riga superiore dell’equazione (2.1). Inoltre, il valore dello stimolo w del comando ‘shake’ sarà aggiornato secondo la riga inferiore dell’equazione (2.1). Questo valore w del comando ‘shake’ si avvicinerà al valore u della ricompensa alimentare, e quindi acquisirà proprietà di rinforzo a sé stanti; è diventato un rinforzatore condizionato. Il rinforzatore condizionato può aprire la strada all’apprendimento di altri comportamenti prima di muovere la zampa verso l’alto. Questo può accadere perché i comportamenti che portano il cane a sentire il comando ‘shake’ possono essere rinforzati.

2.2. Simulazione di studi di pianificazione su grandi scimmie e corvi

Le simulazioni degli esperimenti di pianificazione si basavano su descrizioni dettagliate del corso degli eventi nei due studi in cui erano stati identificati gli eventi chiave. Gli eventi chiave includevano quali comportamenti sono stati addestrati prima dei test e verso quali oggetti, e quali risultati sono derivati dalle diverse scelte durante il preaddestramento e i test. È importante identificare i dettagli in questi studi, perché le fasi dei test includevano un mix di azioni gratificanti e non gratificanti. Pertanto, ci si aspettava che sia lo stimolo-risposta (v) che i valori dello stimolo (w) cambiassero durante i test.

Per rendere le simulazioni possibili e realistiche, si è supposto che gli animali entrassero in questi studi con alcune abilità quotidiane necessarie. Si presumeva che gli animali avessero, per esempio, precedentemente imparato a tenere gli oggetti, come muoversi tra le stanze e gli scompartimenti, dove si trovavano le diverse cose, e alcune competenze di base su come interagire con gli sperimentatori. Le scimmie sono state per esempio cacciate dalla stanza dei test dopo le scelte per essere poi riammesse nella stanza dei test. Ignorando queste abilità quotidiane, le simulazioni e le descrizioni del comportamento si sono concentrate sulle sequenze di comportamento uniche che gli animali dovevano imparare come parte degli esperimenti.

I due studi condividono caratteristiche chiave. Prima dell’inizio dei test, gli animali sono stati sottoposti a un preaddestramento. Qui hanno imparato a eseguire comportamenti che poi sono stati valutati come corretti. Oltre al preaddestramento dei comportamenti corretti, lo studio del corvo includeva anche l’addestramento all’estinzione. Durante l’addestramento all’estinzione, i corvi hanno avuto la possibilità di imparare che gli oggetti non funzionali non hanno prodotto ricompense. Gli eventi chiave in entrambi gli studi utilizzati per segnare le scelte corrette rispetto a quelle errate erano test di scelta forzata. Qui gli animali sono stati costretti a scegliere tra un oggetto che avevano precedentemente imparato potrebbe risultare in una ricompensa, rispetto ad altri oggetti che non potevano essere utilizzati per ricompense successive (oggetti distrattori). I corvi hanno imparato durante l’addestramento all’estinzione che questi oggetti distrattori non potevano portare a ricompense. Dopo la scelta forzata entrambi gli studi includevano un ritardo di un certo tempo, dopo il quale gli animali erano autorizzati a eseguire un comportamento utilizzando l’oggetto precedentemente scelto. Se un animale faceva una scelta corretta prima del ritardo, poteva poi usare l’oggetto scelto per ottenere una ricompensa. Se un animale ha fatto una scelta sbagliata prima del ritardo, non c’erano opportunità per i comportamenti di ricompensa dopo il ritardo.

Le simulazioni effettuate hanno seguito la fase di preaddestramento e la fase di test degli studi. I confronti sono fatti con i livelli casuali di scelte corrette stabiliti dai due studi. Mulcahy & Call si aspettava che le scimmie scegliessero il corretto per caso il 25% delle volte (un oggetto funzionale e tre oggetti distrattori). Kabadayi & Osvath si aspettava che i corvi facessero casualmente il 25% di scelte corrette negli esperimenti 1 e 2, e il 20% di scelte corrette negli esperimenti 3 e 4 (un oggetto funzionale e tre oggetti distrattori negli esperimenti 1 e 2, e 1 oggetto funzionale, 1 piccolo premio e tre oggetti distrattori negli esperimenti 3 e 4). Vedere gli script di simulazione per le descrizioni esatte (vedi materiale supplementare elettronico). Per rendere più facile seguire le simulazioni qui sono descrizioni approfondite dei due studi.

2.3. Una descrizione dello studio di Mulcahy e Call sulle grandi scimmie

Questi test sono stati eseguiti con oranghi e bonobo. Lo studio è iniziato con il preaddestramento. Qui un animale è stato messo in una stanza di prova e addestrato su due diversi compiti con strumenti per ottenere una ricompensa da un apparecchio. Questi strumenti funzionali saranno indicati come oggetti funzionali. Un compito consisteva nello scegliere un tubo e inserirlo in un apparecchio. L’altro compito era quello di scegliere un gancio e usarlo per raggiungere una bottiglia che non poteva essere raggiunta senza avere il gancio. Dopo il preaddestramento, l’animale è stato sottoposto a un test di scelta forzata tra oggetti funzionali e tre corrispondenti oggetti non funzionali (in seguito denominati oggetti distrattori). Ma durante questa scelta forzata, l’accesso all’apparato contenente una ricompensa è stato bloccato. Dopo che la scelta è stata fatta, l’animale è stato portato via dalla stanza del test in una sala d’attesa. Gli oggetti non presi dall’animale venivano ora eliminati dalla stanza del test. A questo punto, c’era un ritardo. Dopo il ritardo, l’animale è stato nuovamente ammesso nella stanza del test e gli è stato dato accesso all’apparecchio. Se un oggetto funzionale era stato scelto nel test di scelta forzata, l’animale poteva ora utilizzare l’oggetto per ottenere una ricompensa, esibendo così il comportamento che aveva imparato durante il preaddestramento.

Questo studio comprendeva quattro test che erano leggermente diversi. I test variavano rispetto a quale strumento era l’oggetto funzionale e la durata dei ritardi. Inoltre, nell’ultimo test, gli animali non dovevano usare lo strumento per ottenere una ricompensa. Da notare che qui, nell’esperimento 4, sono stati utilizzati due nuovi individui che non avevano partecipato agli esperimenti 1, 2 o 3. Quest’ultima parte era di poca importanza in questo caso per le ragioni menzionate nella sezione Risultati. Le simulazioni hanno seguito la logica dello studio, ed ecco i dettagli degli eventi chiave e dei ritardi utilizzati nella simulazione:

Pretraining: Prima dei test, tutti i soggetti hanno imparato a usare gli strumenti funzionali. In due fasi, un minimo di tre più otto prove di preformazione sono state consentite per il compito del tubo e un minimo di cinque prove di preformazione per il compito del gancio.
Sperimentazione 1, condizione del tubo: (1) Scelta forzata con tubo funzionale e oggetti distrattori (16 prove). (2) Dopo la scelta andare in un’altra stanza. (3) Aspettare 1 ora. (4) Tornare e se il tubo funzionale era stato scelto questo poteva essere usato per ottenere una ricompensa.
Sperimento 2, condizione del tubo: (1) Scelta forzata con tubo funzionale e oggetti distrattori (12 prove). (2) Dopo la scelta andare in un’altra stanza. (3) Attendere 14 ore. (4) Ritorno e se il tubo funzionale era stato scelto questo poteva essere usato per ottenere una ricompensa.
Sperimento 3, condizione gancio: (1) Scelta forzata con gancio funzionale e oggetti distrattori (16 prove). (2) Dopo la scelta andare in un’altra stanza. (3) Aspettare 1 ora. (4) Tornare e se il gancio funzionale era stato scelto questo poteva essere usato per ottenere una ricompensa.
Sperimento 4, condizione di gancio: (1) Scelta forzata con gancio funzionale e oggetti distrattori (16 prove). (2) Dopo la scelta andare in un’altra stanza. (3) Attendere 1 ora. (4) Tornare e se il gancio funzionale era stato scelto una ricompensa è stata ricevuta senza usare il gancio.

Le sequenze di comportamento da imparare erano le seguenti:

condizione del tubo: Stube → Btake tube → Sapparatus → Buse tube → Sreward
Condizione Hook: Shook → Btake hook → Sapparatus → Buse hook → Sreward

In entrambe le condizioni, le scimmie non sono mai state ricompensate per aver scelto gli oggetti distrattori, oppure:

Distrattori: Sdistrattore → Btake distrattore → Sno ricompensa

2.4. Una descrizione di Kabadayi &Studio di Osvath sui corvi

Questi test sono stati eseguiti con i corvi. Questo studio è iniziato con il preaddestramento. Qui un animale è stato posto in una stanza di prova e addestrato su due diversi compiti di strumenti per ottenere una ricompensa da un apparato. Come sopra, gli strumenti funzionali saranno indicati come oggetti funzionali. Un compito consisteva nel mettere una pietra in un apparecchio per ottenere una ricompensa. L’altro compito consisteva nel prendere un tappo di bottiglia (chiamato token) e darlo a un umano. In contrasto con lo studio sulle scimmie, prima dell’inizio dei test ai corvi sono state concesse anche prove di estinzione. Qui si permetteva all’animale di interagire con gli oggetti che sarebbero stati presenti durante i test di scelta forzata, ma che non potevano mai essere usati per ottenere ricompense (in seguito chiamati oggetti distrattori). Dopo il preaddestramento, l’animale è stato sottoposto a un test di scelta forzata tra un oggetto funzionale e tre oggetti distrattori. Dopo aver fatto una scelta, all’animale non è stato permesso di usare l’oggetto funzionale per un certo tempo. In altre parole, nessuna ricompensa poteva essere raccolta immediatamente dopo il test di scelta (ad eccezione dell’esperimento 4). A questo punto, c’era un ritardo. Dopo il ritardo, all’animale è stato permesso di usare l’oggetto scelto. Se un oggetto funzionale era stato scelto nel test di scelta forzata, l’animale poteva ora usare quell’oggetto per ottenere una ricompensa, esibendo così il comportamento che aveva imparato durante il preaddestramento.

Questo studio comprendeva anche quattro test che erano leggermente diversi. I test variavano per quanto riguarda il numero di prove, la durata dei ritardi e, nell’ultimo test, gli animali non dovevano aspettare prima di usare un oggetto funzionale per ottenere una ricompensa. Va notato che in questo studio, sono state utilizzate due diverse ricompense. Una ricompensa di alto valore è stata utilizzata nel preaddestramento e in tutti gli esperimenti. E negli esperimenti 3 e 4, una ricompensa nota di scarso valore è stata utilizzata nella situazione di scelta forzata accanto allo strumento funzionale e agli oggetti distrattori. Si noti che gli esperimenti non sono stati eseguiti nello stesso ordine in cui sono stati numerati nello studio pubblicato. Ho scelto di presentare i test nell’ordine temporale in cui sono stati eseguiti (1,3,2,4). Le simulazioni hanno seguito la logica dello studio, ed ecco i dettagli degli eventi chiave utilizzati nella simulazione: gli eventi chiave prima e durante gli esperimenti sono stati:

Pretraining: Prima dei test, tutti i soggetti hanno imparato a usare gli strumenti funzionali. In due fasi, un minimo di tre più cinque prove di preformazione sono state consentite per il compito degli strumenti e 35 prove di preformazione sono state consentite per il compito dei gettoni.
Prove di estinzione: In questa fase, i soggetti sono stati autorizzati a manipolare gli oggetti distrattori per 5 minuti senza ricevere alcuna ricompensa.
Sperimentazione 1: (1) Scelta forzata con oggetto funzionale e oggetti distrattori. 14 prove nella condizione strumento e 12 × 3 prove nella condizione gettone. (2) Attesa di 15 minuti. (3) L’oggetto scelto può essere usato di nuovo, e se la pietra o il gettone era stato scelto potrebbe essere usato per ottenere una ricompensa.
Esperimento 3: (1) Scelta forzata con oggetto funzionale, piccola ricompensa e oggetti distrattori. 14 prove nella condizione strumento e 14 prove nella condizione token. (2) Attesa di 15 minuti. (3) L’oggetto scelto può essere usato di nuovo, e se la pietra o il gettone erano stati scelti potevano essere usati per ottenere una ricompensa.
Esperimento 2: (1) Scelta forzata con oggetto funzionale e oggetti distrattori. 6 prove nella condizione strumento e 6 prove nella condizione token. (2) Attesa 17 h. (3) L’oggetto scelto può essere usato di nuovo, e se la pietra o il token erano stati scelti potevano essere usati per ottenere una ricompensa.
Sperimento 4: (1) Scelta forzata con oggetto funzionale, piccola ricompensa, e oggetti distrattori. 14 prove nella condizione strumento e 14 prove nella condizione token. (2). Se la pietra o il token erano stati scelti, potevano essere usati per ottenere una ricompensa.

Le sequenze di comportamento da imparare erano le seguenti:

condizione strumento: Sgabello → Btake tool → Sapparatus → Buse tool → Sreward
Condizione token: Sgabello → Btake token → Shuman → Bgive token → Sreward

Ai corvi fu anche insegnato durante una fase di estinzione che non era mai gratificante scegliere o usare oggetti distrattori. Questo è stato anche il caso durante tutti i test, ovvero:

Distrattori: Sdistrattore → Btake distrattore → Sno ricompensa

Nelle fasi di autocontrollo dello studio, i corvi avevano la possibilità di scegliere una piccola ricompensa che veniva presentata accanto all’oggetto funzionale (strumento o token) e agli oggetti distrattori. Pertanto, negli esperimenti 3 e 4, erano possibili anche queste sequenze di comportamento:

condizione strumento: Sdog kibble → Btake small reward → Ssmall reward
condizione token: Sdog kibble → Btake small reward → Ssmall reward

2.5. Illustrazione degli aggiornamenti della memoria durante il preaddestramento

Per illustrare come queste sequenze di comportamento sono influenzate dall’apprendimento, ecco un esempio degli aggiornamenti della memoria per il preaddestramento nello studio del corvo. La sequenza di comportamento che si è sviluppata durante il preaddestramento può essere descritta come Sgabello → Btake tool → Sapparatus → Buse tool → Sreward dove il valore di inserire la pietra nell’apparato è aumentato, così che vSapparatus → Buse tool≫0. Poiché il modello include anche il rinforzo condizionato, il valore della pietra stessa viene aggiornato in base al valore dello stimolo successivo, la grande ricompensa. Con esperienze ripetute, il valore dello stimolo (w) di Sreward farà crescere il valore dello stimolo di Stool. Come mostrato nella nostra descrizione di questo modello, con abbastanza esperienze il valore dello strumento si avvicinerà al valore della grande ricompensa. Al contrario, le prove di estinzione con ripetute esperienze non ricompensate dei tre oggetti distrattori possono essere descritte come Sdistractor → Bpick distractor → Sno reward. Questa sequenza di eventi causerà una riduzione sia della forza associativa della scelta di un distrattore vSdistractor → Bpick distractor sia del valore di rinforzo condizionato (wdistractor) del distrattore. Quando il primo test inizia con una scelta forzata, il comportamento dei corvi è stato influenzato dal preallenamento sia con la pietra che con i distrattori.

2.6. Dettagli della simulazione

Il modello di cui sopra è stato incorporato in un programma Python dove l’apprendimento è avvenuto secondo le procedure dettagliate dei due studi, come definito sopra, per ottenere stime delle probabilità di scelta dei diversi stimoli, e dei valori v e w, nel corso degli studi. Sono stati eseguiti due tipi di simulazioni. Prima sono state eseguite simulazioni con il modello completo, e poi simulazioni senza valori di stimolo (w), cioè permettendo solo la nostra versione di apprendimento stimolo-risposta usando solo la prima riga dell’equazione (2.1) insieme al processo decisionale (equazione (2.2)). Questo è stato fatto per esplorare le differenze tra il nostro modello che include il rinforzo condizionato e una versione del solo apprendimento stimolo-risposta. Questa versione dell’apprendimento stimolo-risposta è identica alla classica regola di apprendimento di Rescorla-Wagner, ma l’abbiamo considerata in termini di un’impostazione strumentale invece che pavloviana.

Per tenere conto dei ritardi, un passo temporale al minuto è stato incluso nella simulazione nei momenti di ritardo. Durante queste fasi di tempo, solo uno stimolo di fondo è stato sperimentato. Questo non è molto importante per l’aggiornamento della memoria, perché sia le memorie di stimolo-risposta che quelle di valore dello stimolo sono memorie a lungo termine. Il fatto che gli animali ricordino le associazioni stimolo-risposta e i valori dello stimolo per un tempo molto lungo non è stato menzionato in nessuno degli studi simulati.

Gli stessi parametri di apprendimento sono stati utilizzati in tutte le simulazioni. Tutti i comportamenti sono iniziati con un valore iniziale stimolo-risposta v = 1, entrambi i valori v e w sono stati aggiornati con un tasso di apprendimento α = 0,2, l’esplorazione è stata impostata su β = 1, e le ricompense sono state impostate su u = 6 a parte le ricompense di basso valore negli esperimenti 3 e 4 in Kabadayi & Osvath che sono state impostate su u = 2. Il costo del comportamento per tutti i comportamenti era 0,1 a parte le risposte passive che sono state impostate a 0 (vedi informazioni per tutti i comportamenti e gli elementi dello stimolo inclusi nelle simulazioni nel materiale supplementare elettronico). Tutte le simulazioni sono state eseguite per 500 soggetti e il numero di prove ha seguito approssimativamente quello degli esperimenti. Il fatto che il numero di prove non corrispondesse perfettamente agli studi empirici era dovuto alla natura probabilistica dell’equazione decisionale. La mancanza di informazioni sui valori iniziali degli animali rende difficili confronti quantitativi esatti.

Anche se sia i corvi che le scimmie avevano un ricco background, il comportamento precedentemente appreso è stato ignorato e i valori iniziali sono stati assunti uguali per gli oggetti distrattori e gli oggetti funzionali. Per essere conservativi, tutte le forze associative tra comportamenti e stimoli sono state assunte uguali all’inizio delle simulazioni. Kabadayi & Osvath non ha calibrato le preferenze dei corvi rispetto al valore delle due diverse ricompense alimentari, quindi non ci sono informazioni quantitative sulle differenze tra le ricompense disponibili. Hanno dichiarato nel metodo che la ricompensa alimentare di alta qualità era sia più grande che più attraente. Informazioni esatte sulla quantità di estinzione mancavano dallo studio sui corvi, quindi si è assunto che i corvi avessero cinque esperienze di estinzione con i distrattori.

I comportamenti e gli elementi dello stimolo usati nelle simulazioni erano i seguenti:

2.6.1. Comportamenti

Mulcahy & Chiama Tubo: prendere tubo, usare tubo, prendere distrattore, essere passivo
Mulcahy & Chiama Gancio: prendere gancio, usare gancio, prendere distrattore, essere passivo
Kabadayi & Osvath Tool: prendere strumento, usare strumento, prendere distrattore, essere passivo, prendere piccola ricompensa
Kabadayi & Osvath Token: prendere token, usare token, prendere distrattore, essere passivo, prendere piccola ricompensa

2.6.2. Elementi dello stimolo

Mulcahy & Chiama Tubo: sfondo, tubo, compito tubo, distrattore, ricompensa
Mulcahy & Chiama Gancio: sfondo, gancio, compito gancio, distrattore, ricompensa
Kabadayi & Strumento Osvath: sfondo, strumento, apparecchio, distrattore, ricompensa, piccola ricompensa
Kabadayi & Osvath Token: sfondo, token, umano, distrattore, ricompensa, piccola ricompensa

2.7. Dati dagli studi empirici

Per confrontare i risultati della simulazione con i dati empirici dei due studi, sono state calcolate le medie dai dati disponibili nei due rispettivi studi (vedi figure in Risultati). Questo ha portato alla proporzione media di scelte corrette ed errate nei test a scelta forzata. Si noti che l’esperimento 4 nello studio delle scimmie non ha comportato alcun comportamento corretto utilizzando lo strumento al ritorno all’apparato dopo il ritardo, rendendo questo esperimento difficile da interpretare. Inoltre, i dati sulle scelte per l’esperimento 4 non erano disponibili nel testo, quindi i dati da sono stati utilizzati per quel punto di dati. E’ spiacevole mischiare i dati in questo modo, ma ho scelto questo a favore di lasciare fuori i dati dell’esperimento 4.

Risultati

In generale, le simulazioni corrispondevano ai risultati sia dello studio del corvo che della grande scimmia. Le simulazioni mostrano come due fattori insieme possano contribuire al futuro comportamento diretto esibito dalle grandi scimmie e dai corvi. In primo luogo, i valori di rinforzo condizionati degli oggetti funzionali, stabiliti attraverso il preaddestramento e l’estinzione, erano in grado di guidare le scelte corrette iniziali. Questo è mostrato nella figura 1 dove è mostrata la proporzione di scelte corrette. In secondo luogo, le scelte corrette sono state premiate in tutti gli studi, a parte l’esperimento 4 nell’esperimento sulle scimmie. Il fatto che l’uso di oggetti funzionali fosse gratificante in tutto era sufficiente per guidare le prestazioni ben al di sopra dei livelli casuali (figura 1). Nello studio del corvo, le ricompense fornite durante l’esperimento spiegano bene le prestazioni quasi perfette nelle due parti finali di quello studio.

L’adattamento era buono tra i test empirici (mostrati come cerchi pieni nella figura 1) e le simulazioni in quanto gli oggetti funzionali avevano più probabilità di essere scelti rispetto agli oggetti distrattori. Le simulazioni hanno anche seguito le tendenze generali nel senso che le prestazioni sono aumentate nello studio della grande scimmia durante gli esperimenti 1 e 2 e che le prestazioni si sono ridotte nell’esperimento 3. Anche se le simulazioni hanno sottostimato le prestazioni nella condizione di strumento dello studio del corvo, le simulazioni hanno seguito da vicino il modello in quanto le prestazioni erano alte nell’esperimento 1, sono diminuite nell’esperimento 3 per raggiungere prestazioni quasi perfette nell’esperimento 4. Una ragione per la simulazione di avere un tasso di successo più basso nella condizione dello strumento potrebbe essere che i corvi erano ben addestrati e avevano un ricco background che è utile nelle situazioni di test. Questi uccelli sono stati allevati da esseri umani e interagiscono regolarmente con gli esseri umani. Hanno anche familiarità con molti oggetti diversi, set-up sperimentali e ricompense. Al contrario, le simulazioni sono iniziate assumendo nessuna conoscenza precedente. C’era una stretta corrispondenza tra le simulazioni e i dati empirici per la condizione di gettone, ma la riduzione delle prestazioni durante l’esperimento 3 era maggiore nei dati empirici.

Le simulazioni hanno anche catturato che le grandi scimmie hanno esibito un tasso di successo complessivamente inferiore a quello dei corvi. Almeno due fattori potrebbero aver contribuito a questa differenza. Le scimmie hanno sperimentato meno preallenamento rispetto ai corvi e, a differenza dei corvi, alle scimmie non è stato permesso l’allenamento all’estinzione con gli oggetti distrattori prima del test. Questo è mostrato nella figura 1 dove la probabilità di scegliere l’oggetto corretto è molto più alta all’inizio dell’esperimento 1 nello studio sui corvi rispetto allo studio sulle scimmie. Che molte prove di preformazione (35 nella condizione di token) combinate con prove di estinzione possono risultare in alte prestazioni nelle scelte forzate è mostrato più chiaramente nella condizione di token dello studio sul corvo. Qui la simulazione ha seguito da vicino l’alto tasso di successo osservato.

Il preaddestramento e l’addestramento all’estinzione non hanno influenzato solo la probabilità di prendere decisioni corrette. Le simulazioni rivelano come il preaddestramento e l’estinzione influenzino anche la percentuale di scelta degli oggetti errati, come le piccole ricompense (figura 1). L’effetto del preaddestramento e dell’estinzione è stato più pronunciato nella condizione token dello studio sul corvo, dove la simulazione suggerisce che la probabilità che i corvi scegliessero le piccole ricompense rispetto agli oggetti funzionali era vicina allo zero. La grande quantità di esperienze gratificanti con gli oggetti funzionali (strumento e gettone) ha portato a grandi valori di rinforzo condizionato per questi oggetti (figura 2). Le simulazioni hanno corroborato il modello che i corvi non hanno scelto piccole ricompense invece di oggetti funzionali, e che l’autocontrollo dovrebbe emergere dall’apprendimento associativo.

Figura 2. Risultati delle simulazioni per consentire il confronto tra l’output del nostro modello di apprendimento che include il rinforzo condizionato (valori dello stimolo), con una versione strumentale del modello Rescorla-Wagner (R-W). Le simulazioni dello studio del corvo sono sulla sinistra e le simulazioni dello studio della scimmia sono sulla destra. I pannelli superiori mostrano gli aggiornamenti della memoria: le associazioni stimolo-risposta v per i comportamenti verso gli oggetti funzionali, e i valori dello stimolo w di questi oggetti. Poiché gli oggetti funzionali non sono essi stessi gratificanti, le simulazioni mostrano che le associazioni stimolo-risposta per la scelta degli oggetti funzionali non si sviluppano con il modello di apprendimento più semplice (R-W). E i pannelli inferiori mostrano che il modello di apprendimento stimolo-risposta (R-W) non può riprodurre i modelli di comportamento osservati nei due studi, in netto contrasto con il nostro modello di apprendimento che permette il rinforzo condizionato. Le fasi sperimentali sono le stesse della figura 1, ma qui le fasi non sono mostrate per chiarezza. Si noti che gli assi X nei pannelli di destra sono interrotti perché l’esperimento 4 è stato fatto con nuovi individui che hanno sperimentato solo il pretraining prima dell’esperimento. I grafici dei corvi e delle scimmie sono stati scaricati da openclipart.org.

La crescita dei valori stimolo-risposta e i valori dello stimolo sono mostrati nel pannello superiore della figura 2.

Nota che l’esperimento 4 nello studio della grande scimmia corrisponde meno alle simulazioni. Qui a due nuove scimmie è stato permesso di ottenere la ricompensa senza usare lo strumento precedentemente funzionale e sono tornati con uno strumento corretto 2 volte su 16, più basso che nella simulazione. Questa differenza tra il test empirico e la simulazione potrebbe essere ridotta aumentando il costo del comportamento. Aumentare il costo di un comportamento che non porta ad una ricompensa porterà ad una riduzione nell’esecuzione del comportamento. Ma non è chiaro cosa aspettarsi dagli animali in questa situazione quando le scimmie affrontano una situazione con una connessione meno chiara tra uno strumento e una ricompensa. E due delle quattro scimmie non hanno mai tentato di risolvere il problema. Per concludere, è difficile giudicare la precisione e il significato di questo punto di dati (vedi ).

Le simulazioni mostrano anche le differenze tra modelli di apprendimento associativo di diversa complessità. I limiti della nostra versione dell’apprendimento stimolo-risposta diventano evidenti quando si confrontano con le simulazioni che utilizzano il nostro modello di apprendimento che incorpora sia l’apprendimento pavloviano che quello strumentale. Nel solo apprendimento stimolo-risposta, le sequenze di comportamento in cui un comportamento non è immediatamente seguito da una ricompensa non possono essere apprese (figura 2). Affinché le sequenze di comportamento si sviluppino, gli stimoli più di un passo prima della ricompensa devono diventare gratificanti attraverso il rinforzo condizionato. Quando uno stimolo precedentemente neutro acquisisce un valore w positivo, cioè diventa gratificante, può guidare l’acquisizione di valori v positivi per comportamenti che non risultano in ricompense immediate (pannello superiore in figura 2). Quando si confronta il nostro modello che può apprendere sequenze di comportamenti con la versione strumentale del modello di Rescorla-Wagner, è chiaro che la probabilità di scegliere lo stimolo corretto non aumenta se è consentito solo l’apprendimento dello stimolo-risposta (figura 2). Inoltre, poiché i valori v sono aggiornati solo dal rinforzatore immediato nell’apprendimento stimolo-risposta, questo ha anche la conseguenza che la piccola ricompensa sarà scelta a favore del gettone e dello strumento, poiché il gettone e lo strumento non possono diventare stimoli di valore. Questo è mostrato nella figura 2 come la scelta errata di piccole ricompense aumenta attraverso le prove quando è permessa solo la nostra versione di apprendimento stimolo-risposta (segnata con R-W nella figura 2). L’apprendimento stimolo-risposta da solo non potrebbe spiegare i risultati né nel corvo né nello studio sulle scimmie.

Discussione

Le simulazioni dei due studi di pianificazione sui corvi e sulle grandi scimmie suggeriscono che il comportamento che precedentemente si sosteneva essere stato generato da una pianificazione flessibile può essere spiegato dall’apprendimento associativo. Come dimostrato nella ricerca sull’intelligenza artificiale e nella ricerca sul comportamento animale, questi modelli di apprendimento associativo sono potenti nel generare sequenze di comportamento flessibile . Pertanto, la conclusione tratta in entrambi gli studi sui corvi e sulle grandi scimmie, che i corvi e le scimmie risolvono questi problemi con un meccanismo flessibile specifico, ha poco supporto. Le simulazioni effettuate qui supportano i critici che hanno interpretato questi risultati come conseguenze dell’apprendimento associativo. Se gli studi futuri mirano a distinguere i processi associativi da altri tipi di meccanismi mentali, essi beneficerebbero di un migliore disegno sperimentale che includa controlli adeguati approfittando di modelli di apprendimento all’avanguardia.

È stato interessante notare che le simulazioni hanno catturato la differenza tra lo studio sui corvi e le grandi scimmie. Questo suggerisce che le simulazioni hanno catturato bene gli effetti del preaddestramento, delle fasi di estinzione e delle ricompense nel corso degli studi. Alti valori di rinforzo condizionato (valori w) per gli oggetti corretti (strumento e token) e bassi valori per gli oggetti distrattori sono stati stabiliti prima delle prime prove (figura 2). Questo è stato particolarmente evidente nella parte del token dell’esperimento del corvo, dove i corvi sono stati sottoposti a 35 prove di preaddestramento in cui la sequenza di comportamento Stoken → Btake token → Shuman → Bgive token → Sreward è stata costantemente premiata (pannello inferiore, figura 1).

Un altro fattore importante per i risultati positivi negli studi sui corvi e sulle grandi scimmie è stato che la scelta degli oggetti corretti è stata premiata durante i test. Questo ha mantenuto alti i valori v e w per i comportamenti e gli oggetti corretti, rispettivamente. Questo spiega anche perché i corvi trascuravano la piccola ricompensa quando veniva presentata insieme agli oggetti funzionali (figura 1). Gli oggetti funzionali hanno portato a ricompense ripetutamente per tutto lo studio, quindi hanno acquisito alti valori di stimolo. Finché questi valori sono più alti del valore della piccola ricompensa, questi oggetti funzionali saranno scelti la maggior parte delle volte. Tuttavia, con il solo apprendimento stimolo-risposta – permettendo solo gli aggiornamenti dei valori v come nel modello Rescorla-Wagner – la piccola ricompensa sarà scelta perché questo modello manca di rinforzo condizionato (figura 2). Se si vuole evitare l’apprendimento durante i test, ci sono vantaggi nell’effettuare i test sotto estinzione, come per esempio negli studi di rivalutazione dei risultati (per esempio). In questo modo i test possono rivelare le conseguenze delle manipolazioni sperimentali precedenti.

I risultati supportano l’idea che l’autocontrollo sia emerso attraverso l’apprendimento associativo. Abbiamo precedentemente dimostrato come gli animali possono, attraverso l’apprendimento associativo, acquisire l’autocontrollo, dato che vengono fornite loro abbastanza informazioni ed esperienze. Kabadayi & Osvath non ha definito l’autocontrollo, ma in uno studio precedente lo ha definito come “la soppressione delle pulsioni immediate a favore di ricompense ritardate”. Questa visione funzionale dell’autocontrollo si adatta a molte descrizioni del comportamento nella letteratura sul comportamento animale. Osservazioni di animali che imparano a rifiutare piccole ricompense quando si aspettano grandi ricompense, o in altre parole rifiutano prede non redditizie quando le prede redditizie sono abbondanti, provengono per esempio da pesci (pesce luna Lepomis macrochirus, ), crostacei (granchi di riva, Carcinus maenas, , e uccelli (cince Parus major, e pettegolezzi Tringa totanus, ). Questi tipi di studi sono stati in gran parte ignorati negli studi in cui l’autocontrollo è spesso studiato come un tipo separato di meccanismo mentale e non qualcosa che è soggetto ad apprendimento (ad esempio). Invece, alla luce di queste simulazioni, i precedenti studi sull’autocontrollo nell’ambito della ricerca sulla cognizione animale (come ad esempio) possono essere meglio compresi come causati dall’apprendimento, compreso il rinforzo condizionato. L’autocontrollo può emergere attraverso l’acquisizione di alti valori di rinforzo condizionato per gli oggetti funzionali. L’oggetto funzionale diventa più prezioso di una piccola ricompensa. Ma l’autocontrollo può anche emergere se per esempio “aspettare” è considerato come un comportamento a sé stante. In questo caso, l’autocontrollo può emergere attraverso un aumento del valore v per “aspettare” in presenza di un particolare stimolo. L’autocontrollo nei gatti da caccia potrebbe emergere attraverso alti valori v per l’attesa in presenza di una preda lontana. Sono necessarie ulteriori ricerche per capire meglio come i diversi aspetti dei meccanismi di apprendimento interagiscono per dare origine ai modelli di autocontrollo. È probabile che le predisposizioni genetiche giochino un ruolo importante e interagiscano con le associazioni stimolo-risposta e i valori dello stimolo.

Un altro risultato importante è che la differenza tra le prestazioni dei corvi nell’esperimento 3 e nell’esperimento 4 è stata catturata dalle simulazioni. La ragione della performance perfetta nell’esperimento 4, sia nello studio del corvo che nella simulazione, era che il ritardo tra la scelta e il comportamento che porta alla ricompensa era stato omesso. Invece, c’era l’opportunità di usare l’oggetto per raccogliere una ricompensa subito dopo la scelta forzata. Per questo motivo, ogni prova portava potenzialmente direttamente alla ricompensa, mentre la scelta dell’oggetto corretto nell’esperimento 3 veniva premiata solo dopo il ritardo. O in altre parole, negli esperimenti 1-3, i corvi potevano ottenere una ricompensa solo ogni seconda volta che sceglievano l’oggetto corretto, mentre nell’esperimento 4 ottenevano ricompense ogni volta e subito dopo aver scelto e usato l’oggetto funzionale.

Una somiglianza tra il nostro modello di apprendimento e alcuni modelli di apprendimento per rinforzo nell’IA è che questi meccanismi permettono agli agenti e agli animali di identificare gli stati del mondo che sono preziosi, e quali comportamenti sono produttivi in questi stati preziosi. In senso operativo, questi modelli di apprendimento generano la pianificazione quando un comportamento (mettere in un apparecchio o dare all’uomo) verso uno stimolo (pietra o token) produrrà cibo di alto valore in una fase successiva. Questo accade nonostante il fatto che il cibo (o un altro stimolo gratificante) sia assente. Osvath & Kabadayi, in una risposta ai critici, ha definito la pianificazione flessibile come “prendere decisioni su futuri al di fuori del proprio attuale ambito sensoriale in domini per i quali non si è predisposti”. Indipendentemente dal fatto che i modelli provengano dall’IA o dal comportamento animale, quando il rinforzo condizionato è incluso nei modelli di apprendimento, i comportamenti di pianificazione che corrispondono a questa definizione emergeranno attraverso l’abile interazione dei valori stimolo-risposta e dei valori dello stimolo. La chiave è che gli stimoli attualmente disponibili possono fornire informazioni su quali comportamenti dovrebbero essere eseguiti per entrare in futuri stati di valore. Tuttavia, questi modelli di apprendimento non possono simulare mentalmente diversi risultati, non possono viaggiare mentalmente nel tempo, né riorganizzare internamente le informazioni. Per parafrasare Roberts, gli animali non umani possono essere ‘bloccati nel tempo’, pur esibendo un comportamento di pianificazione.

Mulcahy & Call ha tentato di escludere il condizionamento strumentale come spiegazione del comportamento delle scimmie eseguendo l’esperimento 4. Questa fase era simile all’esperimento 3, ma le scimmie non venivano premiate per l’uso dello strumento funzionale. Invece di una scimmia che entrava nella stanza con uno strumento funzionale che poteva essere usato per ottenere una ricompensa (come nell’esperimento 3), una scimmia entrava nella stanza e trovava una ricompensa se aveva portato lo strumento funzionale nella stanza del test dalla sala d’attesa. Si sosteneva che se le scimmie avessero fatto meglio negli altri esperimenti che in questo, ciò avrebbe suggerito che le scimmie avevano pianificato in modo flessibile. Mulcahy & Chiama concluse che i loro risultati “rappresentano un caso genuino di pianificazione futura”. L’avvocato del diavolo potrebbe identificare le differenze tra gli esperimenti 3 e 4, rendendo l’apprendimento una spiegazione più probabile. Nell’esperimento 3, le scimmie sono state esplicitamente premiate per l’uso dello strumento. Questo si traduce in un alto valore di rinforzo condizionato per lo strumento e un alto valore di stimolo-risposta per l’uso dello strumento sull’apparecchio. Nell’esperimento 4, tuttavia, Mulcahy & chiama per far notare che c’era un tempo più lungo tra la raccolta dell’attrezzo nella sala d’attesa, il trasporto dell’attrezzo nella sala di prova, per ottenere successivamente una ricompensa senza usare l’attrezzo. Forse la bassa performance nell’esperimento 4 è stata causata dalla connessione poco chiara tra lo strumento e la ricompensa, poiché il ritardo inibisce l’acquisizione di raccogliere lo strumento per ricevere successivamente una ricompensa. Condizioni di controllo adeguate sono importanti per consentire il rifiuto delle ipotesi senza ambiguità (ad esempio, le recenti discussioni in ). Il nostro modello di apprendimento può essere utilizzato nella ricerca futura per analizzare tali differenze comportamentali causate dalla variazione delle contingenze di apprendimento.

Le simulazioni mostrano che lo studio delle scimmie e quello dei corvi possono essere compresi attraverso l’apprendimento associativo. Tuttavia, i risultati di esperimenti con specialisti del caching, probabilmente dipendenti da specializzazioni genetiche, sono attualmente al di là della portata del nostro modello di apprendimento. Il comportamento di caching e il comportamento alimentare coinvolgono diversi stati motivazionali negli animali. Gli stati motivazionali possono essere considerati come stimoli interni e prontamente integrati in un modello di apprendimento associativo, che risulterebbe in una maggiore flessibilità in termini di decisioni di foraggiamento e caching. Il nostro modello non include diversi stati motivazionali nel suo stato attuale, ma abbiamo dato esempi di come le predisposizioni genetiche possono essere integrate nel modello. Una possibile soluzione sarebbe quella di introdurre la dipendenza dal contesto, in modo che l’esplorazione sia diversa per diversi stimoli esterni e/o per diversi stati interni. È importante che, quando si fanno ipotesi su meccanismi mentali più flessibili, si tenga conto dei maggiori costi di esplorazione che sono sostenuti da una maggiore flessibilità (vedi ). Ci aspettiamo che l’evoluzione abbia messo a punto predisposizioni genetiche che insieme all’apprendimento associativo generano comportamenti produttivi e specie-specifici.

Un altro punto importante per gli studi futuri è che quando gli animali imparano le conseguenze del comportamento, e i valori stimolo-risposta e i valori dello stimolo sono aggiornati, questi sono ricordi a lungo termine (ad esempio, vedi anche ). Un corvo addestrato a dare gettoni a un umano non dimentica semplicemente come farlo un giorno dopo. Comportamentalmente, la condizione di strumento dello studio del corvo è identica a quando i proprietari di cani insegnano agli amici pelosi a “pulire” mettendo i giocattoli in un cestino designato. Invece del corvo che viene premiato per aver messo una pietra in un apparecchio, il cane viene premiato per aver messo un giocattolo in un cestino. Tali memorie a lungo termine che vengono aggiornate attraverso l’apprendimento associativo sono molto diverse dalla memoria a breve termine di stimoli arbitrari .

In conclusione, lo sviluppo di modelli di apprendimento associativo è impressionante nella ricerca AI e i modelli si sono dimostrati potenti nel generare comportamenti complessi. Ci si può chiedere perché questi potenti modelli non sono più ampiamente applicati al comportamento degli animali non umani e perché questi modelli sono sottovalutati come causa del comportamento flessibile negli animali non umani. Questo è particolarmente rilevante dato che la ricerca nella cognizione animale in cui si afferma che gli animali non umani hanno intuizioni, mostrano un ragionamento causale e il piano è criticato regolarmente per soffrire di grandi affermazioni basate su una metodologia debole (ad esempio). Un modo per risolvere questo paradosso dell’apprendimento associativo è l’integrazione dei campi dell’IA, dell’apprendimento animale e della cognizione animale. Per comprendere i meccanismi che generano il comportamento, è probabile che i modelli associativi formali dal basso verso l’alto siano più illuminanti dei modelli cognitivi verbali di ordine superiore. Per esempio, perché questi ultimi modelli sono più difficili da rifiutare e non possono essere implementati in simulazioni o utilizzati nella costruzione di robot. Per riassumere, si conclude che non si può escludere che la pianificazione flessibile nelle scimmie e nei corvidi, e probabilmente in molte altre specie, emerga attraverso l’apprendimento associativo.

Accessibilità dei dati

Le figure e i dati delle simulazioni possono essere generati usando il software e il codice come specificato nel materiale supplementare elettronico.

Contributi degli autori

J.L. ha concepito la ricerca, eseguito le simulazioni al computer, analizzato i dati e scritto il manoscritto.

Interessi concorrenti

Non ci sono interessi concorrenti.

Finanziamento

Questo lavoro è stato sostenuto dalla Knut and Alice Wallenberg Foundation, KAW 2015.005.

Riconoscimenti

Grazie a Markus Jonsson, Magnus Enquist, Anna Jon-And e Stefano Ghirlanda. Grazie anche a due referee anonimi per i preziosi e penetranti commenti.

Footnotes

Il materiale supplementare elettronico è disponibile online a https://dx.doi.org/10.6084/m9.figshare.c.4302740.

Pubblicato dalla Royal Society secondo i termini della Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, che ne consente l’uso illimitato, a condizione che vengano citati l’autore originale e la fonte.

Mnih Vet al.2015Controllo a livello umano attraverso l’apprendimento di rinforzo profondo. Natura 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. Natura 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
Emery NJ, Clayton NS. 2004La mentalità dei corvi: evoluzione convergente dell’intelligenza nei corvidi e nelle scimmie. Scienza 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
Horner V, Carter JD, Suchak M, de Waal FB. 2011Spontaneous scelta prosociale da scimpanzé. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
MacLean ELet al.2014The evolution of self-control. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016Come gli scimpanzé cooperano in un mondo competitivo. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
Whiten A. 2017Social learning and culture in child and chimpanzee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
Allen C, Bekoff M. 1995Etologia cognitiva e l’intenzionalità del comportamento animale. Mente Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
Tomasello M, Call J. 1997Cognizione dei primati. Oxford, Regno Unito: Oxford University Press. Google Scholar
Mulcahy NJ, Call J. 2006Come le grandi scimmie si comportano in un compito modificato del tubo trappola. Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
Bird CD, Emery NJ. 2009Insightful problem solving e la modifica strumento creativo da prigioniero non strumento-utilizzando corvi. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
Uccello CD, Emery NJ. 2009Risposta a Lind et al.: intuizione e apprendimento. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Usando il paradigma della favola di Esopo per indagare la comprensione causale dello spostamento dell’acqua da parte dei corvi della Nuova Caledonia. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
Heyes C. 2012Menti semplici: una difesa qualificata di apprendimento associativo. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
Heyes C. 2012What’s social about social learning?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
Ghirlanda S, Enquist M, Lind J. 2013Coevolution di intelligenza, repertorio comportamentale, e la durata della vita. Theor. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
Koops K, Furuichi T, Hashimoto C. 2015Chimpanzé e bonobo differiscono nella motivazione intrinseca per l’uso degli strumenti. Sci. Rep. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behaviour. R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition. Oxford, Regno Unito: Oxford University Press. Crossref, Google Scholar
Carew TJ, Sahley CL. 1986Invertebrati apprendimento e memoria: dal comportamento alle molecole. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
Bouton ME. 2007Apprendimento e comportamento: una sintesi moderna. Sinauer, MA: Sunderland. Google Scholar
Lind J, Enquist M, Ghirlanda S. 2015Memoria animale: una revisione dei dati di corrispondenza ritardata al campione. Comportamento. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
Mulcahy NJ, Call J. 2006Apes salva strumenti per il futuro. Scienza 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
Naqshbandi M, Roberts WA. 2006Anticipazione di eventi futuri in scimmie scoiattolo (Saimiri sciureus) e ratti (Rattus norvegicus): prove dell’ipotesi di Bischof-Köhler. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Pianificazione per il futuro da scrub-jays occidentale. Natura 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobo e oranghi, ma non scimpanzé, pianificare in modo flessibile per il futuro in un compito di scambio di token. Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. Scienza 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
Premack D. 2007Cognizione umana e animale: continuità e discontinuità. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
Suddendorf T, Corballis MC. 2010Prove comportamentali per i viaggi mentali nel tempo negli animali non umani. Behav. Brain Res. 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
Cheke LG, Clayton NS. 2010Il viaggio nel tempo mentale negli animali. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
Suddendorf T, Bulley A, Miloyan B. 2018Prospettiva e selezione naturale. Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
Pearce JM. 2008Apprendimento e cognizione animale, 3rd edn. Hove, UK: Psychology Press. Google Scholar
Shettleworth S. 2010Cognizione, evoluzione e comportamento. Oxford, Regno Unito: Oxford University Press. Google Scholar
Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Comportamento 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
Eaton RL. 1970La sequenza predatoria, con enfasi sul comportamento di uccisione e la sua ontogenesi, nel ghepardo (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
Kelleher RT, Gollub LR. 1962Una revisione del rinforzo condizionato positivo. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
Mackintosh NJ. 1974La psicologia dell’apprendimento animale. Londra, Regno Unito: Stampa accademica. Google Scholar
Williams BA. 1994Rafforzamento condizionato: questioni sperimentali e teoriche. Behav. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Australia: Darlington Press. Google Scholar
Rescorla RA, Wagner AR. 1972Una teoria del condizionamento pavloviano: variazioni nell’efficacia del rinforzo e del non rinforzo. In Classical conditioning II: current research and theory (eds AH Black, WF Prokasy), pp. 64-99. New York, NY: Appleton-Century-Crofts. Google Scholar
Blough DS. 1975Dati di stato stazionario e un modello quantitativo di generalizzazione e discriminazione operante. J. Exp. Psychol. Anim. Behav. Processo. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
Sutton RS, Barto AG. 1998L’apprendimento di rinforzo. Cambridge, MA: MIT Press. Google Scholar
Balleine B, Dickinson A. 1991La performance strumentale dopo la svalutazione del rinforzo dipende dall’apprendimento degli incentivi. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
Dickinson A, Balleine B. 1994Controllo motivazionale dell’azione diretta all’obiettivo. Anim. Imparare. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) e orangutan (Pongo abelii) forethought: autocontrollo e pre-esperienza di fronte al futuro uso dello strumento. Anim. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
Werner EE, Hall DJ. 1974Optimal foraging e la selezione delle dimensioni della preda dal pesce luna bluegill (Lepomis macrochirus). Ecologia 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
Elner RW, Hughes RN. 1978Massimizzazione dell’energia nella dieta del granchio del litorale Carcinus maenas. J. Anim. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Selezione ottimale delle prede nella cinciallegra (Parus major). Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
Goss-Custard JD. 1977Optimal foraging e la selezione delle dimensioni dei vermi da parte della pettegola, Tringa totanus, nel campo. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
Osvath M, Kabadayi C. 2018Contrariamente al Vangelo, i corvi pianificano in modo flessibile. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
Barto AJ. 2003Apprendimento di rinforzo. In The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar
Roberts WA. 2002Gli animali sono bloccati nel tempo? Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
Ghirlanda S, Lind J. 2017Gli esperimenti della ‘favola di Esopo’ dimostrano un apprendimento per tentativi ed errori negli uccelli, ma nessuna comprensione causale. Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Le tecniche metanalitiche rivelano che il ragionamento causale dei corvidi nel paradigma della favola di Esopo è guidato dall’apprendimento trial-and-error. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays anticipare le esigenze future indipendentemente dal loro stato attuale motivazionale. Biologia corrente 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
Cheke LG, Clayton NS. 2012Le ghiandaie eurasiatiche (Garrulus glandarius) superano i loro desideri attuali per anticipare due distinti bisogni futuri e pianificarli in modo appropriato. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
Clayton NS, Dickinson A. 1999Controllo motivazionale del comportamento di caching nella ghiandaia Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
Skinner BF. 1950Le teorie dell’apprendimento sono necessarie? Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
Vaughan W, Greene SL. 1984Capacità di memoria visiva piccione. J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
Gleitman H. 1971Formazione dei ricordi a lungo termine negli animali. In Animal memory (eds W Honig, P James), pp. 1-44. New York, NY: Academic Press. Google Scholar
Penn DC, Holyoak KJ, Povinelli DJ. 2008L’errore di Darwin: spiegare la discontinuità tra le menti umane e non umane. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar
Wynne C. 2008Aping Language: un’analisi scettica delle prove del linguaggio dei primati non umani. Skeptic 13, 10-15. Google Scholar
Lind J, Ghirlanda S, Enquist M. 2009Insight apprendimento o formazione? Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
Shettleworth SJ. 2010Gli animali intelligenti e le spiegazioni killjoy in psicologia comparata. Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: is there really support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
Dymond S, Stewart I. 2016Relational and analogical reasoning in comparative cognition. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
Lindenfors P. 2017Cervelli di uccelli: i corvi sono intelligenti come sostengono alcuni scienziati? Skept. Mag. 22, 10-11. Google Scholar
Lind J, Enquist M. 2009È necessario un lavoro più sintetico. Adattare. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

Cosa può fare l’apprendimento associativo per la pianificazione?