O que a aprendizagem associativa pode fazer para o planejamento? | Royal Society Open Science

Introdução

Para o espanto do mundo, modelos de aprendizagem associativa usados na pesquisa de inteligência artificial (IA) agora atingem habilidades de nível humano em videogames e batem mestres humanos no jogo de tabuleiro chinês Go , xadrez e shogi . Apesar do fato de que a aprendizagem associativa dentro da pesquisa de IA é reconhecida por produzir um comportamento semelhante ao humano, a aprendizagem associativa ou não é mencionada (ex. ), ou é percebida como indesejável ou de sofisticação insuficiente (ex. ) para fornecer explicações para um comportamento flexível em animais não humanos. É um paradoxo intrigante que a aprendizagem associativa seja reconhecida por produzir comportamento flexível complexo dentro da pesquisa de IA, mas é frequentemente descartada e negligenciada como um modelo para comportamento flexível em sistemas biológicos (tanto humanos quanto não humanos).

Se o desenvolvimento de seqüências de comportamento em animais não humanos pode ser entendido em termos de aprendizagem associativa ou não tem conseqüências de longo alcance para nossa compreensão do estudo do comportamento. Se o comportamento percebido como avançado ou complexo, como o uso da ferramenta chimpanzé (Pan troglodytes), pode se desenvolver através de processos associativos, as diferenças de espécies podem ser buscadas em termos de diferenças genéticas nos repertórios comportamentais, tendências exploratórias como a curiosidade, e fatores motivacionais e atencionais. Se os processos associativos não são suficientes para explicar como a informação é processada e as memórias são atualizadas para gerar comportamentos, então mecanismos alternativos devem ser identificados para que possamos entender como tais comportamentos se desenvolvem. Hoje os pesquisadores têm visões muito contrastantes sobre esta questão. Por um lado, alguns sugerem que os processos associativos, juntamente com factores como o tamanho do repertório comportamental e a exploração, são poderosos e podem explicar uma grande parte de como os animais adquirem comportamentos (por exemplo). Por outro lado, outros enfatizam mecanismos alternativos e propõem que os animais têm muitos mecanismos diferentes que resolvem diferentes problemas específicos e que esses mecanismos são aperfeiçoados pela evolução (por exemplo ). Nem todos os estudos se enquadram nestas duas categorias e alguns estudos testam explicações alternativas e controle para a aprendizagem associativa. Contudo, é comum que tais estudos assumam apenas as formas mais simples de aprendizagem associativa. Isto provavelmente resultará em falsas rejeições de hipóteses de aprendizagem associativa. Isto porque a maioria dos vertebrados e invertebrados exibe capacidades tanto para a aprendizagem instrumental quanto para a aprendizagem pavloviana, que junto com memórias especializadas tornam a maioria dos animais capazes de aprendizagem mais complexa do que o que as formas mais simples de aprendizagem associativa permitem.

O objetivo deste estudo foi explorar se um modelo de aprendizagem, semelhante ao reforço da aprendizagem usada na pesquisa de IA, pode nos ajudar a entender a aquisição de comportamentos de planejamento em corvídeos e macacos, comportamentos por vezes percebidos como complexos e semelhantes aos humanos. Concluiu-se que várias espécies planejam flexivelmente para o futuro, não muito diferente dos humanos (por exemplo). A ideia é que este tipo de planeamento é o resultado de um mecanismo mental flexível que pode simular, mentalmente, estados futuros diferentes da informação actual. No entanto, estas afirmações têm sido contestadas com base em pelo menos duas linhas de argumentos diferentes. Primeiro, os pesquisadores têm levantado dúvidas sobre a capacidade geral de planejamento das aves, pois os estudos de planejamento em aves tipicamente envolvem especialistas em caching que realizam tarefas de caching, tais como os gaiolas de mato (Aphelocoma californica), gaiolas eurasiáticas (Garrulus glandarius) e gaiolas de galinha-preta (Poecile atricapillus). Estes resultados podem ser causados por reportórios de memória especializados (cf. ). A segunda razão para rejeitar a idéia de que animais não humanos planejam com flexibilidade é que o comportamento observado não foi causado por planejamento semelhante ao humano, mas é melhor entendido como resultados de aprendizagem associativa, e que as deficiências metodológicas tornam estes estudos equívocos .

Por que um modelo de aprendizagem associativa seria útil para entender o comportamento orientado para o futuro? A aprendizagem associativa é bem conhecida por causar comportamentos antecipatórios, comportamentos que podem prever eventos significativos posteriores sem benefícios imediatos . Além disso, o autocontrole, muitas vezes mencionado como importante para o planejamento, pode surgir através da aprendizagem associativa. Pode-se assumir que o auto-controle não é possível através da aprendizagem associativa, porque comportamentos imediatamente recompensados devem ser sempre preferidos a comportamentos não-recompensadores. Mas, para muitos animais, “esperar” ou “perseguir” são comportamentos que podem ser reforçados quando seguidos por possibilidades posteriores de recompensas. Por exemplo, predadores aprendem habilidades de perseguição e espera quando são jovens .

O modelo usado aqui é um modelo de aprendizagem associativa capaz de aprender o comportamento ideal em um mundo complexo . O modelo inclui duas memórias diferentes e um mecanismo de tomada de decisão. Uma memória armazena a força associativa do comportamento B para o estímulo S, e a outra memória armazena o valor estimado do estímulo S. O modelo pode aprender sequências de comportamento ligando comportamentos individuais através do reforço condicionado (reforço secundário). Desta forma, os estímulos inicialmente neutros que precedem os reforços primários podem tornar-se eles próprios reforços, modificando assim os comportamentos anteriormente não recompensados. Por exemplo, um coelho treinado pelo clicker tem ouvido cliques repetidamente antes das recompensas alimentares. Para este coelho, um clique se torna gratificante em si mesmo e o coelho aprenderá a realizar comportamentos que só resultam em que o coelho ouça um clique . O modelo é explicado na seção Material e métodos abaixo.

Aqui testei a hipótese de que um modelo de aprendizagem associativa pode dar conta dos resultados encontrados em estudos de planejamento não-humano. O modelo de aprendizagem foi utilizado para simular os resultados de dois estudos de planeamento, um com orangotangos (Pongo pygmaeus) e bonobos (Pan paniscus) e outro com corvos (Corvus corax) . As simulações foram encontradas para rastrear padrões chave dentro e entre estes estudos. Conclui-se que não se pode descartar que os estudos de planejamento flexível em macacos e corvídeos possam ser contabilizados pela aprendizagem associativa. Portanto, a aprendizagem associativa não pode apenas produzir comportamentos semelhantes aos humanos (por exemplo) mas é uma explicação candidata para observações de planeamento e auto-controlo em animais não humanos.

Material e métodos

Aqui descrevo o nosso modelo de aprendizagem , a lógica dos dois estudos diferentes que foram usados para as simulações, e detalhes das simulações.

2.1. Uma descrição do modelo

Um animal tem um repertório de comportamentos e pode usar seus comportamentos para navegar em um mundo de estados ambientais detectáveis. Um comportamento leva o animal de um estado para outro. Cada estado, ou estímulos, tem um valor de reforço primário que é fixado geneticamente. Estes valores podem ser negativos, neutros ou positivos, e orientam a aprendizagem para que comportamentos que favorecem a sobrevivência e a reprodução sejam promovidos. Presume-se que os animais fazem escolhas que maximizam o valor total, e as expectativas do valor de um estado futuro podem se desenvolver . O modelo pode assim gerar um comportamento orientado por objectivos (ver para outra discussão de comportamento e aprendizagem orientada por objectivos).

Em suma, o modelo descreve a aprendizagem de sequências de comportamento para estímulos através de mudanças na memória. Inclui decisões que levam em conta a memória para determinar qual comportamento deve ser selecionado quando um determinado estímulo é percebido. Por exemplo, a aprendizagem de um único comportamento, como quando um cão aprende a dar a pata em resposta ao comando ‘sacudir’. Levantar a pata é o comportamento, o comando ‘sacudir’ e a recompensa são estímulos. A sequência de eventos a aprender é: comando ‘shake’ → levantar a pata → recompensa, ou

Scommand ‘shake′→Blift paw→Sfood recompensa

O modelo recolhe informações sobre o valor da execução de comportamentos para diferentes estímulos (ou estados), e informações sobre o valor de diferentes estímulos (ou estar em estados específicos) . A aprendizagem ocorre através de actualizações de dois tipos diferentes de memórias. Estas memórias correspondem à aprendizagem pavloviana e instrumental e são actualizadas após uma sequência de eventos como no exemplo do cão, ou em termos gerais a sequência de eventos S → B → S′ S′. O primeiro tipo de memória é uma associação estímulo-resposta. Usamos vS→B para denotar a força associativa entre o estímulo S e o comportamento B. Em termos funcionais, vS→B pode ser descrito como o valor estimado do comportamento B ao perceber o estímulo S. A segunda memória armazena o valor de um estímulo. Usamos wS para denotar esse valor de estímulo e ele é atualizado de acordo com o valor de um estímulo subseqüente. Em outras palavras, wS é o valor de reforço condicionado de estar no estado S. Estas memórias são atualizadas de acordo com

ΔvS→B=αv(uS′+wS′-vS→B)andΔwS=αw(uS′+wS′-wS)}2.1

após experimentar a seqüência de eventos S → B → S′. A associação estímulo-resposta vS→B é atualizada de acordo com uS′ um valor fixo de estímulo primário inato S′, e wS′ o valor de reforço condicionado e a associação estímulo-resposta previamente armazenada vS→B. Com o reforço condicionado, o valor do comportamento B ao perceber o estímulo S é a soma do valor do reforço primário e condicionado do estímulo S′. Se apenas a primeira equação for usada e w for excluída, então ela representa a aprendizagem do estímulo-resposta instrumental, que é uma versão instrumental do modelo clássico de aprendizagem Rescorla-Wagner . As taxas de aprendizagem αv e αw determinam a taxa de atualização da memória.

Para que o modelo de aprendizagem gere e selecione o comportamento, é necessário um mecanismo para a tomada de decisão. Usamos um mecanismo de tomada de decisão que seleciona respostas comportamentais e causa alguma variação no comportamento através da exploração. Isto especifica a probabilidade de comportamento B no estado S como

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

que inclui um parâmetro β que regula a quantidade de exploração. Todos os comportamentos são igualmente susceptíveis de serem seleccionados se β = 0 sem ter em conta os valores estimados. Se β for grande, então o comportamento com o maior valor estimado (v) será selecionado principalmente.

Deixe-nos voltar ao cão para um exemplo prático. O cão ouve o comando ‘shake’, estímulo S. Se o cão move a pata para cima, ou seja, o comportamento B, ele receberá a recompensa S′. A recompensa alimentar S′ tem um valor inato primário u. Quando o cão recebe esta recompensa depois de ter respondido correctamente ao comando ‘shake’, o vcomando de memória de estímulo-resposta `shake′→lift pata irá aumentar de acordo com a linha superior da equação (2.1). Além disso, o valor do estímulo w do comando ‘shake’ será atualizado de acordo com a linha inferior da equação (2.1). Este valor w do comando ‘shake’ aproximar-se-á do valor u da recompensa do alimento, e assim ganhará propriedades de reforço por direito próprio; ele se tornou um reforço condicionado. O reforço condicionado pode preparar o caminho para aprender mais comportamentos antes de mover a pata para cima. Isto pode acontecer porque os comportamentos que resultam em que o cão ouve o comando ‘shake’ podem ser reforçados.

2.2. Simulando estudos de planejamento em grandes símios e corvos

As simulações dos experimentos de planejamento foram baseadas em descrições detalhadas do curso dos eventos nos dois estudos onde os principais eventos foram identificados. Os eventos chave incluíram quais comportamentos foram treinados antes dos testes e para quais objetos, e quais resultados resultaram de diferentes escolhas durante o pré-treinamento e testes. É importante identificar detalhes nesses estudos, pois as fases do teste incluíram uma mistura de ações recompensadoras e não-recompensadoras. Portanto, tanto os valores de estímulo-resposta (v) como os valores de estímulo (w) deveriam mudar ao longo dos testes.

Para ambos tornarem as simulações possíveis e realistas, foi assumido que os animais entraram nestes estudos com algumas habilidades necessárias no dia-a-dia. Assumiu-se que os animais tinham, por exemplo, aprendido previamente a segurar objectos, a mover-se entre salas e compartimentos, onde se localizavam coisas diferentes, e algumas habilidades básicas sobre como interagir com os experimentadores. Os macacos foram, por exemplo, expulsos da sala de testes após escolhas para mais tarde serem autorizados a voltar à sala de testes. Ignorando tais habilidades diárias, as simulações e as descrições de comportamento foram focalizadas nas sequências de comportamento únicas que os animais tiveram de aprender como parte das experiências.

Os dois estudos partilham características chave. Antes do início dos testes, os animais foram submetidos a pré-treinamento. Aqui eles aprenderam a realizar comportamentos mais tarde pontuados como correctos. Além do pré-treinamento de comportamentos corretos, o estudo de corvo também incluiu o treinamento de extinção. Durante o treinamento de extinção, os corvos tiveram a oportunidade de aprender que objetos não-funcionais não resultavam em recompensas. Os eventos chave em ambos os estudos usados para pontuar escolhas corretas vs. escolhas incorretas foram testes de escolha forçada. Aqui os animais eram forçados a escolher entre um objeto que tinham aprendido anteriormente poderia resultar em uma recompensa, versus outros objetos que não poderiam ser usados para recompensas posteriores (objetos de distração). Os corvos aprenderam durante o treino de extinção que estes objectos distractores não podiam resultar em recompensas. Após a escolha forçada, ambos os estudos incluíram um atraso de algum tempo, após o qual os animais foram autorizados a realizar um comportamento usando o objeto previamente escolhido. Se um animal fizesse uma escolha correta antes do atraso, poderia mais tarde usar o objeto escolhido para obter uma recompensa. Se um animal fez uma escolha incorreta antes do atraso, não houve oportunidades de recompensar comportamentos após o atraso.

As simulações realizadas seguiram a fase de pré-treinamento e fase de teste dos estudos. As comparações são feitas com níveis de chance de escolhas corretas estabelecidas pelos dois estudos. Mulcahy & Chamada esperada aos macacos para escolher o correcto por acaso 25% das vezes (um objecto funcional e três objectos distractores). Kabadayi & Osvath esperava que os corvos por acaso fizessem 25% das escolhas corretas nos experimentos 1 e 2, e 20% das escolhas corretas nos experimentos 3 e 4 (um objeto funcional e três objetos distração nos experimentos 1 e 2, e um objeto funcional, uma pequena recompensa e três objetos distração nos experimentos 3 e 4). Veja scripts de simulação para descrições exatas (veja material eletrônico suplementar). Para facilitar o acompanhamento das simulações aqui estão as descrições profundas dos dois estudos.

2.3. Uma descrição do estudo de Mulcahy e Call sobre grandes símios

Estes testes foram realizados com orangotangos e bonobos . O estudo começou com o pré-treinamento. Aqui um animal foi colocado numa sala de testes e treinado em duas tarefas diferentes de ferramentas para obter uma recompensa de um aparelho. Estas ferramentas funcionais serão referidas como objectos funcionais. Uma tarefa era escolher um tubo e inserir este tubo em um aparelho. A outra tarefa era escolher um gancho e usá-lo para chegar a uma garrafa que não poderia ser alcançada sem ter o gancho. Após o pré-treino, o animal foi submetido a um teste de escolha forçada entre objetos funcionais e três objetos não funcionais correspondentes (mais tarde referidos como objetos desviadores). Mas durante esta escolha forçada, o acesso ao aparelho que continha uma recompensa foi bloqueado. Após a escolha ter sido feita, o animal foi conduzido para fora da sala de testes para uma sala de espera. Objetos não levados pelo animal foram agora retirados da sala de testes. Nesta altura, houve um atraso. Após o atraso, o animal foi novamente autorizado a entrar na sala de testes e teve acesso ao aparelho. Se um objeto funcional tivesse sido escolhido no teste de escolha forçada, o animal poderia agora usar o objeto para obter uma recompensa, exibindo assim o comportamento que tinha aprendido durante o pré-treinamento.

Este estudo incluiu quatro testes que foram ligeiramente diferentes. Os testes variaram em relação a qual ferramenta era o objeto funcional e a duração dos atrasos. Além disso, no último teste, os animais não precisavam usar a ferramenta para obter uma recompensa. Note que aqui, no experimento 4, dois novos indivíduos foram usados e não participaram dos experimentos 1, 2 ou 3. Esta última parte foi de pouca importância aqui por razões mencionadas na secção de Resultados. As simulações seguiram a lógica do estudo, e aqui estão os detalhes dos principais eventos e atrasos utilizados na simulação:

Pré-formação: Antes dos testes, todos os sujeitos aprenderam a usar as ferramentas funcionais. Em duas etapas, um mínimo de três mais oito testes de pré-treinamento foram permitidos para a tarefa de tubo e um mínimo de cinco testes de pré-treinamento foram permitidos para a tarefa de gancho.
Experimento 1, condição de tubo: (1) Escolha forçada com tubo funcional e objetos de distração (16 tentativas). (2) Após a escolha, vá para outra sala. (3) Esperar 1 h. (4) Retornar e se o tubo funcional tivesse sido escolhido isto poderia ser usado para obter uma recompensa.
Experimento 2, condição de tubo: (1) Escolha forçada com tubo funcional e objetos de distração (12 tentativas). (2) Após a escolha, vá para outra sala. (3) Esperar 14 h. (4) Voltar e se o tubo funcional tivesse sido escolhido isto poderia ser usado para obter uma recompensa.
Experimento 3, condição de gancho: (1) Escolha forçada com gancho funcional e objectos distractores (16 tentativas). (2) Após a escolha, vá para outra sala. (3) Esperar 1 h. (4) Voltar e se o gancho funcional tivesse sido escolhido isto poderia ser usado para obter uma recompensa.
Experimento 4, condição do gancho: (1) Escolha forçada com gancho funcional e objetos de distração (16 tentativas). (2) Após a escolha, vá para outra sala. (3) Esperar 1 h. (4) Voltar e se o gancho funcional tivesse sido escolhido uma recompensa foi recebida sem usar o gancho.

As sequências de comportamento a aprender foram as seguintes:

Condição do tubo: Stube → Tubo de captação → Sapparatus → Tubo de captação → Sreward
Condição do gancho: Tremido → Gancho de captação → Sapparatus → Gancho de utilização → Sreward

Em ambas as condições, os macacos nunca foram recompensados por escolherem os objectos distractores, ou:

Distrctores: Sdistractor → Btake distractor → Sno reward

2.4. Uma descrição de Kabadayi & Estudo de Osvath sobre corvos

Estes testes foram realizados com corvos . Este estudo começou com o pré-treinamento. Aqui um animal foi colocado numa sala de testes e treinado em duas tarefas diferentes de ferramentas para obter uma recompensa de um aparelho. Como acima, as ferramentas funcionais serão referidas como objectos funcionais. Uma tarefa era colocar uma pedra em um aparelho para obter uma recompensa. A outra tarefa era pegar uma tampa de garrafa (chamada token) e dá-la a um humano. Em contraste com o estudo sobre os macacos, antes do início dos testes os corvos também eram permitidos ensaios de extinção. Aqui era permitido a um animal interagir com os objectos que estariam presentes durante os testes de escolha forçada, mas que nunca poderiam ser usados para obter recompensas (mais tarde referidos como objectos distractores). Após o pré-treinamento, o animal era submetido a um teste de escolha forçada entre um objeto funcional e três objetos distração. Depois de feita a escolha, o animal não pôde usar o objeto funcional por algum tempo. Em outras palavras, nenhuma recompensa poderia ser coletada imediatamente após o teste de escolha (com a exceção da experiência 4). Neste momento, houve um atraso. Após o atraso, o animal foi autorizado a usar o seu objecto escolhido. Se um objeto funcional tivesse sido escolhido no teste de escolha forçada, o animal poderia agora usar esse objeto para obter uma recompensa, exibindo assim o comportamento que tinha aprendido durante o pré-treinamento.

Este estudo também incluiu quatro testes que foram ligeiramente diferentes. Os testes variavam em relação ao número de testes, à duração dos atrasos e, no último teste, os animais não precisavam esperar antes de usar um objeto funcional para obter uma recompensa. Deve-se notar que neste estudo, foram utilizadas duas recompensas diferentes. Uma recompensa de alto valor foi usada no pré-treinamento e em todos os experimentos. E nos experimentos 3 e 4, uma recompensa conhecida de pouco valor foi usada na situação de escolha forçada ao lado da ferramenta funcional e dos objetos distração. Note que os experimentos não foram realizados na mesma ordem em que foram numerados no estudo publicado. Optei por apresentar os testes na ordem temporal em que foram realizados (1,3,2,4). As simulações seguiram a lógica do estudo, e aqui estão os detalhes dos eventos chave usados na simulação: os eventos chave antes e durante os experimentos foram:

Pré-treinamento: Antes dos testes, todos os sujeitos aprenderam a usar as ferramentas funcionais. Em duas etapas, foram permitidos um mínimo de três mais cinco ensaios de pré-treinamento para a tarefa da ferramenta e 35 ensaios de pré-treinamento para a tarefa simbólica.
Extinção: Nesta fase, os sujeitos foram autorizados a manipular objetos distração por 5 min sem receber nenhuma recompensa.
Experimento 1: (1) Escolha forçada com objeto funcional e objetos distração. 14 tentativas em condição de ferramenta e 12 × 3 tentativas em condição simbólica. (2) Esperar 15 minutos. (3) O objeto escolhido pode ser usado novamente, e se a pedra ou ficha tivesse sido escolhida ela poderia ser usada para obter uma recompensa.
Experimento 3: (1) Escolha forçada com objeto funcional, pequena recompensa e objetos distração. 14 tentativas em condição de ferramenta e 14 tentativas em condição simbólica. (2) Esperar 15 minutos. (3) O objeto escolhido pode ser usado novamente, e se a pedra ou ficha tivesse sido escolhida ela poderia ser usada para obter uma recompensa.
Experimento 2: (1) Escolha forçada com objeto funcional e objetos distração. 6 tentativas em condição de ferramenta e 6 tentativas em condição de ficha. (2) Esperar 17 h. (3) O objeto escolhido pode ser usado novamente, e se a pedra ou ficha tivesse sido escolhida poderia ser usada para obter uma recompensa.
Experimento 4: (1) Escolha forçada com objeto funcional, pequena recompensa, e objetos distração. 14 tentativas em condição de ferramenta e 14 tentativas em condição simbólica. (2). Se a pedra ou ficha tivesse sido escolhida poderia ser usada para obter uma recompensa.

As sequências de comportamento a aprender eram as seguintes:

Condição da ferramenta: Banqueta → Ferramenta Btake → Sapparatus → Ferramenta Buse → Sreward
Condição de golpe: Stoken → Btake token → Shuman → Bgive token → Sreward

Os corvos também foram ensinados durante uma fase de extinção que nunca foi gratificante escolher ou usar objetos distração. Este também foi o caso durante todos os testes, ou:

Distratores: Sdistractor → Btake distractor → Sno reward

Nas fases de auto-controlo do estudo, os corvos tiveram a oportunidade de escolher uma pequena recompensa que foi apresentada ao lado do objecto funcional (ferramenta ou ficha) e dos objectos distractores. Portanto, nas experiências 3 e 4, estas seqüências de comportamento também foram possíveis:

Condição da ferramenta: Sdog kibble → Btake small reward → Ssmall reward
Token condition: Sdog kibble → Btake pequena recompensa → Ssmall recompensa

2.5. Ilustração de atualizações de memória durante o pré-treinamento

Para ilustrar como essas seqüências de comportamento são afetadas pela aprendizagem, aqui está um exemplo de atualizações de memória para o pré-treinamento no estudo do corvo. A sequência de comportamento que se desenvolveu durante o pré-treino pode ser descrita como Stool → Btake tool → Sapparatus → Buse tool → Sreward onde o valor da inserção da pedra no aparelho aumentou, de modo que o vSapparatus → Buse tool≫0. Como o modelo também inclui reforço condicionado, o valor da própria pedra é atualizado de acordo com o valor do seguinte estímulo, a grande recompensa. Com experiências repetidas, o valor do estímulo (w) de Sreward fará com que o valor do estímulo de Stool cresça. Como mostrado em nossa descrição deste modelo , com experiências suficientes o valor da ferramenta se aproximará do valor da grande recompensa. Em contraste, as provas de extinção com repetidas experiências não recompensadas dos três objetos distração podem ser descritas como Sdistractor → Bpick distração → Sno recompensa. Esta sequência de eventos irá causar uma redução tanto na força associativa da escolha de um distractor vSdistractor → Bpick distractor e o valor de reforço condicionado (wdistractor) do distractor. Quando o primeiro teste começa com uma escolha forçada, o comportamento dos corvos foi influenciado pelo pré-treinamento tanto com a pedra quanto com os distractores.

2,6. Detalhes da simulação

O modelo acima foi incorporado em um programa Python onde o aprendizado ocorreu de acordo com os procedimentos detalhados dos dois estudos, conforme definido acima, para obter estimativas das probabilidades de escolha dos diferentes estímulos, e v- e w-valores, ao longo dos estudos. Foram realizados dois tipos de simulações. Primeiro foram realizadas simulações com o modelo completo e depois simulações sem valores de estímulo (w), ou seja, apenas permitindo a nossa versão de estímulo-aprendizagem de resposta usando apenas a primeira linha da equação (2.1) juntamente com a tomada de decisão (equação (2.2)). Isto foi feito para explorar diferenças entre nosso modelo que inclui o reforço condicionado e uma versão de aprendizagem estimulo-resposta sozinha. Essa versão de aprendizagem estimulo-resposta é idêntica à clássica regra de aprendizagem de Rescorla-Wagner, mas em nós a consideramos em termos de uma configuração instrumental em vez de uma configuração pavloviana.

Para explicar os atrasos, um passo de tempo por minuto foi incluído na simulação nos momentos de atraso. Durante esses passos de tempo, apenas um estímulo de fundo foi experimentado. Isto não é muito importante para as atualizações de memória, porque tanto as memórias de estímulo-resposta quanto as memórias de valor de estímulo são memórias de longo prazo. Que os animais lembram associações estímulo-resposta e valores de estímulo por muito tempo não foi mencionado em nenhum dos estudos simulados .

Os mesmos parâmetros de aprendizagem foram usados em todas as simulações. Todos os comportamentos começaram com um valor inicial de estímulo-resposta v = 1, tanto os valores v como w foram atualizados com a taxa de aprendizado α = 0,2, a exploração foi definida para β = 1, e as recompensas foram definidas para u = 6, além das recompensas de baixo valor nos experimentos 3 e 4 em Kabadayi & Osvath que foram definidas para u = 2. O custo de comportamento para todos os comportamentos foi de 0,1, exceto as respostas passivas que foram definidas como 0 (ver informação para todos os comportamentos e elementos de estímulo incluídos nas simulações no material eletrônico suplementar). Todas as simulações foram realizadas para 500 sujeitos e o número de testes seguiu aproximadamente o dos experimentos. O facto do número de ensaios não corresponder perfeitamente aos estudos empíricos deve-se à natureza probabilística da equação de tomada de decisão. A falta de informação dos valores iniciais dos animais dificulta as comparações quantitativas exactas.

Embora tanto os corvos como os macacos tivessem um passado rico, o comportamento aprendido anteriormente foi ignorado e os valores iniciais foram assumidos como sendo os mesmos para objectos distractores e objectos funcionais. Para ser conservador, todas as forças associativas entre comportamentos e estímulos foram assumidas como sendo iguais no início das simulações. Kabadayi & Osvath não calibrou as preferências dos corvos em relação ao valor das duas recompensas alimentares diferentes, pelo que não existe informação quantitativa sobre as diferenças entre as recompensas disponíveis. Eles afirmaram no método que a recompensa alimentar de alta qualidade era tanto maior como mais atractiva. Faltava informação exacta sobre a quantidade de extinção no estudo do corvo, por isso presumiu-se que os corvos tinham cinco experiências de extinção com os distractores.

Os comportamentos e elementos de estímulo utilizados nas simulações foram os seguintes:

2.6.1. Comportamentos

Mulcahy & Call Tube: take tube, use tube, take distractor, sendo passivo
Mulcahy & Call Hook: take hook, use hook, take distractor, sendo passivo
Kabadayi & Osvath Tool: tomar ferramenta, usar ferramenta, tomar distractor, ser passivo, tomar pequena recompensa
Kabadayi & Ficha Osvath: tomar ficha, usar ficha, tomar distractor, ser passivo, tomar pequena recompensa

2.6.2. Elementos de estímulo

Mulcahy & Call Tube: fundo, tubo, tarefa de tubo, distractor, recompensa
Mulcahy & Call Hook: fundo, gancho, tarefa de gancho, distractor, recompensa
Kabadayi & Osvath Tool: fundo, ferramenta, aparelho, distractor, recompensa, pequena recompensa
Kabadayi & Ficha Osvath: fundo, ficha, humano, distractor, recompensa, pequena recompensa

2.7. Dados dos estudos empíricos

Para comparar os resultados da simulação com os dados empíricos dos dois estudos, as médias foram calculadas a partir dos dados disponíveis nos dois respectivos estudos (ver figuras em Resultados). Isto resultou na proporção média de escolhas corretas e incorretas nos testes de escolha forçada. Note-se que o experimento 4 no estudo com macacos não envolveu nenhum comportamento correto usando a ferramenta ao retornar ao aparelho após o atraso, tornando este experimento difícil de interpretar. Além disso, os dados sobre escolhas para o experimento 4 não estavam disponíveis no texto, portanto, foram usados dados daquele ponto de dados. É lamentável misturar os dados desta maneira, mas eu escolhi isto a favor de deixar os dados do experimento 4 fora.

Resultados

Overtudo, as simulações corresponderam aos resultados tanto do estudo do corvo como do grande símio. As simulações mostram como dois fatores juntos podem contribuir para o comportamento futuro dirigido pelos grandes símios e corvos. Primeiro, os valores de reforço condicionado dos objectos funcionais, estabelecidos através do pré-treino e da extinção, foram capazes de conduzir as escolhas iniciais correctas. Isto é mostrado na figura 1 onde a proporção de escolhas corretas é mostrada. Em segundo lugar, as escolhas corretas foram recompensadas ao longo dos estudos, além do experimento 4 no experimento com macacos. Que o uso de objetos funcionais foi recompensador ao longo de todo o estudo foi suficiente para conduzir com desempenho bem acima dos níveis de chance (figura 1). No estudo corvo, as recompensas entregues durante o experimento são bem contabilizadas pelo desempenho quase perfeito nas duas partes finais desse estudo.

O ajuste foi bom entre os testes empíricos (mostrados como círculos preenchidos na figura 1) e simulações em que os objetos funcionais eram mais prováveis de serem escolhidos do que os objetos desviadores. As simulações também seguiram as tendências gerais de que o desempenho aumentou no grande estudo do macaco durante os experimentos 1 e 2 e que o desempenho foi reduzido no experimento 3. Embora as simulações subestimassem o desempenho na condição de ferramenta do estudo corvo, as simulações seguiram de perto o padrão em que o desempenho foi elevado no experimento 1, diminuído no experimento 3 para alcançar um desempenho quase perfeito no experimento 4. Uma razão para a simulação ter uma menor taxa de sucesso na condição da ferramenta poderia ser que os corvos estavam bem treinados e tinham uma rica experiência que é útil em situações de teste. Estas aves foram criadas por humanos e interagem regularmente com humanos. Elas também estão familiarizadas com muitos objetos diferentes, configurações experimentais e recompensas. Por outro lado, as simulações começaram assumindo que não tinham conhecimento prévio. Houve uma correspondência próxima entre as simulações e os dados empíricos para a condição simbólica, mas a redução no desempenho durante o experimento 3 foi maior nos dados empíricos.

As simulações também captaram que os grandes símios exibiram uma taxa geral de sucesso menor do que os corvos. Pelo menos dois fatores poderiam ter contribuído para essa diferença. Os macacos tiveram menos pré-treinamento que os corvos e, ao contrário dos corvos, os macacos não tiveram permissão para treinar a extinção com os objetos distração antes dos testes. Isto é mostrado na figura 1 onde a probabilidade de escolher o objecto correcto é muito maior no início da experiência 1 no estudo do corvo em comparação com o estudo do macaco. Que muitos testes pré-treino (35 na condição simbólica) combinados com testes de extinção podem resultar em alto desempenho nas escolhas forçadas é mais claramente mostrado na condição simbólica do estudo de corvo. Aqui a simulação acompanhou de perto a alta taxa de sucesso observada.

Treinamento de pré-treinamento e extinção não influenciou apenas a probabilidade de tomar decisões corretas. As simulações revelam como o pré-treinamento e a extinção também afetam a proporção de escolha dos objetos incorretos, tais como pequenas recompensas (figura 1). O efeito do pré-treinamento e da extinção foi mais pronunciado na condição simbólica do estudo do corvo, onde a simulação sugere que a probabilidade de os corvos escolherem as pequenas recompensas em vez dos objetos funcionais foi próxima de zero. A grande quantidade de experiências recompensadoras com os objetos funcionais (ferramenta e token) resultou em grandes valores de reforço condicionados para estes objetos (figura 2). As simulações corroboraram o padrão de que os corvos não escolheram pequenas recompensas em vez de objetos funcionais, e que se espera que o auto-controle surja do aprendizado associativo.

Figure 2. Resultados das simulações para permitir comparações entre os resultados do nosso modelo de aprendizagem que inclui reforço condicionado (valores de estímulo), com uma versão instrumental do modelo Rescorla-Wagner (R-W) . As simulações do estudo do corvo estão do lado esquerdo e as simulações do estudo do macaco estão do lado direito. Os painéis superiores mostram atualizações de memória: associações estímulo-resposta v para comportamentos em relação a objetos funcionais, e valores de estímulo w destes objetos. Como os objetos funcionais não são recompensadores, as simulações mostram que as associações estímulo-resposta para a escolha de objetos funcionais não se desenvolverão com o modelo de aprendizagem mais simples (R-W). E os painéis inferiores mostram que o modelo de aprendizagem estimulo-resposta (R-W) não pode reproduzir os padrões de comportamento observados nos dois estudos, em forte contraste com o nosso modelo de aprendizagem que permite o reforço condicionado. As fases experimentais são as mesmas da figura 1, mas aqui as fases não são mostradas para maior clareza. Note que os eixos X nos painéis certos estão quebrados porque o experimento 4 foi feito com novos indivíduos que só experimentaram pré-treinamento antes do experimento. Os gráficos de Raven e macaco foram baixados do openclipart.org.

O crescimento dos valores de estímulo-resposta e os valores de estímulo são mostrados no painel superior da figura 2.

Nota que o experimento 4 no grande estudo do macaco corresponde no mínimo às simulações. Aqui dois novos macacos foram autorizados a obter a recompensa sem usar a ferramenta anteriormente funcional e retornaram com uma ferramenta correta 2 de 16 vezes, menor do que na simulação. Esta diferença entre o teste empírico e a simulação poderia ser reduzida aumentando o custo do comportamento. Aumentar o custo de um comportamento que não leva a uma recompensa levará a uma redução na execução do comportamento. Mas não é claro o que esperar dos animais nesta situação quando os macacos enfrentam uma situação com uma conexão menos clara entre uma ferramenta e uma recompensa. E dois dos quatro macacos nunca tentaram resolver o problema. Para concluir, é difícil julgar a precisão e significado desse ponto de dados (ver ).

As simulações também mostram as diferenças entre modelos de aprendizagem associativa de complexidade diferente. Os limites da nossa versão de aprendizagem de estímulo-resposta tornam-se óbvios quando comparados com as simulações usando o nosso modelo de aprendizagem que incorpora tanto a aprendizagem pavloviana como a instrumental . Na aprendizagem só estímulo-resposta, as sequências de comportamento em que um comportamento não é imediatamente seguido por uma recompensa não podem ser aprendidas (figura 2). Para que as sequências de comportamento se desenvolvam, os estímulos mais de um passo antes da recompensa precisam de se tornar recompensadores através de um reforço condicionado. Quando um estímulo anteriormente neutro adquire um valor w positivo, ou seja, torna-se recompensador, pode impulsionar a aquisição de valores v positivos para comportamentos que não resultam em recompensas imediatas (painel superior na figura 2). Ao comparar nosso modelo que pode aprender seqüências de comportamento com a versão instrumental do modelo Rescorla-Wagner, fica claro que a probabilidade de escolher o estímulo correto não aumentará se só for permitida a aprendizagem de estímulo-resposta (figura 2). Além disso, como os valores v são atualizados apenas pelo reforço imediato na aprendizagem estimulo-resposta, isto também tem como conseqüência que a pequena recompensa será escolhida a favor do símbolo e da ferramenta, já que o símbolo e a ferramenta não podem se tornar estímulos valiosos. Isto é mostrado na figura 2, uma vez que a escolha incorrecta de pequenas recompensas aumenta ao longo das provas quando apenas a nossa versão de estímulo-aprendizagem de estímulo-resposta é permitida (marcada com R-W na figura 2). A aprendizagem de estímulo-resposta por si só não poderia contabilizar os resultados nem no estudo do corvo nem no estudo do macaco.

Discussão

Simulações dos dois estudos de planejamento sobre corvos e grandes símios sugerem que o comportamento anteriormente afirmado como tendo sido gerado pelo planejamento flexível pode ser contabilizado pela aprendizagem associativa. Como demonstrado em pesquisas de inteligência artificial e de comportamento animal, estes modelos de aprendizagem associativa são poderosos na geração de seqüências de comportamento flexível. Portanto, a conclusão tirada nos estudos com corvos e grandes macacos , que corvos e macacos resolvem estes problemas através de um mecanismo específico de flexibilidade, tem pouco apoio. As simulações aqui realizadas apoiam os críticos que interpretaram estes resultados como consequências da aprendizagem associativa. Se futuros estudos visarem distinguir os processos associativos de outros tipos de mecanismos mentais, eles se beneficiariam de um desenho experimental melhorado, incluindo controles adequados aproveitando modelos de aprendizagem de última geração.

Foi interessante notar que as simulações captaram a diferença entre o estudo sobre corvos e grandes símios. Isto sugere que as simulações capturaram bem os efeitos das fases de pré-treinamento, extinção e recompensas ao longo dos estudos. Valores altos de reforço condicionado (w-values) para os objetos corretos (ferramenta e ficha) e baixos valores para os objetos distração foram estabelecidos antes dos primeiros testes (figura 2). Isto foi especialmente óbvio na parte simbólica do experimento corvo onde os corvos foram submetidos a 35 testes pré-treinamento onde a seqüência de comportamento Stoken → Btake token → Shuman → Bgive token → Sreward foi consistentemente recompensado (painel inferior, figura 1).

Outro fator importante para os resultados positivos no corvo e grandes estudos com símio foi que a escolha dos objetos corretos foi recompensada ao longo dos testes. Isto manteve altos valores v- e w para comportamentos e objetos corretos, respectivamente. Isto também explica porque os corvos negligenciaram a pequena recompensa quando apresentados junto com os objetos funcionais (figura 1). Os objetos funcionais levaram a recompensas repetidamente ao longo do estudo para que tivessem adquirido altos valores de estímulo. Desde que estes valores sejam superiores ao valor da pequena recompensa, estes objectos funcionais serão escolhidos a maior parte do tempo. No entanto, com apenas estímulo-aprendizagem de resposta, permitindo apenas a actualização dos valores de v como no modelo Rescorla-Wagner, a pequena recompensa será escolhida porque este modelo carece de um reforço condicionado (figura 2). Se se quiser evitar a aprendizagem durante os testes, há benefícios em realizar testes em extinção, como por exemplo em estudos de revalorização de resultados (por exemplo). Desta forma, os testes podem revelar as consequências de manipulações experimentais anteriores.

Os resultados apoiam a ideia de que o auto-controlo surgiu através da aprendizagem associativa. Mostramos anteriormente como os animais podem, através da aprendizagem associativa, adquirir auto-controlo, uma vez que lhes são fornecidas informações e experiências suficientes. Kabadayi & Osvath não definiu auto-controle, mas num estudo anterior eles o definiram como ‘ a supressão de impulsos imediatos em favor de recompensas retardadas’. Esta visão funcional do auto-controle se encaixa em muitas descrições de comportamento na literatura sobre comportamento animal. Observações de animais que aprendem a rejeitar pequenas recompensas quando esperam grandes recompensas, ou por outras palavras, rejeitam presas não lucrativas quando as presas lucrativas são abundantes, provêm, por exemplo, de peixes (peixe soleiro Lepomis macrochirus, ), crustáceos (caranguejos costeiros, Carcinus maenas, , e aves (grandes mamas Parus major, e tringa totanus, ). Estes tipos de estudos têm sido em grande medida ignorados em estudos onde o auto-controle é frequentemente estudado como um tipo separado de mecanismo mental e não algo que está sujeito a aprendizagem (por exemplo). Ao invés disso, à luz destas simulações, estudos prévios de auto-controle dentro da pesquisa da cognição animal (como por exemplo ) podem ser melhor entendidos como sendo causados pela aprendizagem incluindo reforço condicionado .

Teóricamente, o auto-controle pode se desenvolver em mais de uma maneira. O auto-controlo pode surgir através da aquisição de valores de reforço condicionados elevados para os objectos funcionais. O objecto funcional torna-se mais valioso do que uma pequena recompensa. Mas o auto-controle também pode emergir se, por exemplo, ‘esperar’ for considerado como um comportamento por direito próprio. Neste caso, o auto-controle pode emergir através de um aumento do valor v para ‘esperar’ na presença de um determinado estímulo. O auto-controle na caça de gatos pode emergir através de altos valores de v-valor para a espera quando sujeito a uma presa que está longe. Mais pesquisa é necessária para entender melhor como diferentes aspectos dos mecanismos de aprendizagem interagem para dar origem a padrões de auto-controle. As predisposições genéticas são susceptíveis de desempenhar um grande papel e interagir com associações estímulo-resposta e valores de estímulo.

Outro resultado importante foi que a diferença entre o desempenho dos corvos na experiência 3 e na experiência 4 foi capturada pelas simulações. A razão para o desempenho perfeito no experimento 4, tanto no estudo do corvo quanto na simulação, foi que o atraso entre a escolha e o comportamento, resultando em recompensa, foi omitido. Ao invés disso, houve uma oportunidade de usar o objeto para coletar uma recompensa logo após a escolha forçada. Por esta razão, cada tentativa levou potencialmente directamente a recompensas, enquanto que a escolha do objecto correcto na experiência 3 só foi recompensada após o atraso. Ou em outras palavras, nos experimentos 1-3, os corvos só podiam receber uma recompensa a cada segundo que escolhessem o objeto correto, enquanto no experimento 4 eles recebiam recompensas a cada vez e imediatamente após terem escolhido e usado o item funcional.

Uma semelhança entre nosso modelo de aprendizado e alguns modelos de aprendizado de reforço em IA é que esses mecanismos permitem que agentes e animais identifiquem estados mundiais que são valiosos, e quais comportamentos são produtivos nesses estados valiosos. Em um sentido operacional, esses modelos de aprendizagem geram planejamento quando um comportamento (colocado em aparelhos ou dado ao ser humano) em direção a um estímulo (pedra ou ficha) produzirá alimentos de alto valor em um estágio posterior. Isto acontece apesar de que o alimento (ou outro estímulo gratificante) esteja ausente. Osvath & Kabadayi , em resposta aos críticos , definiu planejamento flexível como ‘tomar decisões sobre futuros fora do escopo sensorial atual em domínios para os quais não se está predisposto’. Independentemente dos modelos serem provenientes da IA ou do comportamento animal , quando o reforço condicionado é incluído nos modelos de aprendizagem, os comportamentos de planeamento que correspondem a esta definição emergirão através da interacção inteligente de valores de estímulo-resposta e valores de estímulo. A chave é que os estímulos atualmente disponíveis podem fornecer informações sobre quais comportamentos devem ser realizados para entrar em futuros estados de valor. Contudo, estes modelos de aprendizagem não podem simular mentalmente resultados diferentes, não podem viajar mentalmente no tempo, nem reorganizar a informação internamente. Parafraseando Roberts , animais não humanos podem ficar ‘presos no tempo’, enquanto ainda exibem comportamento de planejamento.

Mulcahy & Chamada tentativa de descartar condicionamento instrumental como uma explicação para o comportamento dos macacos, realizando a experiência 4. Esta fase foi semelhante ao experimento 3, mas os macacos não foram recompensados por utilizarem a ferramenta funcional. Em vez de um macaco entrar na sala com uma ferramenta funcional que podia ser usada para obter uma recompensa (como na experiência 3), um macaco entrou na sala e encontrou uma recompensa se tivesse levado a ferramenta funcional para a sala de testes a partir da sala de espera. Foi argumentado que se os macacos tivessem um desempenho melhor nos outros experimentos do que neste, isso sugeriria que os macacos planejassem flexivelmente. Mulcahy & Call concluiu que seus resultados ‘representam um caso genuíno de planejamento futuro’. Um defensor do diabo poderia identificar diferenças entre os experimentos 3 e 4, tornando a aprendizagem uma explicação mais provável. No experimento 3, os macacos foram explicitamente recompensados pelo uso da ferramenta. Isto resulta em um alto valor de reforço condicionado para a ferramenta e um alto valor de estímulo-resposta para o uso da ferramenta no aparelho. No experimento 4, no entanto, Mulcahy & Call aponta que houve um tempo maior entre pegar a ferramenta na sala de espera, levando a ferramenta para a sala de testes, para posteriormente obter uma recompensa sem usar a ferramenta. Talvez o baixo desempenho no experimento 4 tenha sido causado pela conexão pouco clara entre a ferramenta e a recompensa, já que o atraso inibe a aquisição da ferramenta para mais tarde receber uma recompensa. Condições de controle adequadas são importantes para permitir a rejeição de hipóteses sem ambiguidade (por exemplo, discussões recentes em ). Nosso modelo de aprendizagem pode ser usado em pesquisas futuras para analisar tais diferenças comportamentais causadas pela variação nas contingências de aprendizagem.

As simulações mostram que o estudo do macaco e o estudo do corvo podem ser compreendidos através da aprendizagem associativa. No entanto, os resultados de experimentos com especialistas em caching, provavelmente dependentes de especializações genéticas, estão atualmente fora do escopo do nosso modelo de aprendizagem. O comportamento de caching e o comportamento alimentar envolvem diferentes estados motivacionais em animais. Os estados motivacionais podem ser considerados como estímulos internos e facilmente integrados num modelo de aprendizagem associativa, o que resultaria numa maior flexibilidade em termos de tomada de decisões de forrageamento e de caching. O nosso modelo não inclui diferentes estados motivacionais no seu estado actual, mas demos exemplos de como as predisposições genéticas podem ser integradas com o modelo . Uma solução possível seria introduzir a dependência do contexto, de modo que a exploração seja diferente para diferentes estímulos externos e/ou para diferentes estados internos. É importante que, ao fazer suposições sobre mecanismos mentais mais flexíveis, os maiores custos de exploração que são incorridos por uma maior flexibilidade precisam ser levados em conta (ver ). Esperamos que a evolução tenha aperfeiçoado as predisposições genéticas que, juntamente com a aprendizagem associativa, geram comportamentos produtivos e específicos da espécie.

Outro ponto importante para estudos futuros é que quando os animais aprendem sobre as consequências do comportamento, e os valores de estímulo-resposta e de estímulo são atualizados, estes são memórias de longo prazo (por exemplo, ver também ). Um corvo treinado para dar fichas a um humano não esquece simplesmente como fazer isso um dia depois. Comportamentalmente, a condição de ferramenta do estudo do corvo é idêntica a quando os donos de cães ensinam os amigos peludos a “limpar”, colocando os brinquedos numa cesta designada. Em vez do corvo ser recompensado por colocar uma pedra num aparelho, um cão recebe uma recompensa por colocar um brinquedo numa cesta. Tais memórias de longo prazo que são atualizadas através da aprendizagem associativa são muito diferentes da memória de curto prazo de estímulos arbitrários .

Em conclusão, o desenvolvimento de modelos de aprendizagem associativa é impressionante na pesquisa de IA e modelos têm se mostrado poderosos na geração de comportamento complexo. Pode-se perguntar porque esses modelos poderosos não são mais amplamente aplicados ao comportamento animal não-humano e porque esses modelos são subestimados como uma causa de comportamento flexível em animais não-humanos. Isto é especialmente relevante dado que a pesquisa na cognição animal onde animais não-humanos são afirmados como tendo percepções, exibem raciocínio causal, e o plano é criticado regularmente por sofrer de grandes alegações baseadas em uma metodologia fraca (por exemplo, ). Uma maneira de resolver este paradoxo de aprendizagem associativa é integrando os campos da IA, aprendizagem animal, e cognição animal. Para entender mecanismos geradores de comportamento, modelos associativos formais de baixo para cima são provavelmente mais esclarecedores do que modelos cognitivos verbais de ‘ordem mais alta’ de cima para baixo. Por exemplo, porque estes últimos modelos são mais difíceis de rejeitar e não podem ser implementados em simulações ou usados na construção de robôs. Em resumo, conclui-se que não se pode descartar que o planejamento flexível em macacos e corvídeos, e provavelmente em muitas outras espécies, emerge através do aprendizado associativo.

Acessibilidade de dados

Figuras e dados de simulações podem ser gerados usando software e código como especificado no material eletrônico suplementar.

A contribuições dos autores

J.L. Concebeu a pesquisa, realizou simulações em computador, analisou dados e escreveu o manuscrito.

Interesses concorrentes

Não há interesses concorrentes.

Funding

Este trabalho foi apoiado pela Knut and Alice Wallenberg Foundation, KAW 2015.005.

Acknowledgements

Abrescimento a Markus Jonsson, Magnus Enquist, Anna Jon-And e Stefano Ghirlanda. Obrigado também a dois árbitros anónimos por comentários valiosos e perspicazes.

Pés

Electronic supplementary material is available online at https://dx.doi.org/10.6084/m9.figshare.c.4302740.

Publicado pela Royal Society sob os termos da Licença de Atribuição Creative Commons http://creativecommons.org/licenses/by/4.0/, que permite o uso sem restrições, desde que o autor original e a fonte sejam creditados.

Mnih Vet al.2015Controlo a nível humano através de uma aprendizagem de reforço profundo. Natureza 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
Silver Det al.2016Masterizando o jogo de Go com redes neurais profundas e pesquisa de árvores. Natureza 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
Silver Det al.2017Mastering xadrez e shogi por auto-jogo com um algoritmo de aprendizagem de reforço geral. (http://arxiv.org/abs/1712.01815). Google Scholar
Emery NJ, Clayton NS. 2004A mentalidade dos corvos: evolução convergente da inteligência em corvos-marinhos e macacos. Ciência 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
Horner V, Carter JD, Suchak M, de Waal FB. 2011Opção prosocial espontânea dos chimpanzés. Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
MacLean ELet al.2014A evolução do auto-controle. Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB. 2016 Como os chimpanzés cooperam em um mundo competitivo. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
Whiten A. 2017A aprendizagem e cultura social na criança e no chimpanzé. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
Allen C, Bekoff M. 1995Etologia cognitiva e a intencionalidade do comportamento animal. Mente Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
Tomasello M, Call J. 1997Primate cognition. Oxford, Reino Unido: Oxford University Press. Google Scholar
Mulcahy NJ, Call J. 2006Como os grandes símios se comportam em uma tarefa de armadilha modificada. Animais. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
Bird CD, Emery NJ. 2009Resolução de problemas e modificação criativa de ferramentas através de torres de não utilização de ferramentas em cativeiro. Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
Bird CD, Emery NJ. 2009Resposta a Lind et al.: insight e aprendizagem. Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Usando o paradigma da fábula de Esopo para investigar o entendimento causal do deslocamento da água pelos corvos da Nova Caledônia. PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
Heyes C. 2012Mentes simples: uma defesa qualificada da aprendizagem associativa. Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
Heyes C. 2012O que é social na aprendizagem social?J. Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
Ghirlanda S, Enquist M, Lind J. 2013Coevolução da inteligência, repertório comportamental, e tempo de vida. Teoria. Popul. Biol. 91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees e bonobos diferem na motivação intrínseca para o uso de ferramentas. Rep. Sci. 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
Enquistar M, Lind J, Ghirlanda S. 2016O poder da aprendizagem associativa e a ontogenia do comportamento ideal. R. Soc. ciência aberta. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
McCormack T, Hoerl C, Butterfill S. 2011O uso da ferramenta e a cognição causal. Oxford, Reino Unido: Oxford University Press. Crossref, Google Scholar

Carew TJ, Sahley CL. 1986Invertebrar aprendizagem e memória: do comportamento às moléculas. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar

Bouton ME. 2007Aprendizagem e comportamento: uma síntese moderna. Sinauer, MA: Sunderland. Google Scholar

Lind J, Enquist M, Ghirlanda S. 2015Memória animal: uma revisão dos dados de correspondência atrasada com a amostra. Comportamento. Processos 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar

Mulcahy NJ, Call J. 2006Apes save tools for future use. Science 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar

Naqshbandi M, Roberts WA. 2006Anticipação de eventos futuros em macacos-esquilo (Saimiri sciureus) e ratos (Rattus norvegicus): testes da hipótese de Bischof-Köhler. J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar

Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007Planning for the future by western scrub-jays. Natureza 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar

Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobos e orangotangos, mas não chimpanzés, planear flexivelmente o futuro numa tarefa de troca de fichas. Animais. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar

Kabadayi C, Osvath M. 2017Ravens paralelos grandes símios em planejamento flexível para uso de ferramentas e troca de ferramentas. Ciência 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar

Premack D. 2007Cognição humana e animal: continuidade e descontinuidade. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar

Suddendorf T, Corballis MC. 2010Provas comportamentais para viagens no tempo mental em animais não-humanos. Comportamento. Res. Cerebral 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar

Suddendorf T, Corballis MC, Collier-Baker E. 2009Como é grande a previsão do macaco?Animais. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar

Cheke LG, Clayton NS. 2010Viagens no tempo mental em animais. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar

Redshaw J, Taylor AH, Suddendorf T. 2017Planeamento flexível em corvos?Tendências Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar

Suddendorf T, Bulley A, Miloyan B. 2018Prospecção e seleção natural. Moeda. Opinião. Comportamento. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar

Pearce JM. 2008Aprendizagem e cognição anímica, 3ª edn. Hove, UK: Psychology Press. Google Scholar

Shettleworth S. 2010Cognição, evolução, e comportamento. Oxford, Reino Unido: Oxford University Press. Google Scholar

Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Comportamento 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar

Eaton RL. 1970A sequência predatória, com ênfase no comportamento assassino e sua ontogenia, na chita (Acinonyx jubatus Schreber). Zeitschrift für Tierpsychologie 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar

Kelleher RT, Gollub LR. 1962A revisão do reforço com condicionamento positivo. J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar

Mackintosh NJ. 1974A psicologia da aprendizagem animal. Londres, Reino Unido: Imprensa Académica. Bolsista do Google

Williams BA. 1994 Reforço condicionado: questões experimentais e teóricas. Comportamento. Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar

McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training. Sydney, Austrália: Darlington Press. Google Scholar

Rescorla RA, Wagner AR. 1972A teoria do condicionamento pavloviano: variações na eficácia do reforço e da não-reforço. In Classical conditioning II: current research and theory (eds AH Black, WF Prokasy), pp. 64-99. Nova York, NY: Appleton-Century-Crofts. Google Scholar

Blough DS. 1975Dados de estado estável e um modelo quantitativo de generalização e discriminação operante. J. Exp. Psychol. Animais. Comportamento. Processo. 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar

Sutton RS, Barto AG. 1998Aprendizagem de reforço. Cambridge, MA: MIT Press. Google Scholar

Balleine B, Dickinson A. 1991A performance instrumental após a desvalorização do reforço depende da aprendizagem de incentivo. P. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar

Dickinson A, Balleine B. 1994Controle motivacional da ação direcionada por metas. Animais. Aprenda. Comportamento. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar

Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) e orangotango (Pongo abelii) forethought: self-control and pre-experience in the face of future tool use. Animais. Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar

Werner EE, Hall DJ. 1974Optimal foraging and the size selection of presy by the bluegill sunfish (Lepomis macrochirus). Ecologia 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar

Elner RW, Hughes RN. 1978Máximo de energia na dieta do caranguejo da costa Carcinus maenas. J. Animais. Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar

Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977Optimização da seleção de presas na grande mama (Parus major). Animais. Comportamento. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar

Goss-Custard JD. 1977Optimal foraging and the size selection of worms by redshank, Tringa totanus, in the field. Animais. O comportamento. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar

Osvath M, Kabadayi C. 2018Contrário ao evangelho, os corvos fazem planos com flexibilidade. Tendências Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar

Barto AJ. 2003Aprendizagem de Reforço. In The handbook of brain theory and neural networks (ed. MA Arbib), pp. 963-968. Cambridge, MA: MIT Press. Google Scholar

Roberts WA. 2002Os animais estão presos no tempo? Psychol. Touro. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar

Ghirlanda S, Lind J. 2017’Aesop’s fable’ experimentos demonstram a aprendizagem do julgamento e do erro em pássaros, mas sem compreensão das causas. Animais. Comportamento. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar

Hennefield L, Hwang HG, Weston SJ, Povinelli DJ. 2018Técnicas analíticaseta revelam que o raciocínio causal corvídeo no paradigma da fábula de Esopo é impulsionado pela aprendizagem do trial-and-error. Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar

Correia SP, Dickinson A, Clayton NS. 2007Western scrub-jays antecipam as necessidades futuras independentemente do seu estado motivacional actual. Biologia Atual 17, 856-861. (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar

Cheke LG, Clayton NS. 2012Os jays euro-asiáticos (Garrulus glandarius) superam seus desejos atuais de antecipar duas necessidades futuras distintas e planejam para eles adequadamente. Biol. Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar

Clayton NS, Dickinson A. 1999Controle motivacional do comportamento de cache no scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar

Skinner BF. 1950As teorias da aprendizagem são necessárias? Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar

Vaughan W, Greene SL. 1984Capacidade de memória visual do pombo. J. Exp. Psychol. Anim. Behav. Processo. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar

Gleitman H. 1971Esquecimento de memórias de longo prazo em animais. Em Animal memory (eds W Honig, P James), pp. 1-44. Nova York, NY: Academic Press. Google Scholar

Penn DC, Holyoak KJ, Povinelli DJ. 2008Encómio de Darwin: explicar a descontinuidade entre mentes humanas e não-humanas. Behav. Brain Sci. 31, 109-130. Crossref, PubMed, ISI, Google Scholar

Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language. Céptico 13, 10-15. Google Scholar

Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar

Shettleworth SJ. 2010Explicações sobre animais espertos e alegria de matar em psicologia comparativa. Tendências Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar

Manger P. 2013Questionando as interpretações das observações comportamentais dos cetáceos: existe realmente suporte para um estatuto intelectual especial para esta ordem mamífera?Neurociência 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar

Dymond S, Stewart I. 2016Relacional e analógico no raciocínio comparativo da cognição. Int. J. Comp. Psychol. 29, 1-11. Google Scholar

Lindenfors P. 2017Cérebro de pássaro: são corvos tão inteligentes como alguns cientistas afirmam?Skept. Mag. 22, 10-11. Google Scholar

Lind J, Enquist M. 2009Mais trabalho sintético é necessário. Adaptar. Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

O que pode a aprendizagem associativa fazer para o planejamento?