What can associative learning do for planning?

はじめに

世界中の驚きをもって、人工知能(AI)の研究で使われる連想学習モデルは、ビデオゲームで人間レベルのスキルを達成し、中国のボードゲームの囲碁、チェス、将棋で人間のマスターを打ち負かすようになっています。 AI研究において連想学習が人間のような行動を生み出すことが認められているにもかかわらず、連想学習はしばしば言及されないか(例えば)、人間以外の動物の柔軟な行動を説明するのに不要なもの、あるいは洗練されていないもの(例えば)として認識されている。 AI研究において、連想学習が複雑な柔軟な行動を生み出すことが認められている一方で、生物系(ヒトとヒト以外の動物の両方)における柔軟な行動のモデルとしては、しばしば否定され、無視されるというのは興味深いパラドックスです。

ヒト以外の動物における行動系列の発達が連想学習の観点から理解できるかどうかは、行動研究に対する我々の理解に広範囲な結果をもたらします。 チンパンジーの道具使用など、高度で複雑と認識される行動が連想プロセスによって発達しうるならば、行動レパートリーの遺伝的差異、好奇心などの探索傾向、動機づけや注意の要因から種差を追求することができる。 もし、行動を生み出すために情報がどのように処理され、記憶がどのように更新されるかを説明するのに、連想プロセスが十分でないとすれば、そのような行動がどのように発達するかを理解するためには、別のメカニズムを特定しなければならない。 この問題に関して、今日の研究者たちは非常に対照的な見解を持っている。 一方では、連想プロセスと行動レパートリーの大きさや探索などの要因が強力であり、動物が行動を獲得する方法の多くを説明できると指摘する者もいる(例えば、)。 これに対して、別のメカニズムを強調し、動物は異なる特定の問題を解決する多くの異なるメカニズムを持っており、これらのメカニズムは進化によって微調整されていると提案する者もいる(e.g. )。 すべての研究がこの2つに分類されるわけではなく、代替的な説明を検証し、連想学習を制御する研究もある。 しかし、そのような研究では、最も単純な形の連想学習しか想定していないのが普通である。 これは、連想学習仮説を誤って否定する結果になりやすい。 本研究の目的は、AI研究で用いられる強化学習と同様の学習モデルが、複雑で人間に近い行動と認識されることもある、ハ虫類や類人猿の計画行動の獲得について理解するのに役立つかどうかを探ることであった。 いくつかの種は、人間とは異なり、将来について柔軟に計画を立てていると結論付けられている(例えば、)。 このような計画は、現在の情報から異なる未来の状態を精神的にシミュレートできる柔軟な精神メカニズムの成果であるという考え方である。 しかし、これらの主張には、少なくとも2つの異なる議論に基づいて異論が唱えられてきた。 第一に、鳥類におけるプランニングの研究では、スクラブカケス(Aphelocoma californica)、ユリカカケス(Garrulus glandarius)、クロウタドリ(Poecile atricapillus)など、キャッシュの専門家がキャッシュタスクを行うのが一般的であることから、研究者は鳥類の一般的なプランニング能力について疑問を投げかけてきた。 これらの結果は、特殊な記憶レパートリーに起因している可能性がある(参照)。 人間以外の動物が柔軟に計画を立てるという考えを否定する第二の理由は、観察された行動が人間のような計画によって引き起こされたのではなく、連想学習の結果として最もよく理解されること、そして方法論の欠点がこれらの研究を不確かなものにしていることである。 連想学習は予期行動を引き起こすことでよく知られており、すぐに利益を得なくても後で意味のある出来事を予測することができる行動である 。 さらに、計画に重要であるとしばしば言及される自己制御は、連想学習によって生じうる。 即座に報酬を得られる行動は常に非報酬の行動よりも好まれるはずなので、自己制御は連想学習では不可能だと思われるかもしれない。 しかし、多くの動物にとって「待つ」あるいは「つきまとう」という行動は、後に報酬が得られる可能性がある場合に強化される行動である。 例えば、捕食者は若い時にストーキングや待ちのスキルを学ぶ。

ここで使用したモデルは、複雑な世界で最適な行動を学習できる連想学習モデルである。 このモデルは2つの異なる記憶と意思決定機構を含んでいる。 一方の記憶には刺激Sに対する行動Bの実行の連想強度が、他方の記憶には刺激Sの推定値が記憶されている。このモデルは条件付き強化(二次強化)により単一の行動を連結することで行動系列を学習することができる。 この方法では、一次強化の前にある最初は中立的な刺激がそれ自体強化になり、それによって以前は報われなかった行動を修正することができる. 例えば、クリッカーで訓練されたウサギは餌の前にクリックを何度も聞くようになります。 このウサギにとってクリックはそれ自体が報酬となり、ウサギはクリックを聞くことだけを目的とした行動を学習するようになります。 このモデルについては、以下の「材料と方法」で詳しく説明します。

ここでは、人間以外の計画研究で得られた結果を、連想学習モデルで説明できるという仮説を検証しています。 学習モデルを用いて、オランウータン(Pongo pygmaeus)とボノボ(Pan paniscus)、カラス(Corvus corax)の2つの計画研究の結果をシミュレートしている。 シミュレーションは、これらの研究内および研究間の主要なパターンを追跡することができた。 その結果、類人猿とハ虫類における柔軟なプランニングの研究が、連想学習によって説明できることを否定できないことがわかった。 7838>

材料と方法

ここでは、我々の学習モデル、シミュレーションに使用した2種類の研究の論理、シミュレーションの詳細について説明する。 モデルの説明

動物は行動レパートリーを持っており、検出可能な環境状態の世界でナビゲートするためにその行動を使用することができる。 行動は動物をある状態から別の状態に連れて行く。 それぞれの状態、つまり刺激には遺伝的に固定された一次強化値がある。 これらの強化値はネガティブ、ニュートラル、ポジティブのいずれでもあり、生存と繁殖に有利な行動が促進されるように学習を誘導する。 動物は価値の総和を最大化するような選択をすると仮定し、将来の状態の価値に対する期待を膨らませることができる。 7838>

要するに、このモデルは記憶の変化を通じて刺激に対する一連の行動の学習を記述しているのである。 与えられた刺激が知覚されたときに、どのような行動を選択すべきかを決定するために、記憶を考慮した意思決定が含まれる。 例えば、犬が「振れ」という命令に反応して前足を出すことを学習するような、一つの行動を学習する場合を考えてみよう。 前足を上げることが行動であり、「振れ」という命令と報酬が刺激である。 学習されるイベントシーケンスは、コマンド「shake」→前足を上げる→報酬、または

Scommand ‘shake′→Blift paw→Sfood reward

モデルは異なる刺激(または状態)に対して行動を行う価値に関する情報と、異なる刺激(または特定の状態である)の価値に関する情報、が収集されます。 学習は2つの異なる種類の記憶の更新を通じて行われる。 これらの記憶はパブロフ学習と道具学習に相当し、犬の例のような事象列、一般的にはS→B→S′の事象列の後に更新される。 第一の記憶は、刺激と反応の関連付けである。 機能的には、vS→Bは刺激Sを知覚したときに行動Bを行う推定値と表現することができる。 この刺激値を表すのにwSを用い、後続の刺激値に応じて更新される。 つまり、wSは状態Sにあることの条件付き強化値であり、これらの記憶は

ΔvS→B=αv(uS′+wS′-vS→B)andΔwS=αw(uS′+wS′-wS)}2.1

イベントシーケンスS → B → Sを経験した後に更新される。 刺激-応答関係vS→Bは、刺激S′の一次的な先天的固定値uS′と、条件付き強化値wS′と、以前に記憶した刺激-応答関係vS→Bとに従って更新される。 条件付き強化では、刺激Sを知覚したときに行動Bを行う値は、刺激Sの一次強化値と条件付き強化値の和となる。 最初の式だけを用いてwを除外すると、道具的刺激-反応学習、つまり古典的なRescorla-Wagner学習モデルの道具的バージョンとなる。 学習速度αvとαwは記憶の更新速度を決定する。

学習モデルが行動を生成し選択するためには、意思決定のためのメカニズムが必要である。 我々は、行動反応を選択し、探索によって行動にある程度のバリエーションを持たせる意思決定機構を用いた。 これは状態Sにおける行動Bの確率を

Pr(S→B)=exp(βvS→B)∑B′exp(βvS→B′),2.2

と規定し、探索量を規制するパラメータβを含んでいる。 推定値を考慮せずにβ=0とすると、すべての行動が等しく選択されることになる。 βが大きければ、推定値(v)が最も大きい行動が主に選択される。

ここで、犬の話に戻って実例を挙げてみよう。 犬は「振れ」という命令、刺激Sを聞いて、前足を上に動かす、つまり行動Bを行うと、報酬S′を受け取る。 この報酬S′は先天的な一次値uを持つ。「振れ」という命令に正しく反応した犬がこの報酬を受け取ると、刺激-反応記憶vcommand `shake′→lift pawは式(2.1)の上段に従い増加する。 また、コマンド ‘shake’ の刺激値 w は式(2.1) の下段に従って更新される。 このコマンド「shake」の値wは食物報酬の値uに近づき、それ自体が強化の性質を持つようになり、条件付き強化子となったのです。 条件付き強化子は、前足を上に動かす前にさらに多くの行動を学習する道を開くことができます。 これは、犬が「シェイク」というコマンドを聞くことになる行動が強化されるために起こりうることです。 オオ類人猿とカラスの計画実験のシミュレーション

計画実験のシミュレーションは、重要なイベントが特定された2つの研究でのイベントの経過を詳細に記述したものであった。 重要な事象とは、試験前にどのような行動をどのような対象に向かって訓練したのか、事前訓練と試験中の異なる選択によりどのような結果が得られたのか、などである。 これらの研究で詳細を明らかにすることは重要である。なぜなら、テスト段階には報酬を与える行動と与えない行動が混在しているからである。 そのため、刺激-反応(v)と刺激値(w)の両方が試験中に変化することが予想された。

シミュレーションを可能かつ現実的にするために、動物は日常的に必要な能力をある程度持ってこれらの研究に参加することを前提とした。 例えば、物の持ち方、部屋や区画間の移動の仕方、物がどこにあるか、実験者との接し方などの基本的なスキルを事前に学習していることが前提であった。 例えば、猿は選択肢を選ぶと実験室から追い出され、その後再び実験室に入ることができる。 このような日常的なスキルを無視することで、シミュレーションと行動の記述は、動物が実験の一部として学ばなければならないユニークな行動シーケンスに焦点を当てたのです。 実験が始まる前に、動物は前訓練を受けた。 ここで彼らは、後に正しいものとして採点される行動を行うことを学んだ。 正しい行動の事前訓練とは別に、カラスの研究では絶滅訓練も行われました。 絶滅訓練では、カラスは非機能的なものには報酬が得られないことを学習する機会を得た。 両試験で正解と不正解の採点に用いられた重要な事象は、強制選択試験である。 ここでは、事前に報酬が得られると学習した1つの物体と、その後の報酬に使用できない他の物体(ディストラクター物体)のどちらかを選択するよう動物に強制した。 カラスは絶滅訓練中にこれらのディストラクター物体が報酬に結びつかないことを学習した。 強制選択の後、両研究ともある程度の時間的な遅れがあり、その後に動物に前に選んだ物体を使った行動をさせた。 もし動物が遅延前に正しい選択をすれば、その後その選択した物体を使って報酬を得ることができる。

シミュレーションは研究のプレトレーニング段階とテスト段階に沿って行われた。 2つの研究で設定された正しい選択のチャンスレベルとの比較が行われている。 Mulcahy & Callは、類人猿が25%の確率で正しいものを選択すると予想した(機能物体1個と散漫物体3個)。 Kabadayi & Osvathは、カラスが実験1と2で25%、実験3と4で20%の確率で正しい選択をすると予想した(実験1と2では機能物体1つと散漫物体3つ、実験3と4では機能物体1つと小さな報酬1つ、散漫物体3つ)。 正確な説明はシミュレーションのスクリプトを参照(電子補足資料参照)。 以下、シミュレーションを容易にするために、2つの研究についての詳細な説明を行う。 Mulcahy and Callの類人猿に関する研究の説明

これらのテストはオランウータンとボノボで行われた 。 この研究は前訓練から始まった。 ここでは動物を試験室に入れ、装置から報酬を得るために2つの異なる道具タスクの訓練を行った。 これらの機能的道具を機能的オブジェクトと呼ぶことにする。 1つはチューブを選んで器具に挿入する作業。 もう1つはフックを選択し、これを用いてフックがなければ届かないボトルに到達するタスクである。 前訓練の後、機能物とそれに対応する3つの非機能物(後にdistractor objectと呼ばれる)との間で強制選択試験が行われた。 しかし、この強制選択の間、報酬を含む装置へのアクセスは遮断された。 選択後、動物は試験室から待合室へ案内された。 このとき、動物が取っていない物体は、試験室から取り除かれた。 この時、遅延が発生した。 その後、再び試験室に入り、装置を使用させた。 強制選択試験で機能的な物を選んでいれば、その物を使って報酬を得ることができ、事前訓練で学習した行動を発揮することができるようになった。 テストはどの道具が機能的な物体であるか、また、遅延の時間に関しても異なっていた。 また、最後のテストでは道具を使わなくても報酬を得ることができた。 なお、実験4では、実験1、2、3には参加していない、新しい2つの個体を使用した。 この最後の部分は、結果のセクションで述べた理由から、ここではあまり重要ではない。 シミュレーションは研究の論理に従って行われ、以下はシミュレーションで使用された主要なイベントと遅延の詳細である:

  • Pretraining: テスト前に、すべての被験者が機能ツールの使い方を学んだ。 2段階で、チューブ課題では最低3回+8回の事前訓練試行を、フック課題では最低5回の事前訓練試行を許可した。

  • 実験1、チューブ状態。 (1)機能的なチューブと散漫な物体で強制選択(16試行)。 (2)選択後、別室へ移動。 (3)1時間待つ。(4)戻り、機能性チューブが選択されていれば、ご褒美を得るために使用することができる。 (1)機能的なチューブと邪魔な物体で強制的に選択させる(12試行)。 (2)選択後、別室へ移動。 (3)14時間待つ。(4)戻り、機能的なチューブが選択されていれば、報酬を得るために使用することができる。 (1)機能性フックと散漫物による強制選択(16試行)。 (2)選択後、別室へ移動。 (3)1時間待つ。(4)戻り、機能的フックが選択されていれば、ご褒美を得るために使用できる。 (1)機能性フックと散漫物による強制選択(16試行)。 (2)選択後、別室へ移動。 (3)1時間待つ。(4)戻り、機能的フックが選択されていれば、フックを使わずに報酬を受け取る。

学習する行動系列は以下の通り。 Stube → Btake tube → Sapparatus → Buse tube → Sreward

  • Hookの条件。 Shook → Btake hook → Sapparatus → Buse hook → Sreward

  • どちらの条件でも、猿はdistractorオブジェクトを選択しても報酬を受けることはなかった、または:

    • Distractors.Distractors: Sdistractor → Btake distractor → Sno reward

    2.4. カバダイの説明& Osvathのカラスに関する研究

    これらのテストはカラスを使って行われた 。 この研究は前訓練から始まった。 ここでは動物を試験室に入れ、装置から報酬を得るために2種類の道具課題の訓練を行った。 なお、機能的な道具を機能的オブジェクトと呼ぶことにする。 1つは石を器具に入れて報酬を得るという課題。 もう1つは、ボトルのキャップ(トークンと呼ぶ)を取って人間に渡すという課題である。 猿の研究とは対照的に、テストが始まる前にカラスには絶滅試験も行われた。 これは、強制選択試験中に存在するが、決して報酬を得ることができない物体(後にdistractor objectと呼ばれる)との相互作用を許可するものである。 事前訓練後、機能物体と3つの逸脱物体から選択する強制選択試験を実施した。 選択後、しばらくは機能物体を使用できないようにした。 つまり、選択試験直後は報酬を得ることができなかった(実験4は例外)。 このとき、遅延があった。 遅延後、動物に選択した物体を使用させた。 強制選択試験で機能的なものを選んでいれば、そのものを使って報酬を得ることができ、事前訓練で学習した行動を発揮することができた

    この試験には、少し異なる4つの試験も含まれていた。 試行回数、遅延時間、そして最後のテストでは報酬を得るために機能的な物体を使用する前に待つ必要がないことに関して、テストは異なっていた。 この研究では、2つの異なる報酬を使用したことに留意すべきである。 事前訓練と全実験で高価値の報酬を1つ使用した。 そして、実験3と4では、価値の低い既知の報酬が、機能的道具と妨害物とともに強制選択の状況で用いられた。 なお、実験は、発表された研究での番号と同じ順番で行われたわけではありません。 私は、実験が行われた時間的順序(1,3,2,4)で実験を紹介することにした。 シミュレーションは研究の論理に従ったもので、ここではシミュレーションに用いた主要なイベントの詳細を示す。実験前と実験中の主要なイベントは以下の通り:

    • Pretraining: テスト前に、すべての被験者が機能ツールの使い方を学んだ。 2段階で、道具課題には最低3回+5回の事前訓練試行を、トークン課題には35回の事前訓練試行を許可した。

    • 消滅試行。 この段階では、被験者は報酬を受け取ることなく、5分間、気が散る対象物を操作することが許された。 道具条件では14試行、トークン条件では12×3試行。 (2)15分待つ。 (3)選択したものは再度使用でき、石やトークンを選択した場合は報酬を得るために使用できる。

    • 実験3:(1)機能的なもの、小さな報酬、気が散るものによる強制選択。 道具条件14試行、トークン条件14試行。 (2)15分待つ。 (3)選択されたものは再度使用でき、石やトークンが選択されていた場合は報酬を得るために使用できた。 道具条件6試行、トークン条件6試行。 (2)17時間待つ。(3)選んだ物体は再び使用でき、石やトークンを選んでいれば報酬を得るために使用できる。

    • 実験4:(1)機能物体、小さな報酬、気を散らす物体で強制選択。 道具条件14試行、トークン条件14試行。 (2). (2)石かトークンを選択した場合、報酬を得るために使用できた。

    学習する行動シーケンスは以下の通り:

    • 道具条件: スツール → Btake tool → Buse tool → Sreward

    • トークン条件。 Stoken → Btake token → Shuman → Bgive token → Sreward

    カラスはまた、絶滅段階で、気が散るものを選んだり使ったりしても決して報われないことを教えられた。 これはすべてのテスト中も同様であった、または:

    • Distractors: Sdistractor → Btake distractor → Sno reward

    研究の自己制御相では、カラスは機能物体(道具またはトークン)および注意散漫物体と並んで提示された小さな報酬を選択する機会を得た。 したがって、実験3と4では、これらの行動シーケンスも可能であった:

    • 道具の条件。 Sdog kibble → Btake small reward → Ssmall reward

    • Token condition: Sdog kibble → Btake small reward → Ssmall reward

    2.5. 事前訓練時の記憶更新の説明

    これらの行動シーケンスが学習によってどのような影響を受けるかを説明するために、カラスの研究における事前訓練時の記憶更新の例を示す。 事前訓練中に発達した行動列は、Stool → Btake tool → Sapparatus → Buse tool → Srewardと記述でき、石を器具に挿入する価値が増加するため、vSapparatus → Buse tool≫0となる。 このモデルは条件付き強化も含んでいるため、次の刺激である大きな報酬の値によって石自体の値が更新される。 繰り返し経験することで、Srewardの刺激値(w)がStoolの刺激値を大きくすることになる。 このモデルの説明で示したように、十分な経験を積むと道具の値は大きな報酬の値に近づくようになります。 これに対して、3つのディストラクタ物体に対する無報酬経験を繰り返す絶滅試行は、Sdistractor → Bpick distractor → Sno rewardと記述することができる。 この事象の連続により、distractorを選択する連想強度vSdistractor → Bpick distractorとdistractorの条件付き強化値(wdistractor)の両方が減少することになります。 最初のテストが強制選択で始まる場合、カラスの行動は石とdistractorの両方を用いた前訓練の影響を受けていた

    2.6. シミュレーションの詳細

    上記のモデルをPythonのプログラムに組み込み、上で定義した2つの研究の詳細な手順に従って学習を行い、研究を通して異なる刺激を選択する確率、v値、w値の推定値を求めた。 2種類のシミュレーションが行われた。 まず、フルモデルシミュレーションを行い、次に刺激値(w)なしのシミュレーション、つまり、式(2.1)の1行目のみを用いた我々のバージョンの刺激反応学習と意思決定(式(2.2))のみを許可したシミュレーションを行った。 これは、条件付き強化を含むモデルと刺激応答学習のみのモデルとの違いを探るためである。 その刺激反応学習は古典的なRescorla-Wagner学習則と同じであるが、パブロフの設定ではなく、道具的な設定で検討した。 これらの時間ステップの間、背景刺激のみが経験された。 刺激-反応記憶も刺激値記憶も長期記憶であるため、記憶の更新のためにはあまり重要ではない。 動物が刺激-反応の関連や刺激値を非常に長い時間記憶していることは、いずれのシミュレーション研究でも言及されていない。 すべての行動は初期刺激-反応値v=1で始まり、v値、w値ともに学習率α=0.2で更新され、探索はβ=1、報酬はカバダイ<7004>オスバスの実験3、4の低値報酬がu=2である以外はu=6に設定された。 すべての行動の行動コストは,0に設定された受動的反応を除いて0.1であった(電子補足資料のシミュレーションに含まれるすべての行動と刺激要素に関する情報を参照). すべてのシミュレーションは500人の被験者に対して行われ、試行回数はほぼ実験と同じであった。 試行回数が経験的研究と完全に一致しないのは、意思決定式の確率的性質によるものである。 動物の初期値の情報がないため、正確な定量比較は困難である。

    カラスも類人猿も豊かな背景を持っていたが、以前に学習した行動は無視し、初期値は散漫物と機能物について同じであると仮定された。 保守的に、行動と刺激の間の連想強度はすべてシミュレーションの開始時に等しいと仮定した。 Kabadayi & Osvathは2つの異なる食物報酬の価値に関してカラスの嗜好を較正しなかったので、得られる報酬の違いに関する定量的な情報はない。 彼らは手法の中で、高品質の食物報酬はより大きく、より魅力的であると述べている。 絶滅量に関する正確な情報はカラスの研究から欠落していたため、カラスは気晴らしで5回の絶滅経験をしたと仮定した。

    シミュレーションで使用した行動と刺激要素は以下の通りである:

    2.6.1. Behaviours
    • Mulcahy & Call Tube: take tube, use tube, take distractor, being passive

    • Mulcahy & Call Hook: take hook, use hook, take distractor, being passive

    • Kabadayi & Osvath Tool: ツールを取る、ツールを使う、ディストラクターを取る、受け身になる、小さな報酬を取る

    • Kabadayi & Osvath Token:トークンを取る、トークンを使う、ディストラクターを取る、受け身になる、小さな報酬を取る

    2.6.2. 刺激要素
    • Mulcahy & Call Tube: 背景、チューブ、チューブタスク、ディストラクタ、報酬

    • Mulcahy & Call Hook: 背景、フック、フックタスク、ディストラクタ、報酬

    • Kabadayi & Osvath Tool(オスワリツール): フックタスク、ディストラクタ、報酬。 背景、ツール、器具、ディストラクター、報酬、小報酬

    • Kabadayi & Osvath Token:背景、トークン、人間、ディストラクター、報酬、小報酬

    2.Osvathツール:背景、ツール、器具、ディストラクタ、報酬、小報酬 & Osvath Token:バックグラウンド7. 実証研究のデータ

    シミュレーション結果と2つの研究の実証データを比較するために、2つのそれぞれの研究で利用可能なデータから平均値を計算しました(「結果」の図を参照)。 その結果、強制選択試験における正解と不正解の平均的な割合が算出された。 なお、類人猿の実験4では、遅延後に装置に戻った際に道具を使う正しい行動がなかったため、この実験の解釈は困難であった。 また、実験4の選択に関するデータは本文中にないため、そのデータポイントについてはfromのデータを使用した。 7838>

    結果

    全体として、シミュレーションはカラスと類人猿の両方の研究結果と一致した。 シミュレーションの結果、類人猿とカラスが示す未来志向の行動には、2つの要因がともに寄与していることがわかった。 まず、事前訓練と絶滅によって確立された機能的オブジェクトの条件付き強化値は、初期の正しい選択を促すことが可能であった。 これは、図1の正しい選択の割合に示されている。 第二に、正しい選択は、類人猿の実験4を除けば、研究全体を通じて報酬を受けることができた。 機能性物体の使用が終始報酬的であったことは、偶然のレベルをはるかに超えるパフォーマンスを駆動するのに十分であった(図1)。 カラスの実験では、実験中に報酬が与えられたことで、その研究の最後の2つの部分でほぼ完璧なパフォーマンスが得られたことをよく説明している。 経験的データ(点)とシミュレーションデータ(線)の結果は、機能的なオブジェクトに対する正しい反応の割合と、カラスの研究については、小さな報酬に対する反応のシミュレーション割合(破線)を示している。 ボノボとオランウータンは上のパネル、カラスは下のパネルにある。 類人猿の場合、実験1と2では筒を選ぶことが正しく(左の線)、実験3と4では鉤を選ぶことが正しい選択であった(右の線)。 なお、上段のX軸は折れているが、これは実験4が事前訓練しかしていない新個体で行われたためである。 カラスの場合、実験前半の正しい選択肢は道具であった(左図)。 実験後半では、トークンが正解となった(右図)。 横線は、チューブ、フック、道具、トークンの各テスト段階における正解の偶然性の期待値を示す。 実証データは、2つの試験における各フェーズの終了時点のデータの平均値。 ボノボとカラスのグラフィックはopenclipart.orgからダウンロードした。

    経験的テスト(図1では塗りつぶし円で表示)とシミュレーションの間の適合性は、機能オブジェクトが散漫オブジェクトよりも選択されやすいという点で良好であった。 また、シミュレーションは、実験1と2において、オオナガザルの研究で性能が上昇し、実験3において性能が低下するという一般的な傾向を踏襲していた。 カラスの実験では、道具条件での性能が過小評価されたが、実験1では性能が高く、実験3では低下し、実験4ではほぼ完璧な性能に達するというパターンに忠実であった。 道具条件でのシミュレーションの成功率が低かった理由として、カラスがよく訓練されており、テスト状況で役立つ豊かなバックグラウンドを持っていたことが考えられる。 これらの鳥は人間に育てられ、人間と定期的に交流している。 また、さまざまな物、実験装置、報酬に慣れている。 これに対して、シミュレーションは予備知識がないことを前提にスタートしました。 トークン条件ではシミュレーションと経験値がほぼ一致したが、実験3でのパフォーマンスの低下は経験値の方が大きかった。

    また、シミュレーションでは、類人猿がカラスよりも全体的に低い成功率を示したことが捉えられた。 この差は少なくとも2つの要因によってもたらされた可能性がある。 類人猿はカラスよりも事前訓練が少なく、またカラスとは対照的に、類人猿はテスト前に注意散漫物体による絶滅訓練が行われなかった。 これは図1に示すように、実験1の開始時に正しい物体を選択する確率が、カラスの実験では類人猿の実験に比べ非常に高くなっている。 多くの事前訓練試行(トークン条件では35回)と絶滅試行の組み合わせが、強制選択において高いパフォーマンスをもたらすことは、カラスの研究のトークン条件において最も明確に示されている。 7838>

    事前訓練と絶滅訓練は、正しい判断をする可能性に影響を与えるだけではなかったのです。 シミュレーションにより、事前訓練と絶滅が、小さな報酬などの誤った対象を選択する割合にも影響を与えることが明らかになった(図1)。 事前訓練と絶滅の効果は、カラスの研究のトークン条件において最も顕著であり、シミュレーションの結果、カラスが機能物体よりも小さな報酬を選択する可能性はほぼゼロであることが示唆されました。 また、機能性物体(道具とトークン)の報酬経験が多いため、これらの物体に対する条件付き強化値が大きくなった(図2)。 このように、カラスは機能的物体ではなく小さな報酬を選ばないというパターンをシミュレーションで確認し、自己制御は連想学習から生まれることが予想された

    図2。 条件付き強化(刺激値)を含む我々の学習モデルの出力と、Rescorla-Wagner(R-W)モデルの道具版との比較を可能にするシミュレーションの結果。 左側がカラス研究のシミュレーション、右側が類人猿研究のシミュレーションである。 上段は記憶の更新、すなわち機能物体に対する行動の刺激-反応関係vと、これらの物体の刺激値wを示している。 機能的対象はそれ自体には報酬がないため、シミュレーションでは、より単純な学習モデル(R-W)では機能的対象を選択するための刺激-応答結合は発達しないことが示されています。 そして下図は、刺激-反応学習モデル(R-W)では2つの研究で観察された行動パターンが再現できないことを示しており、条件付き強化を可能にする我々の学習モデルとは全く対照的である。 実験のフェーズは図1と同じだが、ここではわかりやすくするためにフェーズは示していない。 なお、実験4は、実験前に予備訓練のみを行った新個体で行われたため、右図のX軸は折れている。 Raven and ape graphics were downloaded from openclipart.org.

    刺激-反応値の成長と刺激値を図2の上パネルに示す。

    なお、類人猿研究の実験4が最もシミュレーションに合致していない。 ここでは、2匹の新しい類人猿に、以前に機能した道具を使わずに報酬を得ることを許可したところ、彼らは16回中2回、正しい道具を持って戻り、シミュレーションより低い結果となった。 このような実証実験とシミュレーションの差は、行動のコストを上げることで縮められる可能性がある。 報酬につながらない行動のコストを上げると、その行動を行うことが減少する。 しかし、道具と報酬の結びつきがより明確でない状況に類人猿が直面したとき、この状況で動物から何を期待できるかは不明である。 そして、4頭の類人猿のうち2頭は、問題を解決しようとはしなかった。 結論として、そのデータポイントの正確さと意味を判断するのは難しい(参照)

    このシミュレーションは、複雑さの異なる連想学習モデルの違いも示している。 パブロフ学習と道具学習の両方を取り入れた我々の学習モデルを用いたシミュレーションと比較すると、我々のバージョンの刺激反応学習の限界が明らかになる。 刺激応答学習だけでは、行動の直後に報酬が得られないような行動系列は学習できない(図2)。 行動系列が発達するためには、条件強化によって報酬の一段階以上手前の刺激が報酬となる必要があります。 中性刺激が正のw値を獲得すると、つまり報酬を得るようになると、すぐに報酬を得られない行動に対して正のv値を獲得するようになります(図2上段)。 一連の行動を学習できる我々のモデルと、道具版のレスコラ-ワグナーモデルを比較すると、刺激-反応学習のみを許可した場合、正しい刺激を選択する確率は増加しないことが明らかである(図2)。 また、刺激応答学習ではv値は即時強化子によってのみ更新されるため、トークンや道具が価値ある刺激になり得ないため、小さな報酬が優先的に選択されるという帰結もある。 これは、図2に示すように、私たちが開発した刺激応答学習のみを許可した場合(図2中R-Wで示す)、試行間で小さな報酬の誤った選択が増加することを示しています。

    討論

    カラスと類人猿の2つの計画研究のシミュレーションは、これまで柔軟な計画によって生じたと主張されてきた行動が、連想学習によって説明できることを示唆するものであった。 人工知能研究や動物行動研究で示されているように、こうした連想学習のモデルは柔軟な行動系列を生成する上で強力である 。 したがって、カラスと類人猿の研究で導き出された、カラスと類人猿が特定の柔軟なメカニズムによってこれらの問題を解決するという結論は、ほとんど支持されないのである。 今回行ったシミュレーションは、これらの結果を連想学習の結果と解釈する批評家を支持するものであった。 今後、連想プロセスと他の種類の精神的メカニズムの区別を目指すのであれば、最新の学習モデルを活用し、適切なコントロールを含む実験デザインの改善が有益であろう。 このことは、訓練前、絶滅期、報酬の効果をシミュレーションがうまく捉えていることを示唆している。 正しい物体(道具とトークン)に対する条件付き強化値(w値)は高く、散漫な物体に対する強化値は低く、最初のテスト前に確立されていた(図2)。 これは特にカラス実験のトークン部分で顕著で、カラスはストークン→Btake token→シューマン→Bgive token→Srewardという行動シーケンスが一貫して報酬される35回の事前訓練試行を受けた(図1下段)。

    カラスと類人猿研究における良い結果のもう一つの重要な要因は、テストを通して正しい物を選ぶことが報酬されていたことだった。 これにより、正しい行動と正しい物体に対して、それぞれ高いv値とw値が維持された。 このことは、カラスが機能的物体とともに提示された小さな報酬を無視した理由も説明できる(図1)。 機能性物体は研究期間中、繰り返し報酬をもたらしたため、高い刺激値を獲得していた。 この刺激値が小報酬の値より高い限り、これらの機能性物体はほとんどの場合選択されることになる。 しかし、Rescorla-Wagnerモデルのように刺激-反応学習のみでv値の更新を許可すると、条件付き強化がないため小さな報酬が選択されることになる(図2)。 試験中の学習を避けたい場合は、例えば結果再評価試験(e.g.)のように、絶滅下で試験を実施することが有効である。 このように、テストは事前の実験操作の結果を明らかにすることができる。

    この結果は、自己制御が連想学習によって生まれたという考えを支持するものである。 私たちは以前、動物が十分な情報と経験を与えられれば、連想学習によって自制心を獲得できることを示した 。 カバダイ&オスバスは自制心を定義していませんが、以前の研究で「遅延した報酬を優先して即時的な欲求を抑制すること」と定義しています。 この自己制御の機能的な見方は、動物行動学の文献にある多くの行動の記述に合致している。 大きな報酬が期待できるのに小さな報酬を拒否する、言い換えれば、儲かる獲物がたくさんあるのに儲からない獲物を拒否することを学習する動物の観察は、例えば魚(ブルーギルマンフィッシュ Lepomis macrochirus, )、甲殻類(海岸ガニ Carcinus maenas, )、鳥(ホオジロザメ Parus major, and アカシギ Tringa totanus, )で行われています。 このような研究は、自己制御を学習対象ではなく、別の種類の精神的メカニズムとして研究することが多い研究(例えば、)においては、かなりの程度無視されてきた。 その代わりに、これらのシミュレーションに照らし合わせると、これまでの動物認知研究における自制心に関する研究(例えば)は、条件付き強化を含む学習によって引き起こされるものとして理解するのが最も適切かもしれない。 自制心は機能的な対象に対して高い条件付き強化値を獲得することによって出現しうる。 機能的なオブジェクトは小さな報酬よりも価値が高くなる。 しかし、例えば「待つ」ことがそれ自体の行動として考えられる場合にも、自制心が生まれる可能性があります。 この場合、特定の刺激の存在下で「待つ」ことのV値が増加することによって自己制御が出現する可能性があります。 狩りをするネコの自制心は、遠くにいる獲物を相手にしたときに「待つ」ことのv値が高くなることで現れるのかもしれない。 学習メカニズムのさまざまな側面がどのように相互作用して自己制御のパターンを生み出しているのか、より深く理解するためにはさらなる研究が必要である。 遺伝的素因が大きな役割を果たし、刺激と反応の関連や刺激値と相互作用していると考えられる。

    もう一つの重要な結果は、実験3と実験4におけるカラスのパフォーマンスの差がシミュレーションによって把握されたことである。 実験4でカラスの研究とシミュレーションの両方で完璧なパフォーマンスが得られた理由は、選択と報酬を得る行動の間の遅延が省略されたことであった。 その代わりに、強制的な選択の直後に報酬を得るために物体を使用する機会があった。 このため、すべての試行が直接報酬につながる可能性があるのに対し、実験3では正しい物体を選択した場合にのみ、遅延の後に報酬が与えられることになった。

    我々の学習モデルとAIにおけるいくつかの強化学習モデルの類似点の1つは、これらのメカニズムによってエージェントや動物が価値のある世界状態を識別し、これらの価値ある状態においてどのような行動が生産的であるかを識別することができるということである。 運用面では、これらの学習モデルは、刺激(石やトークン)に対する行動(装置に入れる、人間に与える)が、後の段階で価値の高い餌を生産する場合の計画を生成する。 これは食物(あるいは別の報酬刺激)がないにもかかわらず起こる。 Osvath & Kabadayi は、批判者への返信で、柔軟な計画とは「自分の現在の感覚の範囲外の未来について、自分が素質を持っていない領域で決定を下すこと」だと定義しました。 学習モデルに条件付き強化が含まれていれば、AIや動物行動学のモデルであろうと、刺激-反応値や刺激値の巧妙な相互作用により、この定義に合致した計画行動が出現することになる。 重要なのは、現在利用可能な刺激が、将来の価値ある状態に入るためにどのような行動をとるべきかという情報を提供できることである。 しかし、これらの学習モデルは、異なる結果を精神的にシミュレートすることはできないし、精神的に時間旅行をすることも、情報を内部的に再編成することもできない。 ロバーツの言葉を借りれば、人間以外の動物は計画行動を示しつつも「時間から抜け出せない」のである。

    Mulcahy & Callは実験4を行って類人猿の行動の説明として道具的条件付けを排除しようとした。 この段階は実験3と似ているが、類人猿は機能的道具を使用することに対して報酬を与えられなかった。 実験3のように、報酬を得るために機能的道具を持って入室するのではなく、待合室から実験室に機能的道具を運んできた猿が入室し、報酬を見つけたのである。 この実験よりも他の実験の方が成績が良ければ、類人猿が柔軟に計画を立てていることを示唆すると主張された。 マルケイ&コールは、彼らの結果を「将来計画の真のケースを表している」と結論づけた。 悪魔の代弁者は、実験3と4の違いを明らかにし、学習がよりありそうな説明であることを示した。 実験3では、類人猿は道具を使うことで明示的に報酬を得た。 この結果、道具に対する条件付き強化値が高くなり、道具を装置上で使用することに対する刺激-反応値も高くなる。 しかし、実験4では、Mulcahy & Callは、待合室で道具を手に取ってから実験室に道具を運び、その後道具を使わずに報酬を得るまでの時間が長かったと指摘している。 おそらく、実験4の成績が低かったのは、道具と報酬の関係が不明確であったことが原因であり、遅延があると、後で報酬を受け取るために道具を手に取るという獲得が阻害されるためと考えられる。 仮説の棄却を明確にするためには、適切な制御条件が重要である(e.g. Recent discussions in )。 7838>

    シミュレーションの結果、猿の研究とカラスの研究は連想学習で理解できることがわかった。 しかし、おそらく遺伝的な特殊性に依存すると思われるキャッシングの専門家の実験結果は、現在のところ我々の学習モデルの範囲外である。 キャッシング行動と摂食行動には、動物の異なる動機付けの状態が関与している。 動機づけ状態は内部刺激とみなすことができ、連想学習モデルに容易に統合することができ、その結果、採食とキャッシュの決定に関して柔軟性を高めることができるだろう。 我々のモデルは現状では異なる動機づけ状態を含んでいないが、遺伝的素因をモデルに統合することができる例を示した 。 このような場合、外的刺激や内的状態によって探索が異なるように、文脈依存性を導入することが考えられる。 重要なのは、より柔軟な精神メカニズムを仮定する場合、柔軟性が増すことで発生する探索の高コストを考慮する必要があることです(参照)。 7838>

    もう一つ今後の研究で重要な点は、動物が行動の結果について学習し、刺激-反応値や刺激値が更新されるとき、これらは長期記憶であるということである(例えば、 、も参照されたい)。 人間にトークンを渡すように訓練されたカラスが、1日後にその方法を忘れてしまうようなことはない。 行動的には、カラスの研究の道具条件は、犬の飼い主が毛皮の友達におもちゃを指定されたかごに入れることで「片付け」を教えるのと同じである。 カラスが石を器具に入れたらご褒美をもらう代わりに、犬はおもちゃをかごに入れたらご褒美をもらうのである。 このように連想学習によって更新される長期記憶は、任意の刺激に対する短期記憶とは大きく異なる。

    結論として、連想学習モデルの開発はAI研究において印象的であり、モデルは複雑な行動を生成する上で強力であることが証明されている。 なぜこのような強力なモデルが人間以外の動物の行動にもっと広く適用されないのか、なぜこのモデルが人間以外の動物の柔軟な行動の原因として過小評価されているのか、という疑問を持つことができる。 特に、人間以外の動物が洞察力を持ち、因果的推論を示し、計画を立てると主張される動物認知の研究が、弱い方法論に基づく壮大な主張に苦しんでいると定期的に批判されていることを考えると、このことは重要である(e.g. )。 この連想学習のパラドックスを解決する一つの方法は、AI、動物学習、動物認知の分野を統合することである 。 行動を生み出すメカニズムを理解するためには、言葉によるトップダウンの「高次」認知モデルよりも、形式的なボトムアップの連想モデルの方がより示唆に富むと思われる。 例えば、後者のモデルは否定するのが難しく、シミュレーションで実装したり、ロボットを作るときに使うことはできないからである。 結論として、類人猿や類人猿、そしておそらく他の多くの種における柔軟な計画は、連想学習を通じて出現することを否定することはできない。

    データアクセス

    シミュレーションからの図やデータは、電子補足資料に明記されているソフトウェアとコードを用いて生成することができる。 7838>

    競合利益

    競合する利益はない。

    Funding

    この研究は、Knut and Alice Wallenberg Foundation, KAW 2015.005の支援を受けました。

    Acknowledgements

    マーカス・ヨンソン、マグヌス・エンクイスト、アンナ・ヨンアンド、ステファノ・ギルランダに感謝する。 また、貴重で洞察に満ちたコメントをくれた2人の匿名の査読者に感謝する。

    Footnotes

    電子補足資料は、https://dx.doi.org/10.6084/m9.figshare.c.4302740でオンライン利用可能。

    © 2018 The Authors.

    Published by the Royal Society under the terms of the Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, which permits unrestricted use, provided the original author and source is credited.

    • Mnih Vet al.2015深層強化学習による人間レベルの制御。 ネイチャー 518, 529-533. (doi:10.1038/nature14236) Crossref, PubMed, ISI, Google Scholar
    • Silver Det al.2016Mastering the game of Go with deep neural networks and tree search. ネイチャー 529, 484-489. (doi:10.1038/nature16961) Crossref, PubMed, ISI, Google Scholar
    • Silver Det al.2017Mastering chess and shogi by self-play with a general reinforcement learning algorithm. (http://arxiv.org/abs/1712.01815). Google Scholar
    • Emery NJ, Clayton NS. 2004 The mentality of crows: Convergent evolution of intelligence in corvids and apes.(カラスの精神性:鳥類と類人猿における知能の収束的進化)。 サイエンス 306, 1903-1907. (doi:10.1126/science.1098410) Crossref, PubMed, ISI, Google Scholar
    • Horner V, Carter JD, Suchak M, de Waal FB. 2011年チンパンジーによる自発的な向社会的選択。 Proc. Natl Acad. Sci. USA 108, 13 847-13 851. (doi:10.1073/pnas.1111088108) Crossref, ISI, Google Scholar
    • MacLean ELet al.2014The evolution of self-control.(マクリーン エルイート)。 Proc. Natl Acad. Sci. USA 111, E2140-E2148. (doi:10.1073/pnas.1323533111) Crossref, PubMed, ISI, Google Scholar
    • Suchak M, Eppley TM, Campbell MW, Feldman RA, Quarles LF, de Waal FB.etc.。 2016How chimpanzees cooperate in a competitive world. Proc. Natl Acad. Sci. USA 113, 10 215-10 220. (doi:10.1073/pnas.1611826113) Crossref, ISI, Google Scholar
    • Whiten A. 2017Social learning and culture in child and chimpanzee. Annu. Rev. Psychol. 68, 129-154. (doi:10.1146/annurev-psych-010416-044108) Crossref, PubMed, ISI, Google Scholar
    • Allen C, Bekoff M. 1995Cognitive ethology and the intentionality of animal behaviour.日本学術振興会特別研究員(DCA)。 Mind Lang. 10, 313-328. (doi:10.1111/j.1468-0017.1995.tb00017.x) Crossref, ISI, Google Scholar
    • Tomasello M, Call J. 1997Primate cognition(霊長類の認知). 1997Primate cognition.オックスフォード、英国:オックスフォード大学出版局。 Google Scholar
    • Mulcahy NJ, Call J. 2006How great apes perform on a modified trap-tube task(改変されたトラップチューブ課題における類人猿のパフォーマンス). Anim. Cogn. 9, 193-199. (doi:10.1007/s10071-006-0019-6) Crossref, PubMed, ISI, Google Scholar
    • Bird CD, Emery NJ. 2009年道具を使わない飼育下ルークによる洞察的問題解決と創造的道具改造。 Proc. Natl Acad. Sci. USA 106, 10 370-10 375. (doi:10.1073/pnas.0901008106) Crossref, ISI, Google Scholar
    • Bird CD, Emery NJ.(英語)。 2009年リンドらへの返信:洞察と学習。 Proc. Natl Acad. Sci. USA 106, E77-E77. (doi:10.1073/pnas.0906351106) Crossref, ISI, Google Scholar
    • Jelbert SA, Taylor AH, Cheke LG, Clayton NS, Gray RD. 2014Using the Aesop’s fable paradigm to investigate causal understanding of water displacement by New Caledonian crows.(イソップ寓話のパラダイムを用いたニューカレドニアのカラスの水位移動に関する因果関係の調査)。 PLoS ONE 9, e92895. (doi:10.1371/journal.pone.0092895) Crossref, PubMed, ISI, Google Scholar
    • Heyes C. 2012Simple minds: a qualified defence of associative learning.(「単純な心:連想学習」の修飾的擁護). Phil. Trans. R. Soc. B 367, 2695-2703. (doi:10.1098/rstb.2012.0217) Link, ISI, Google Scholar
    • Heyes C. 2012What’s social about social learning?J. (社会的学習について何が社会的か). Comp. Psychol. 126, 193-202. (doi:10.1037/a0025180) Crossref, PubMed, ISI, Google Scholar
    • Ghirlanda S, Enquist M, Lind J. 2013Coevolution of intelligence, behavioral repertoire, and lifespan.(英文のみ、英語表記:Coevolution of intelligence, behavioral repertoire and lifespan). Theor. Popul. バイオロジー91, 44-49. (doi:10.1016/j.tpb.2013.09.005) Crossref, PubMed, ISI, Google Scholar
    • Koops K, Furuichi T, Hashimoto C. 2015Chimpanzees and bonobos differ in intrinsic motivation for tool use. サイエンス・リップ 5, 11356. (doi:10.1038/srep11356) Crossref, PubMed, ISI, Google Scholar
    • Enquist M, Lind J, Ghirlanda S. 2016The power of associative learning and the ontogeny of optimal behaviour.邦訳は「連想学習の力と最適行動の器官形成」。 R. Soc. open sci. 3, 160734. (doi:10.1098/rsos.160734) Link, ISI, Google Scholar
    • McCormack T, Hoerl C, Butterfill S. 2011Tool use and causal cognition.日本学術振興会特別研究員(PD)。 英国オックスフォード:オックスフォード大学出版局. Crossref, Google Scholar
    • Carew TJ, Sahley CL. 1986Invertebrate Learning and Memory: From behavior to molecules. Annu. Rev. Neurosci. 9, 435-487. (doi:10.1146/annurev.neuro.9.1.435) Crossref, PubMed, ISI, Google Scholar
    • Bouton ME.の項参照。 2007学習と行動:モダンシンセシス。 Sinauer, MA: Sunderland. Google Scholar
    • Lind J, Enquist M, Ghirlanda S. 2015Animal memory: a review of delayed matching-to-sample data.日本語訳:動物の記憶:遅延マッチングからサンプルへのデータのレビュー. Behav. Processes 117, 52-58. (doi:10.1016/j.beproc.2014.11.019) Crossref, PubMed, ISI, Google Scholar
    • Mulcahy NJ, Call J. 2006Apes save tools for future use.を参照。 サイエンス 312, 1038-1040. (doi:10.1126/science.1125456) Crossref, PubMed, ISI, Google Scholar
    • Naqshbandi M, Roberts WA. 2006リスザル(Saimiri sciureus)とラット(Rattus norvegicus)における将来の出来事の予期:Bischof-Köhler仮説のテスト。 J. Comp. Psychol. 120, 345-357. (doi:10.1037/0735-7036.120.4.34) Crossref, PubMed, ISI, Google Scholar
    • Raby CR, Alexis DM, Dickinson A, Clayton NS. 2007ニシツカケスによる未来への計画。 ネイチャー 445, 919-921. (doi:10.1038/nature05575) Crossref, PubMed, ISI, Google Scholar
    • Bourjade M, Call J, Pelé M, Maumy M, Dufour V. 2014Bonobos and orangutans, but not chimpanzees, flexible plan for the future in a token-exchange task.ボノボはチンパンジーと異なり、トークンを交換するタスクの中で将来を柔軟に計画する。 Anim. Cogn. 17, 1329-1340. (doi:10.1007/s10071-014-0768-6) Crossref, PubMed, ISI, Google Scholar
    • Kabadayi C, Osvath M. 2017Ravens parallel great apes in flexible planning for tool-use and bartering. サイエンス 357, 202-204. (doi:10.1126/science.aam8138) Crossref, PubMed, ISI, Google Scholar
    • Premack D. 2007Human and animal cognition: continuity and discontinuity. Proc. Natl Acad. Sci. USA 104, 13 861-13 867. (doi:10.1073/pnas.0706147104) Crossref, ISI, Google Scholar
    • Suddendorf T, Corballis MC. 2010ヒト以外の動物におけるメンタルタイムトラベルの行動学的証拠。 Behav. 脳研究 215, 292-298. (doi:10.1016/j.bbr.2009.11.044) Crossref, PubMed, ISI, Google Scholar
    • Suddendorf T, Corballis MC, Collier-Baker E. 2009How great is great ape foresight?Anim.Baker. Cogn. 12, 751-754. (doi:10.1007/s10071-009-0253-9) Crossref, PubMed, ISI, Google Scholar
    • Cheke LG, Clayton NS. 2010動物における精神的時間旅行. Wiley Interdiscip. Rev. Cogn. Sci. 1, 915-930. (doi:10.1002/wcs.59) Crossref, PubMed, ISI, Google Scholar
    • Redshaw J, Taylor AH, Suddendorf T. 2017Flexible planning in ravens?Trends Cogn. Sci. 21, 821-822. (doi:10.1016/j.tics.2017.09.001) Crossref, PubMed, ISI, Google Scholar
    • Suddendorf T, Bulley A, Miloyan B. 2018Prospection and Natural Selection.(英語). Curr. Opin. Behav. Sci. 24, 26-31. (doi:10.1016/j.cobeha.2018.01.019) Crossref, ISI, Google Scholar
    • Pearce JM. 2008Animal learning and cognition, 3rd edn. Hove, UK: Psychology Press. Google Scholar
    • Shettleworth S. 2010Cognition, evolution, and behavior(認知、進化、行動). Oxford, UK: Oxford University Press. Google Scholar
    • Fox M. 1969Ontogeny of prey-killing behavior in Canidae. Behaviour 35, 259-272. (doi:10.1163/156853969X00233) Crossref, ISI, Google Scholar
    • Eaton RL. 1970チーター(Acinonyx jubatus Schreber)の捕食順序,特に殺傷行動とその発生時期について. チーター心理学研究会 27, 492-504. (doi:10.1111/j.1439-0310.1970.tb01883.x) Crossref, Google Scholar
    • Kelleher RT, Gollub LR. 1962A条件付き陽性強化のレビュー。 J. Exp. Anal. Behav. 5, 543-597. (doi:10.1901/jeab.1962.5-s543) Crossref, PubMed, ISI, Google Scholar
    • Mackintosh NJ. 1974The psychology of animal learning. ロンドン,UK. ニューヨーク、NY: Academic Press. Google Scholar
    • Williams BA. 1994条件付き強化:実験と理論の問題。 行動学 Anal. 2, 261-285. (doi:10.1007/bf03392675) Crossref, ISI, Google Scholar
    • McGreevy P, Boakes R. 2011Carrots and sticks: principles of animal training.筑波大学出版会, pp. オーストラリア、シドニー。 オーストラリア、シドニー:ダーリントン・プレス。 Google Scholar
    • Rescorla RA, Wagner AR. 1972Aパブロフ条件付けの理論:強化と非強化の有効性のバリエーション。 古典的条件付けII:現在の研究と理論(AH Black, WF Prokasy編), pp.64-99. New York, NY: ニューヨーク、NY: Appleton-Century-Crofts. Google Scholar
    • Blough DS. 1975定常データとオペラントの般化と弁別の定量モデル。 J. Exp. Psychol. アニメーション。 Behav. プロセス 104, 3-21. (doi:10.1037/0097-7403.1.1.3) Crossref, Google Scholar
    • Sutton RS, Barto AG. 1998強化学習(Reinforcement Learning)。 ケンブリッジ、マサチューセッツ州。 MIT Press. Q. J. Exp. Psychol. 43, 279-296. (doi:10.1080/14640749108401271) Google Scholar
    • Dickinson A, Balleine B. 1994Motivational control of goal-directed action.(英語). 動物。 Learn. Behav. 22, 1-18. (doi:10.3758/BF03199951) Crossref, Google Scholar
    • Osvath M, Osvath H. 2008Chimpanzee (Pan troglodytes) and orangutan (Pongo abelii) forethought: self-control and pre-experience in face of future tool use.キンパンジーにおける思考とオランウータンにおける思考とオランウータンにおける思考とオランウータンにおける思考とオランウータンにおける思考とオランウータンにおける思考とオランウータンにおける思考。 を参照。 Cogn. 11, 661-674. (doi:10.1007/s10071-008-0157-0) Crossref, PubMed, ISI, Google Scholar
    • Werner EE, Hall DJ. 1974Optimalforagingとbluegill sunfish (Lepomis macrochirus)による餌のサイズ選択。 生態学 55, 1042-1052. (doi:10.2307/1940354) Crossref, ISI, Google Scholar
    • Elner RW, Hughes RN. 1978Energy maximization in the diet of the shore crab Carcinus maenas. J. を参照。 Ecol. 47, 103-116. (doi:10.2307/3925) Crossref, ISI, Google Scholar
    • Krebs JR, Erichsen JT, Webber MI, Charnov EL. 1977シジュウカラ(Parus major)における最適な餌の選択。 Anim. Behav. 25, 30-38. (doi:10.1016/0003-3472(77)90064-1) Crossref, ISI, Google Scholar
    • Goss-Custard JD. 1977Optimal foraging and the size selection of worms by redshank, Tringa totanus, in the field. Anim. Behav. 25, 10-29. (doi:10.1016/0003-3472(77)90063-x) Crossref, ISI, Google Scholar
    • Osvath M, Kabadayi C. 2018Contrary to the gospel, ravens do plan fluxibly. Trends Cogn. Sci. 22, 474-475. (doi:10.1016/j.tics.2018.03.011) Crossref, PubMed, ISI, Google Scholar
    • Barto AJ. 2003強化学習(Reinforcement Learning)。 The handbook of brain theory and neural networks (ed. MA Arbib), pp.963-968.にて。 Cambridge, MA: MIT Press. Google Scholar
    • Roberts WA. 2002Are animals stuck in time?Psychol. Bull. 128, 473-489. (doi:10.1037/0033-2909.128.3.473) Crossref, PubMed, ISI, Google Scholar
    • Ghirlanda S, Lind J. 2017’Aesop’s fable’ experiments demonstrate trial-and-error learning in birds, but no causal understanding.鳥の試行錯誤の学習、因果関係の理解。 Anim. Behav. 123, 239-247. (doi:10.1016/j.anbehav.2016.10.029) Crossref, ISI, Google Scholar
    • Hennefield L, Hwang HG, Weston SJ, Povinelli DJ.を参照。 2018メタ分析手法により、イソップ寓話パラダイムにおけるコルビッドの因果推論が試行錯誤的な学習によって駆動されていることが明らかにされた。 Anim. Cogn. 21, 735-748. (doi:10.1007/s10071-018-1206-y) Crossref, PubMed, ISI, Google Scholar
    • Correia SP, Dickinson A, Clayton NS. 2007Western-scrub-jaysは、現在のモチベーションの状態とは無関係に、将来のニーズを予測する。 このような場合、「己を律する」ことが重要である。 (doi:10.1016/j.cub.2007.03.063) Crossref, PubMed, ISI, Google Scholar
    • Cheke LG, Clayton NS. 2012ユーラシアカケス(Garrulus glandarius)は現在の欲求を克服して、将来の2つの異なる欲求を予測し、それに対して適切な計画を立てる。 生物学 Lett. 8, 171-175. (doi:10.1098/rsbl.2011.0909) Link, ISI, Google Scholar
    • Clayton NS, Dickinson A. 1999Motivational control of caching behavior in the scrub jay Aphelocoma coerulescens. Anim. Behav. 57, 435-444. (doi:10.1006/anbe.1998.0989) Crossref, PubMed, ISI, Google Scholar
    • Skinner BF. 1950Are theories of learning necessary?Psychol. Rev. 57, 193-216. Crossref, PubMed, ISI, Google Scholar
    • Vaughan W, Greene SL. 1984ピジョン視覚記憶容量。 J. Exp. Psychol. Anim. Behav. Process. 10, 256-271. (doi:10.1037/0097-7403.10.2.256) Crossref, Google Scholar
    • Gleitman H. 1971Forgetting of long-term memories in animals. 動物の記憶(W Honig, P James編), pp.1-44. New York, NY: Academic Press. Google Scholar
    • Penn DC, Holyoak KJ, Povinelli DJ. 2008ダーウィンの過ち:ヒトと非ヒトの心の不連続性を説明する。 Behav. 脳科学 31, 109-130. Crossref, PubMed, ISI, Google Scholar
    • Wynne C. 2008Aping Language: a skeptical analysis of the evidence for nonhuman primate language.ウィン・シー(2008年、霊長類の言語に対する懐疑的な分析). Skeptic 13, 10-15. Google Scholar
    • Lind J, Ghirlanda S, Enquist M. 2009Insight learning or shaping?Proc. Natl Acad. Sci. USA 106, E76. (doi:10.1073/pnas.0906120106) Crossref, PubMed, ISI, Google Scholar
    • Shettleworth SJ. 2010比較心理学における賢い動物と殺し文句の説明。 Trends Cogn. Sci. 14, 477-481. (doi:10.1016/j.tics.2010.07.002) Crossref, PubMed, ISI, Google Scholar
    • Manger P. 2013Questioning the interpretations of behavioral observations of cetaceans: Is really there support for a special intellectual status for this mammalian order?Neuroscience 250, 664-696. (doi:10.1016/j.neuroscience.2013.07.041) Crossref, PubMed, ISI, Google Scholar
    • Dymond S, Stewart I. 2016Relational and analogical reasoning in comparative cognition.比較認知における相対的推論と類推的推論. Int. J. Comp. Psychol. 29, 1-11. Google Scholar
    • Lindenfors P. 2017Bird brains: Are Crows as intelligent as some scientists claim?Skept. Mag. 22, 10-11. Google Scholar
    • Lind J, Enquist M. 2009More synthetic work is needed. 適応。 Behav. 17, 329-330. (doi:10.1177/1059712309340860) Crossref, ISI, Google Scholar

    コメントを残す

    メールアドレスが公開されることはありません。