Vahvistusoppiminen 101

Vahvistusoppiminen (RL) on yksi nykyaikaisen tekoälyn kuumimmista tutkimusaiheista, ja sen suosio vain kasvaa. Katsotaanpa 5 hyödyllistä asiaa, jotka täytyy tietää, jotta pääsee alkuun RL:n parissa.

Vahvistusoppiminen(RL) on eräänlainen koneoppimistekniikka, jonka avulla agentti voi oppia vuorovaikutteisessa ympäristössä kokeilemalla ja erehtymällä käyttäen palautetta omista toimistaan ja kokemuksistaan.

Kaikki sekä valvottu oppiminen että vahvistusoppiminen käyttävät tulon ja tuotoksen välistä kartoitusta, mutta toisin kuin valvotussa oppimisessa, jossa agentille annettavana palautteena ovat oikeat toimintakokonaisuudet tehtävän suorittamiseksi, vahvistusoppimisessa käytetään positiivisen ja negatiivisen käyttäytymisen signaaleina palkkioita ja rangaistuksia.

Valvomattomaan oppimiseen verrattuna vahvistusoppiminen eroaa tavoitteiltaan. Kun valvomattomassa oppimisessa tavoitteena on löytää datapisteiden välisiä yhtäläisyyksiä ja eroja, vahvistusoppimisen tapauksessa tavoitteena on löytää sopiva toimintamalli, joka maksimoi agentin kumulatiivisen kokonaispalkkion. Alla oleva kuva havainnollistaa geneerisen RL-mallin toiminta-palkkio-palautesilmukkaa.

Tässä on videodemonstraatio PacMan-agentista, joka käyttää syvä vahvistusoppimista.

Mitkä ovat yleisimmin käytettyjä vahvistusoppimisalgoritmeja?

Q-oppiminen ja SARSA (State-Action-Reward-State-Action) ovat kaksi yleisesti käytettyä mallitonta RL-algoritmia. Ne eroavat toisistaan etsintästrategioidensa suhteen, kun taas niiden hyödyntämisstrategiat ovat samankaltaisia. Q-learning on off-policy-menetelmä, jossa agentti oppii arvon, joka perustuu toisesta politiikasta johdettuun toimintaan a*, kun taas SARSA on on-policy-menetelmä, jossa agentti oppii arvon, joka perustuu senhetkiseen toimintaan a, joka on johdettu senhetkisestä politiikasta. Nämä kaksi menetelmää ovat yksinkertaisia toteuttaa, mutta niistä puuttuu yleispätevyys, koska niillä ei ole kykyä arvioida arvoja näkymättömille tiloille.

Tämä voidaan ratkaista kehittyneemmillä algoritmeilla, kuten Deep Q-Networks(DQNs) -menetelmillä, jotka käyttävät hermoverkkoja Q-arvojen estimointiin. DQN:t pystyvät kuitenkin käsittelemään vain diskreettejä, matalaulotteisia toiminta-avaruuksia.

Deep Deterministic Policy Gradient(DDPG) on malliton, politiikan ulkopuolinen, toimijakriittinen algoritmi, joka ratkaisee tämän ongelman oppimalla toimintatapoja korkea-ulotteisissa, jatkuvissa toiminta-avaruuksissa. Alla olevassa kuvassa on esitetty toimijakriittinen arkkitehtuuri.

Miten muotoillaan perustavanlaatuinen vahvistusoppimisen ongelma?

Mitkä ovat yleisimmin käytettyjä vahvistusoppimisalgoritmeja?

Mitkä ovat vahvistusoppimisen käytännön sovellukset?

Miten pääsen alkuun vahvistusoppimisessa?

Vastaa Peruuta vastaus