Reinforcement Learning(RL) is een van de populairste onderzoeksonderwerpen op het gebied van moderne Kunstmatige Intelligentie en de populariteit ervan neemt alleen maar toe. Laten we eens kijken naar 5 nuttige dingen die men moet weten om aan de slag te gaan met RL.
Reinforcement Learning(RL) is een type machine leertechniek die een agent in staat stelt om te leren in een interactieve omgeving door trial and error met behulp van feedback van zijn eigen acties en ervaringen.
Hoewel zowel supervised learning als reinforcement learning gebruik maken van mapping tussen input en output, maakt reinforcement learning, in tegenstelling tot supervised learning waarbij de feedback die aan de agent wordt gegeven bestaat uit de juiste reeks acties voor het uitvoeren van een taak, gebruik van beloningen en straffen als signalen voor positief en negatief gedrag.
Vergeleken met ongesuperviseerd leren, is bekrachtigingsleren anders in termen van doelen. Terwijl het doel bij unsupervised learning is om overeenkomsten en verschillen tussen datapunten te vinden, is het doel bij reinforcement learning om een geschikt actiemodel te vinden dat de totale cumulatieve beloning van de agent maximaliseert. De onderstaande figuur illustreert de actie-beloning feedbacklus van een generiek RL-model.
Hoe formuleer je een basisprobleem op het gebied van reinforcement learning?
Enkele belangrijke termen die de basiselementen van een RL-probleem beschrijven zijn:
Omgeving – Fysieke wereld waarin de agent opereert
Toestand – Huidige situatie van de agent
Beloning – Terugkoppeling van de omgeving
Beleid – Methode om de toestand van de agent in kaart te brengen in acties
Waarde – Toekomstige beloning die een agent zou ontvangen door een actie in een bepaalde toestand te ondernemen
Een RL-probleem kan het best worden uitgelegd aan de hand van spelletjes. Laten we het spel van PacMan nemen waar het doel van de agent (PacMan) is om het voedsel in het rooster te eten terwijl het vermijden van de spoken op zijn weg. In dit geval is de rasterwereld de interactieve omgeving voor de agent waar hij handelt. De agent krijgt een beloning voor het eten van voedsel en een straf als hij wordt gedood door een spook (verliest het spel). De toestanden zijn de locaties van de agent in de rasterwereld en de totale cumulatieve beloning is de agent die het spel wint.
Om een optimaal beleid op te stellen, staat de agent voor het dilemma om nieuwe toestanden te verkennen en tegelijkertijd zijn totale beloning te maximaliseren. Dit wordt de afweging tussen exploratie en exploitatie genoemd. Om beide in evenwicht te brengen, kan de beste algemene strategie offers op korte termijn inhouden. Daarom moet de agent genoeg informatie verzamelen om in de toekomst de beste beslissing te kunnen nemen.
Markov Decision Processes(MDP’s) zijn wiskundige raamwerken om een omgeving in RL te beschrijven en bijna alle RL problemen kunnen worden geformuleerd met MDP’s. Een MDP bestaat uit een verzameling eindige omgevingstoestanden S, een verzameling mogelijke acties A(s) in elke toestand, een reëel gewaardeerde beloningsfunctie R(s) en een overgangsmodel P(s’, s | a). In reële omgevingen is het echter waarschijnlijker dat er geen voorafgaande kennis is van de dynamica van de omgeving. Modelvrije RL methoden komen in zulke gevallen goed van pas.
Q-learning is een veelgebruikte modelvrije benadering die kan worden gebruikt voor het bouwen van een zelfspelende PacMan agent. Het draait om de notie van het updaten van Q-waarden die de waarde weergeven van het uitvoeren van actie a in toestand s. De volgende waarde update regel is de kern van het Q-learning algoritme.