Playground AI

Eksperymentuj z algorytmami AI bezpośrednio w przeglądarce.

Q-Learning

Q-Learning to fundamentalny algorytm uczenia ze wzmocnieniem, w którym agent uczy się optymalnej polityki działania przez interakcję ze środowiskiem. Agent nie zna zasad gry z góry — odkrywa je metodą prób i błędów, otrzymując nagrody lub kary za swoje akcje. Tablica Q-wartości przechowuje „wiedzę" agenta o tym, jak opłacalna jest dana akcja w danym stanie.

Czego się nauczysz

Jak agent buduje tablicę Q-wartości przez eksplorację
Czym jest dylemat eksploracja vs eksploatacja (epsilon)
Jak discount factor wpływa na strategię krótko- i długoterminową
Dlaczego Q-Learning jest podstawą nowoczesnego RL

Jak korzystać z wizualizacji

Agent uczący się nawigować po siatce 8x8 metodą Q-learning. Obserwuj jak tablica Q-wartości wypełnia się z każdym epizodem. Strzałki pokazują najlepszą akcję w każdej komórce. Ustaw epsilon (eksploracja vs eksploatacja), learning rate i discount factor.

Poznaj teorię

Wizualizacja to świetny start, ale pełne zrozumienie wymaga teorii. Przeczytaj artykuł w bazie wiedzy, żeby dowiedzieć się jak to naprawdę działa pod maską.

Przeczytaj artykuł →