Q-Learning
Apa itu Q-Learning?
Q-Learning adalah kebijakan pembelajaran Penguatan yang akan menemukan tindakan terbaik berikutnya, mengingat keadaan saat ini. Q-learning memilih tindakan ini secara acak dan bertujuan untuk memaksimalkan reward.
Q-learning adalah pembelajaran penguatan di luar kebijakan yang bebas model yang akan menemukan tindakan terbaik, mengingat keadaan agen saat ini. Bergantung pada di mana agen berada di lingkungan, itu akan memutuskan tindakan selanjutnya yang akan diambil.
Tujuan dari model ini
adalah untuk menemukan tindakan terbaik mengingat kondisinya saat ini. Untuk
melakukan ini, ia mungkin membuat aturannya sendiri atau mungkin beroperasi di
luar kebijakan yang diberikan kepadanya untuk diikuti. Ini berarti bahwa tidak
ada kebutuhan aktual untuk suatu kebijakan, oleh karena itu kami menyebutnya di
luar kebijakan.
Bebas model berarti bahwa agen menggunakan prediksi respons lingkungan yang diharapkan untuk bergerak maju. Itu tidak menggunakan sistem penghargaan untuk belajar, melainkan, coba-coba.
Istilah Penting dalam
Q-Learning
- States: States, S, mewakili posisi agen saat ini di lingkungan.
- Action: Action, A, adalah langkah yang diambil oleh agen ketika berada dalam keadaan tertentu.
- Rewards: Untuk setiap tindakan, agen akan mendapatkan rewards positif atau negatif.
- Episode: Ketika agen berakhir dalam keadaan berhenti dan tidak dapat mengambil tindakan baru.
- Q-Values: Digunakan untuk menentukan seberapa baik suatu Tindakan, A, yang diambil pada keadaan tertentu, S, adalah. Q (A, S).
- Temporal Difference: Rumus yang digunakan untuk menemukan Q-Value dengan menggunakan nilai status dan tindakan saat ini serta status dan tindakan sebelumnya.
Komentar
Posting Komentar