ストリートファイターVを強化学習で無双したいのコーナー。
555 views
sarsaは価値反復報酬型の強化学習アルゴリズム。
こちらの本を参考に自分が理解した内容の整理を行っていきます。
前ページと同様、次の迷路を考えます。
下図の迷路があり、緑色がプレイヤー、赤線は壁、S0~S8はプレイヤーの移動先である。
スタートであるS0からゴールのS8に移動したい。
プレイヤーは上下左右に移動できるが、斜め方向には移動できない。
最短経路である、S0→S3→S4->S7→S8に移動する経路をプログラムで発見するにはどうすればよいか。
Q学習を理解するには前ページのSarsaが理解できているとスムーズです。
SarsaとQ学習の違いは、Q値の更新式だけです。
Sarsaの更新式は以下ですが、
Q学習の更新式が以下に変わるだけです。
こちらのほうが、Q値の収束がSarsaとよりも早いという点が異なります。
直感的には、Sarsaは、ゴールに関係のある経路一本一本の価値を調べて判断するのに対し、Q学習はゴールに関係のあるノードの値は全体的に価値があり、ゴールに関係のないノードは全体的に価値がない、そういう判断の式かと思います。
Page 3 of 4.
すぺぺぺ
本サイトの作成者。
プログラムは趣味と勉強を兼ねて、のんびり本サイトを作っています。
フレームワークはdjango。
ChatGPTで自動プログラム作成に取り組み中。
https://www.osumoi-stdio.com/novel/