強化学習

ストリートファイターVを強化学習で無双したいのコーナー。

48

611 views

Q学習

はじめに

sarsaは価値反復報酬型の強化学習アルゴリズム。
こちらの本を参考に自分が理解した内容の整理を行っていきます。

作りながら学ぶ！深層強化学習

前ページと同様、次の迷路を考えます。

お題

下図の迷路があり、緑色がプレイヤー、赤線は壁、S0～S8はプレイヤーの移動先である。
スタートであるS0からゴールのS8に移動したい。
プレイヤーは上下左右に移動できるが、斜め方向には移動できない。
最短経路である、S0→S3→S4->S7→S8に移動する経路をプログラムで発見するにはどうすればよいか。

Q学習で解く

Q学習を理解するには前ページのSarsaが理解できているとスムーズです。
SarsaとQ学習の違いは、Q値の更新式だけです。

Sarsaの更新式は以下ですが、

Q学習の更新式が以下に変わるだけです。

こちらのほうが、Q値の収束がSarsaとよりも早いという点が異なります。

直感的には、Sarsaは、ゴールに関係のある経路一本一本の価値を調べて判断するのに対し、Q学習はゴールに関係のあるノードの値は全体的に価値があり、ゴールに関係のないノードは全体的に価値がない、そういう判断の式かと思います。

Page 3 of 4.

前のページ次のページ

<br>

[添付ファイル]

お問い合わせ

プロフィール

すぺぺぺ

自己紹介

本サイトの作成者。
プログラムは趣味と勉強を兼ねて、のんびり本サイトを作っています。
フレームワークはdjango。
ChatGPTで自動プログラム作成に取り組み中。

サイト/ブログ

https://www.osumoi-stdio.com/novel/

ツイッター

@darkimpact0626