[PR]
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
プログラミング、3DCGとその他いろいろについて
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
Q学習が進む様子を表したでもプログラムを作ってみました。
問題の設定はここのものを使いました。
「動かす」ボタン:学習を1ステップ進めます。連打してください。
「自動再生」ボタン:自動的に学習を進めるアニメーションを行います。連打がめんどくさい時にどうぞ。
これはQ学習が進む様子を表すでもプログラムです。
このプログラムには0から5までの状態があります。
それぞれの状態はすごろくのマス目のようなもので、5がゴールです。
5へ行くのが目的です。
Q学習では、ゴール(5番)に行くように各矢印を強化していきます。
ゴールへ近づく矢印は強化されますが、ゴールから遠ざかるような矢印はあまり強くなりません。
たくさん学習を進めると、矢印の強さが大体の値に落ち着きます。
おちついたとき、その最も強い矢印の方向へ辿って行くと、ゴールへ行けるのです。