忍者ブログ

Memeplexes

プログラミング、3DCGとその他いろいろについて

Q学習 デモプログラム

Q学習が進む様子を表したでもプログラムを作ってみました。
問題の設定はここのものを使いました。


デモ

遊び方

「動かす」ボタン:学習を1ステップ進めます。連打してください。
「自動再生」ボタン:自動的に学習を進めるアニメーションを行います。連打がめんどくさい時にどうぞ。

解説

これはQ学習が進む様子を表すでもプログラムです。
このプログラムには0から5までの状態があります。
それぞれの状態はすごろくのマス目のようなもので、5がゴールです。
5へ行くのが目的です。

Q学習では、ゴール(5番)に行くように各矢印を強化していきます。
ゴールへ近づく矢印は強化されますが、ゴールから遠ざかるような矢印はあまり強くなりません。

たくさん学習を進めると、矢印の強さが大体の値に落ち着きます。
おちついたとき、その最も強い矢印の方向へ辿って行くと、ゴールへ行けるのです。

拍手[1回]

PR