忍者ブログ

Memeplexes

プログラミング、3DCGとその他いろいろについて

最後の行動を学習しつづけることによってタイムトラベルのシミュレーションをする

以前、いくつかの経路を足すことによってタイムトラベルをシミュレート出来ることを示しました。今回はその計算方法を単純化し、人間にとってより理解しやすくします。


最後の行動を反芻する

今回のタイムトラベルシミュレーションは、次のとてもシンプルなルールで行います。

  1. タイムパラドックスが生じたら、それがなくなるまで何度もループする。
  2. 最後のループの行動と同じ行動をするように学習し続ける。

これだけです!

1はフィクションによくある「いやなことがあったら時間を戻してもう一度やり直す」というやつです。

ここで注目してほしいのは2です。ルール2には価値判断が含まれません。「良い行動をするよう学習せよ」ではなく、「良いものであれ悪いものであれ最後の行動をするように学習し続けよ」なのです。

これはうまくいきます。というのも、最後の行動というのは、(ループ脱出に成功した)良いものである可能性が高いからです。もちろんループ中は悪い行動を取る確率が上がっていくのですが、ループから脱却した後、なんども最後の成功体験を思い出し、それを再現するように学習すれば、最終的には正しい行動をする確率が悪い行動のそれを圧倒するに違いありません!

もっとも、ループから脱出する前にあまりに大量のタイムパラドックスにさらされてしまうと、そこから脱出できたとしても、失敗体験が後を引き、成功の仕方を上手く学習できなくなってしまうのですが…。

タイムパラドックス回避を学習するランダムウォーク

操作方法

キャンバスをクリック:未学習のランダムウォークを10個生成します。

[クリア]ボタン:ランダムウォークをすべて削除します。

解説

このランダムウォークたちは、タイムトラベルのシミュレーションをするように学習していきます。未来からは「ピンク色の領域にお前はいない」という情報が来ているので、ピンク領域に行ったらそこから逃げなければいけません。

はじめランダムウォークたちは未学習なので、ピンク色の領域にズカズカと入り込んでいき、「タイムパラドックス信号」を食らう羽目になります。「タイムパラドックス信号」を受け取ったランダムウォークは「脳」を起動し、タイムパラドックスを修正しようとします。未学習の「脳」の左右に動く確率はともに1/2なので普通のランダムウォークと同じなのですが、学習によって左に行く(ピンク色の領域から脱出する)確率が上がっていきます。

こうなるのは、ランダムウォーク達の「脳」がつねに、自分の最後の行動(左か右に動く)を記憶していて、それを何度も反芻し、それを繰り返す確率を高めているからです。白色の領域では「脳」は行動をしないので(白領域でもランダムウォークはしますが、それは周囲の環境任せであり、能動的な行動ではありません)、必然的に思い出すのはピンクから脱出できた成功体験のみとなります。

ピンク領域でも学習はしますが、それは常に次の行動によって記憶が上書きされるので、学習される行動に偏りはほとんど生じません。右に行った後右を少し学習し、左に行った後左を少し学習するので、結局悪い行動が一方的に有利になるということはないのです。

拍手[0回]

PR