忍者ブログ

Memeplexes

プログラミング、3DCGとその他いろいろについて

情報量、エントロピー

情報量とエントロピーの復習です。かんたんな文字の例で復習してみましょう。


エントロピーと情報量

エントロピーと情報は同じものです。しかし一見変な感じがします。エントロピーというとモヤモヤした無知の量というか、嫌なイメージがするのに対し、情報はハッキリとした良いイメージがあるような気がします。エントロピーが無知なら情報は知識です。SFで異星人のライブラリにアクセスして「すごい情報量だ」と言うとき、それは「この異星人はものしりだな」という意味であって、「この異星人は無知だな」という意味ではありません。

このパラドックスは早急に解決しておくべきでしょう。異星人のライブラリーの場合は、「この異星人は我々の知らないことをたくさん知っているようだな」ということです。ある物体のもつエントロピーは観測者にとっての無知の量です。未開文明の地球人が高度に発達したエイリアン種族のライブラリにアクセスしたら、きっとその中には地球人の知らない情報がたくさん含まれているでしょう。だから地球人にとってはエントロピーは多いといえます。しかしそのライブラリを作ったエイリアン種族にしてみれば、自分たちがつくったわけですから、無知が少ないわけです。むしろ宇宙に関するいろいろな情報が書き込まれているはずですから、このライブラリは、エイリアン種族にとっての宇宙に関する無知が減っていることの証明といえます。

ようするに、ものを知らない人にとってみれば、ものしりの人の頭の中は計り知れないという意味で、エントロピーと情報量は同じだということです。ものしりの人がものしりであればあるほど、計り知れなさが大きくなるのです。

文字のエントロピー

では具体例を見てみましょう。コンピュータは文字データを扱います(あなたが今読んでいる文章は文字データのあつまったものです)。つまり、ネットで文章を読むたび、あなたはエントロピーに接しているのだといえます。文字とエントロピーについて理解すれば、この先ネットを見るたび、エントロピーと自分のつながりを実感することができるのです!

というわけで、アルファベットのエントロピーについて考えてみましょう。

次のような状況を考えてみましょう:カードの裏側にアルファベットが一文字書かれていて、それを当てなければいけないとします。正答率は1/26ですが、それはあなたがカードの裏側を知らないからです。つまりそのアルファベットのエントロピーは高いのです。

可能性が26分岐しました!あなたはカードの裏に書かれたアルファベットを知らないので、あなたには26通りの未来があるのです。

未来が分岐すれば分岐するほど無知は大きくなるのでエントロピーは大きくなります。計算すると、アルファベットのエントロピー(=情報量)は約4.7ビットですが、これに他のいろいろな記号や文字が合わさると、さらにエントロピーは大きくなります。

現在のコンピュータで使われている切りの良い区切り方だと、256分岐します:

とんでもない分岐です!256分岐!この256分岐のエントロピーのことを、1バイトと呼びます(1バイト = 8ビット)。現在バイトのほうがビットよりもよく耳にする気がしますが、バイトというのはこの256分岐のことを意味するのです。

この256分岐の情報量を使えば、欧米の文字はだいたい表せます。じつは、1バイトは欧米の1文字分のエントロピーとして考え出された単位なのです。256分岐もすれば(欧米では)十分というわけです。

しかし上には上がいます。この分岐には漢字やひらがなやカタカナが含まれていません。wikipediaによると漢字は10万字を超えるそうですから、10万分岐よりさらに多くなくてはならないのです。

さいわい、分岐はかけ算ですので、10万分岐は256分岐を3回繰り返せばまかなえます。256 × 256 × 256 = 16,777,216分岐ですから、3バイトあれば漢字は全部表せることになります。漢字1文字には欧米の文字3文字分程度のエントロピーしか含まれていないのです。

これは先日のツイッターの文字数制限を増やすテストを思い出させます。英語のツイートの文字数制限が緩和されるかもしれないのです(日本語や中国語や韓国語はそのまま)。漢字を使う言語は一文字あたりのエントロピーが多いので、同じ文字数だと英語圏よりもよりたくさんの意味を含められます。ツイートの制限は、文字数よりもエントロピーを基準に考えたほうが良いのかもしれません。エントロピーは未来の可能性だからです。

拍手[0回]

PR