相互情報量

情報理論
情報量
通信路
単位
  • シャノン
  • ナット
  • ハートレー
その他
  • 漸近等分割性(英語版)
  • レート歪み理論(英語版)
カテゴリ カテゴリ

相互情報量(そうごじょうほうりょう、: mutual information)または伝達情報量(でんたつじょうほうりょう、: transinformation)は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表すである。最も典型的な相互情報量の物理単位ビットであり、2 を底とする対数が使われることが多い。

定義

形式的には、2つの離散確率変数 X {\displaystyle X} Y {\displaystyle Y} の相互情報量は以下で定義される。

I ( X ; Y ) = y Y x X p ( x , y ) log p ( x , y ) p ( x ) p ( y ) , {\displaystyle I(X;Y)=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p(x,y)\log {\frac {p(x,y)}{p(x)p(y)}},\!}

ここで、 p ( x , y ) {\displaystyle p(x,y)} X {\displaystyle X} Y {\displaystyle Y} 同時分布関数、 p ( x ) {\displaystyle p(x)} p ( y ) {\displaystyle p(y)} はそれぞれ X {\displaystyle X} Y {\displaystyle Y} 周辺確率分布関数である。

連続確率変数の場合、総和の代わりに定積分を用いる。

I ( X ; Y ) = Y X p ( x , y ) log p ( x , y ) p ( x ) p ( y ) d x d y , {\displaystyle I(X;Y)=\int _{\mathcal {Y}}\int _{\mathcal {X}}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}}\;dx\,dy,\!}

ここで、 p ( x , y ) {\displaystyle p(x,y)} X {\displaystyle X} Y {\displaystyle Y} の同時分布密度関数であり、 p ( x ) {\displaystyle p(x)} p ( y ) {\displaystyle p(y)} はそれぞれ X {\displaystyle X} Y {\displaystyle Y} の周辺確率密度関数である。

どちらの場合でも相互情報量は負とならず( I ( X ; Y ) 0 {\displaystyle I(X;Y)\geq 0} )、対称性がある( I ( X ; Y ) = I ( Y ; X ) {\displaystyle I(X;Y)=I(Y;X)} )。

これらの定義は対数の底が明示されていない。離散確率変数の場合、最も一般的な相互情報量の尺度はビットであるため、底として 2 を指定することが多い。一方、連続確率変数の場合、ネイピア数 e = 2.718.. {\displaystyle e=2.718..} をとることが多い。

直観的には、相互情報量は X {\displaystyle X} Y {\displaystyle Y} が共有する情報量の尺度であり、一方の変数を知ることでもう一方をどれだけ推測できるようになるかを示す。例えば、 X {\displaystyle X} Y {\displaystyle Y} が独立であれば、 X {\displaystyle X} をいくら知っても Y {\displaystyle Y} に関する情報は得られないし、逆も同様である。このとき、相互情報量はゼロである。逆に、 X {\displaystyle X} Y {\displaystyle Y} が同じであれば、 X {\displaystyle X} Y {\displaystyle Y} は全情報を共有しているという事ができ、 X {\displaystyle X} を知れば Y {\displaystyle Y} も知ることになり、逆も同様である。結果として、相互情報量は Y {\displaystyle Y} (すなわち X {\displaystyle X} )単独の情報量(エントロピー)と同じとなる。

相互情報量は、以下のような意味で相互の依存性(非独立性)の尺度でもある。これは一方向から考えると分かり易い。 X {\displaystyle X} Y {\displaystyle Y} が独立なら、 p ( x , y ) = p ( x ) p ( y ) {\displaystyle p(x,y)=p(x)p(y)} であるから、次が成り立つ。

log p ( x , y ) p ( x ) p ( y ) = log 1 = 0. {\displaystyle \log {\frac {p(x,y)}{p(x)\,p(y)}}=\log 1=0.\!}

したがって、離散確率変数の場合も連続確率変数の場合も I ( X ; Y ) = 0 {\displaystyle I(X;Y)=0} となる。実際は逆も成り立ち、 I ( X ; Y ) = 0 {\displaystyle I(X;Y)=0} であることと、 X {\displaystyle X} Y {\displaystyle Y} が独立な確率変数であることは同値である。

また、後述するように X {\displaystyle X} Y {\displaystyle Y} が独立な場合の同時分布と実際の同時分布の(擬)距離を示す量であるとも考えられる。

他の情報量との関係

相互情報量は次のようにも表せる。

I ( X ; Y ) = H ( X ) H ( X | Y ) = H ( Y ) H ( Y | X ) = H ( X ) + H ( Y ) H ( X , Y ) {\displaystyle {\begin{aligned}I(X;Y)&=H(X)-H\left(X\mathop {|} Y\right)\\&=H(Y)-H\left(Y\mathop {|} X\right)\\&=H(X)+H(Y)-H(X,Y)\end{aligned}}}

ここで、 H ( X ) {\displaystyle H(X)} H ( Y ) {\displaystyle H(Y)} は周辺エントロピー H ( X | Y ) {\displaystyle H(X\mathop {|} Y)} H ( Y | X ) {\displaystyle H(Y\mathop {|} X)} 条件付きエントロピー H ( X , Y ) {\displaystyle H(X,Y)} X {\displaystyle X} Y {\displaystyle Y} 結合エントロピーである。 H ( X ) H ( X | Y ) {\displaystyle H(X)\geq H(X\mathop {|} Y)} であるため、相互情報量は常に非負であることがわかる。

直観的に、エントロピー H ( X ) {\displaystyle H(X)} が確率変数の不確かさの尺度であるとすれば、 H ( X | Y ) {\displaystyle H(X\mathop {|} Y)} は「 Y {\displaystyle Y} を知った後にも残る X {\displaystyle X} の不確かさの量」と見ることができ、最初の行の右辺は「 X {\displaystyle X} の不確かさの量から Y {\displaystyle Y} を知った後に残った X {\displaystyle X} の不確かさの量を引いたもの」となり、「 Y {\displaystyle Y} を知ったことで削減される X {\displaystyle X} の不確かさの量」と等価である。これは、相互情報量が2つの確率変数について互いにもう一方を知ったことで得られる別の一方に関する情報量という直観的定義とも合っている。

離散の場合、 H ( X | X ) = 0 {\displaystyle H(X\mathop {|} X)=0} であるから、 H ( X ) = I ( X ; X ) {\displaystyle H(X)=I(X;X)} となる。従って I ( X ; X ) I ( X ; Y ) {\displaystyle I(X;X)\geq I(X;Y)} であり、ある確率変数は他のどんな確率変数よりも自分自身についての情報を多くもたらすという基本原理が定式化されている。

相互情報量は、2つの確率変数 X {\displaystyle X} Y {\displaystyle Y} 周辺分布の積 p ( x ) p ( y ) {\displaystyle p(x)p(y)} 同時分布 p ( x , y ) {\displaystyle p(x,y)} カルバック・ライブラー情報量で表すこともできる。

I ( X ; Y ) = D K L ( p ( x , y ) p ( x ) p ( y ) ) {\displaystyle I(X;Y)=D_{\mathrm {KL} }\left(p(x,y)\mathop {\|} p(x)p(y)\right)}

さらに、 p ( x , y ) = p ( x | y ) p ( y ) {\displaystyle p(x,y)=p(x\mathop {|} y)p(y)} を用いて変形すると、次のようになる。

I ( X ; Y ) = y p ( y ) x p ( x | y ) log p ( x | y ) p ( x ) = y p ( y ) D K L ( p ( x | y ) p ( x ) ) = E Y { D K L ( p ( x | y ) p ( x ) ) } {\displaystyle {\begin{aligned}I(X;Y)&{}=\sum _{y}p(y)\sum _{x}p(x\mathop {|} y)\log {\frac {p(x\mathop {|} y)}{p(x)}}\\&{}=\sum _{y}p(y)\;D_{\mathrm {KL} }\left(p(x\mathop {|} y)\mathop {\|} p(x)\right)\\&{}=\mathbb {E} _{Y}\{D_{\mathrm {KL} }\left(p(x\mathop {|} y)\mathop {\|} p(x)\right)\}\end{aligned}}}

従って、相互情報量は、 p ( x | y ) {\displaystyle p(x\mathop {|} y)} p ( x ) {\displaystyle p(x)} に対するカルバック・ライブラー情報量の期待値として解釈することもできる。ここで、 p ( x | y ) {\displaystyle p(x\mathop {|} y)} Y {\displaystyle Y} を与えられた時の X {\displaystyle X} の条件付き分布、 p ( x ) {\displaystyle p(x)} X {\displaystyle X} の確率分布である。 p ( x | y ) {\displaystyle p(x\mathop {|} y)} p ( x ) {\displaystyle p(x)} の分布に差があればあるほど、情報利得(カルバック・ライブラー情報量)は大きくなる。

応用

多くの場合、相互情報量を最大化させ(つまり相互依存性を強め)、条件付きエントロピーを最小化させるという方向で使われる。以下のような例がある。

  • 通信路容量は相互情報量(伝達情報量)を使って定義される。
  • 多重配列アラインメントによるRNAの二次構造予測
  • 機械学習における特徴選択や特徴変換の尺度として相互情報量が使われてきた。
  • 相互情報量はコーパス言語学における連語の計算における重み付け関数として使われることが多い。
  • 相互情報量は医用画像処理における画像の位置合わせに使われる。ある画像と別の画像の座標を合わせるために、両者の相互情報量が最大となるように位置合わせを行う。
  • 時系列解析における位相同期(英語版)の検出。
  • 情報量最大化独立成分分析アルゴリズムでも利用されている。
  • ターケンスの定理(英語版)では平均相互情報量を使って埋め込み遅延パラメータを求める。

関連項目

参考文献

  • Cilibrasi, R.; Paul Vitányi (2005). “Clustering by compression” (PDF). IEEE Transactions on Information Theory 51 (4): 1523-1545. http://www.cwi.nl/~paulv/papers/cluster.pdf. 
  • Coombs, C. H., Dawes, R. M. & Tversky, A. (1970), Mathematical Psychology: An Elementary Introduction, Prentice-Hall, Englewood Cliffs, NJ.
  • Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in H Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14—30.
  • Kenneth Ward Church and Patrick Hanks. Word association norms, mutual information, and lexicography, Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989.
  • Guiasu, Silviu (1977), Information Theory with Applications, McGraw-Hill, New York.
  • Li, Ming; Paul Vitányi (February 1997). An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. ISBN 0387948686 
  • Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1-10.
  • Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
  • Press, W. H., Flannery, B. P., Teukolsky, S. A. & Vetterling, W. T. (1988), Numerical Recipes in C: The Art of Scientific Computing, Cambridge University Press, Cambridge.
  • Strehl, Alexander; Joydeep Ghosh (2002). “Cluster ensembles -- a knowledge reuse framework for combining multiple partitions” (PDF). Journal of Machine Learning Research 3: 583-617. http://strehl.com/download/strehl-jmlr02.pdf. 
  • Witten, Ian H. & Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, Amsterdam.
  • Yao, Y. Y. (2003) Information-theoretic measures for knowledge discovery and data mining, in Entropy Measures, Maximum Entropy Principle and Emerging Applications , Karmeshu (ed.), Springer, pp. 115-136.
  • Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp.1226-1238, 2005. Program

外部リンク

確率の歴史
確率の定義
客観確率
  • 統計的確率
  • 古典的確率
  • 公理的確率
主観確率
確率の拡張
基礎概念
モデル
確率変数
確率分布
関数
用語
確率の解釈
問題
法則・定理
測度論
確率微分方程式
確率過程
情報量
応用
数理ファイナンス
系統学
カテゴリ カテゴリ