\( \def\vector#1{\boldsymbol{#1}} \)

カテゴリカル分布

2017年10月2日

1 = 黒、2 = 赤、... としてそれぞれの出現確率 \(p_k\) を調整できるカテゴリカル分布シミュレーション。+1 ボタンを押すと試行を 1 回行う。

\(K = \) 5 , \(\hat{x} = \) 0 , \(n = \) 0

\(k\)	1	2	3	4	5
確率の重み \(w_k\)
出現確率 \(p_k\)	0	0	0	0	0
\(np_k\)	0.0	0.0	0.0	0.0	0.0
観測回数 \(\sum \hat{x}_k\)	0	0	0	0	0

定義と性質

それぞれ独立した確率 \(p_k\) を持つ \(K\) 個の事象 (カテゴリカル変数; categorical variable) が存在し、1 回の独立した試行でそのいずれか一つが観測される離散確率分布をカテゴリカル分布 (categorical distribution) と呼ぶ。各事象の確率 \(\vector{p}\) をパラメータとした \(P(x)\) の確率密度関数は以下のように表される。\[ P(x=k; \vector{p}) = p_k \] または Iverson Blacket を用いて以下のように表すことができる。\[ P(x; \vector{p}) = \prod_{k=1}^K p_k^{[x=k]} \] ここで \([x=k]\) は \(x\) が \(k\) の場合に 1 となりそれ以外は 0 となる。

事象 \(k\) に対する確率 \(p_k\) は以下を満たす。\[ p_k \geq 0 ,\,\,\,\, \sum_{k=1}^K p_k = 1 \]

カテゴリカル分布の各事象に本質的な順序性はないことが多いが、配分を記述する便宜性のために 1 から \(K\) までの添え字が付けられる。順序性がないとはつまり分布に有意な期待値や分散もないことを意味する。このような確率変数をカテゴリカル変数 (categorical variable) と呼ぶ。

カテゴリカル分布において \(K=2\) と置くとベルヌーイ分布となる。従ってベルヌーイ分布の 2 事象をより一般化したものと言える。

用語

カテゴリカル分布は離散分布と呼ばれるが、何らかの特徴的な系列を示すのではなく一般的な分類の分布を示している。機械学習や自然言語処理のようないくつかの分野ではカテゴリカル分布と多項分布が混乱していて、「カテゴリ分布」が正確な場合でも「多項分布」と表現されていることがよくある。この不正確な使用は、1 から \(K\) までのいずれかの整数を表すのに 1 hot vector (該当する数値が 1 である以外はすべて 0 の \(K\) 次元ベクトル) を使用することに起因している。この形態でカテゴリ分布は多項分布に相当する。