データ分析者のカンニングペーパー ~確率分布同士の関係~

データ分析者のカンニングペーパー ~確率分布同士の関係~

統計を扱っているとしばしば出てくるのが確率分布です。基本的な確率分布である正規分布から、超幾何分布やワイブル分布などいろいろあって、どれが何を表す分布なのかなかなか頭に入ってこないものです。しかし、数多くある分布同士の関係性を見てみると理解が進むかもしれません。

 

下の図は分布同士の関係を表したもので、各図の横軸は出力値、縦軸はその出力値が得られる確率(もしくは確率密度)です。縦棒がとびとびになっているものは出力値が整数の離散分布、そうでないものは出力値が実数の連続分布です。

 

 

distribution

 

 

 

ベルヌーイ分布(Bernoulli Distribution)には2本の縦棒が見えます。一本はコインの表が出る確率、もう一本はコインの裏が出る確率です。もしイカサマのないコインであればどちらも0.5の確率になるはずです。

 

 

一様分布(Uniform Distribution)は、どのイベントが発生する確率も同じになるような分布のことです。普通のサイコロを投げる場合を考えれば、どの目が出る確率も1/6、20面サイコロなら1/20になり、いずれの場合も一様分布です。

 

 

二項分布(Binomial Distribution)は、ベルヌーイ分布に従う出力の和の分布です。例えばコインを20回投げたときに表が出た回数とその確率を表したものです。二項分布には、コインの表が出る確率に相当するpと、コインを投げる回数に相当するnという二つのパラメータがあります。また、白い玉と黒い玉がいくつかづつ入っている袋から、玉を取り出しては戻すという操作を何回か繰り返し、黒い玉が出る回数とその確率を表すのも二項分布です。

 

 

袋から玉を取り出す二項分布の例で、玉を取り出すたびに袋に戻さなければ、毎回黒い玉が出る確率が変化することになります。そのとき、黒い玉が出る回数とその確率は超幾何分布(Hypergeometric Distribution)に従います。もし黒い玉と白い玉の数が非常に多ければ、玉を袋に戻しても戻さなくても次に黒い玉を取り出す確率はほとんど変わらないので、超幾何分布は二項分布に近づいていきます。

 

 

ポアソン分布(Poisson Distribution)は、例えば1分間平均5回(λ=5)の電話がかかってくるカスタマーセンターで、実際1分間に何回電話がかかってくるかを表すような確率分布です。コインの表を1秒の間に電話がかかっててくること、裏を1秒の間に電話がかかってこないことに対応させれば、毎秒1回コイン投げるのを60回繰り返すのと似ているように思えます。これは二項分布ですね。ただし、1秒間に2回以上電話があった場合には二項分布とは違ってきてしまいます。そこで1秒間のかわりに0.01秒間といった十分に短い時間間隔を考えることにすれば、その短い時間で2回以上電話がある場合は無視して良くなりそうです。このように、ポアソン分布は二項分布でコインの表が出る確率が非常に小さい場合の極限と考えることもできます。

 

 

もう一度ベルヌーイ分布に従うコイン投げを繰り返す話に戻りましょう。コインが初めて表になるまでに、何回裏が出るでしょうか?この裏が出る回数の分布は幾何分布(Geometric Distribution)と呼ばれます。二項分布は「何回表が出るか?」を表していましたが、幾何分布は「表が出る前に何回裏が出るか?」を表す分布です。

 

 

負の二項分布(Negative Binomial Distribution)は、幾何分布を拡張したもので、「コインの表がr回出るまでに何回裏が出るか?」を表します。工場で1000個の製品ができるまでに何個の不良品が出るか?というような問題に応用できるかもしれません。

 

 

カスタマーセンターの例に戻って今度は、誰かが電話をかけてきてから、次の誰かが電話をかけてくるまでの「時間間隔」の分布を考えてみましょう。この時間間隔の分布は指数分布(Exponential Distribution)といいます。1秒間の間に電話がかかってこなければコインが裏、かかってくれば表と考えると、電話と電話の時間間隔はコインが初めて表になるまでの試行回数と似ていますが、これは先ほど出てきた幾何分布です。二項分布からポアソン分布を導出したときと同じように、1秒間よりももっと、十分に短い時間で考えれば、その極限は指数分布になります。

 

 

ワイブル分布(Weibull Distribution)は、指数分布の拡張版です。指数分布はイベントが発生する確率が変わらないことを前提にしていますが、ワイブル分布は時間とともにイベント発生率が変わるケースも扱うことができます。例えば、時間経過とともに故障確率が増加するような製品の強度を知りたいような場合には、その製品が壊れるまでの時間がワイブル分布に従うものとして計算します。

 

 

正規分布(Normal Distribution)は、最も重要な分布でしょう。前回の記事で、コインを繰り返し投げると、出る目の数の和は二項分布に従うという説明をしました。コインを投げる数をさらに多くしていくと、二項分布は正規分布に近づいていきます(中心極限定理)。超幾何分布のときの説明で 袋から球を取り出す数が十分多い場合や、ポアソン分布のパラメータλが十分大きい場合にも正規分布になります。

 

 

対数正規分布(Log Normal Distribution)はその名の通り、正規分布に従う変数の対数を取った変数が従う分布です。中心極限定理によって、サイコロを何度も投げるとその「和」は正規分布に従いますが、一方、サイコロを何度も投げてその「積」をとると対数正規分布になります。

 

 

t検定でおなじみのスチューデントのt分布(Student’s t Distribution)は、同じ正規分布に従う独立な確率変数の和が従う分布です。t分布は元の正規分布の平均や分散といったパラメータには依らず、自由度(足し合わせる確率変数の数)のみに依存します。自由度が十分大きくなると正規分布に近づいていきます。

 

 

カイ二乗検定をするときに使うカイ二乗分布(Chi-Squared Distribution)は、標準正規分布に従う独立な確率変数の二乗和が従う分布です。カイ二乗分布も自由度に依存し、自由度が大きい極限では正規分布になります。

 

 

ガンマ分布(Gamma Distribution)はカイ二乗分布と指数分布を一般化したもので、イベントがn回発生するまでの時間間隔分布を表します。少し難しい言葉だと、ガンマ分布はカイ二乗分布と指数分布の共役事前分布といいます。

 

 

ベータ分布(Beta Distribution)の話をするのはとても難しいのですが、ガンマ分布が二つの分布の共役事前分布であるように、ベータ分布は今回列挙したほぼ全ての分布の共役事前分布になっています。ベータ分布のパラメータを変えると多彩な分布形状を取ることができるので、対象とする現象の確率分布がよく分からないような場合のモデリングで使われます。

 

 

いかがでしょうか?一つ一つ覚えるには気持ちが折れそうになる確率分布ですが、こうして体系的にみてみると思い出しやすくなるかもしれませんね。

 

【参考】Common Probability Distributions: The Data Scientist’s Crib Sheet (Cloudera Engineering Blog)