首頁 統計學關我什麽事:生活中的極簡統計學

第17講 “貝塔分布”的性質由兩個數字決定

17-1 貝葉斯推理中經常使用的連續型分布——“貝塔分布”

在我們之前介紹的貝葉斯推理中,為實現先驗分布而設定的類別是有限的。例如,第1講中,關於顧客購買商品的推理,分為“來買東西的人”和“隨便逛逛的人”兩類;第2講中,癌症檢查的結果,分為“癌症”和“健康”兩類;第4講中關於第二胎性別的案例,分為“生女孩的概率為0.4的夫婦”、“生女孩的概率為0.5的夫婦”、“生女孩的概率為0.6的夫婦”這三類。

像上述這樣,在有限的類別中進行貝葉斯推理的情況並不少見,但也有很多時候,必須要分為無限個連續的類別才行。例如,第4講中關於第二胎性別的案例,如果把“生女孩”的概率p僅僅設定為0.4、0.5、0.6這三種的話,顯然是不夠的。毫無疑問,在這個案例中,概率p的取值範圍應該為0≤p≤1。那麽,因為類別總共有連續的無限個,所以在設定先驗概率時,需要設置為連續型概率分布。

本講將介紹貝葉斯推理中出現頻率很高的“貝塔分布”。理解“貝塔分布”,需要用到微分、積分等難度較大的數學知識,而本書在講解時會盡量避免這種方式,而是采用直觀的圖解方法來進行說明。

17-2 何為“貝塔分布”

首先介紹“貝塔分布”這一概率分布的概念。從計算公式入手來看:橫軸x代表基本事件的數值,縱軸y代表概率的密度。上一講中已經講過,概率密度是指“乘以區間的長度後可以轉化為概率的量”。

貝塔分布可以用以下公式來表達:

y=(常數)×xα-1(1-x)β-1 (0≤x≤1) …(1)

出現在指數部分α和β,應為大於1的自然數,它用來決定貝塔分布的種類。換言之,如果賦予α和β具體的數值,就能夠決定一次貝塔分布。當α、β為較小的數值時,貝塔分布的圖表為相對簡單的模型;反之,當α、β為較大的數值時,貝塔分布的圖表則為比較複雜的模型。另外,寫著“常數”的部分,是為了使標準化條件(所有事件的概率之和為1)成立,而進行了調整的數值,因此在貝葉斯推理中並不是那麽的重要。