19-1 對“生女孩”的案例進行更準確的推理
在上一講的基礎之上,下麵,我們開始解說使用了貝塔分布的貝葉斯推理過程。
這一次,我們依然使用第4講中的例子——“若某對夫婦生的第一胎為女孩,那麽第二胎依然為女孩的概率是多少”這個問題。第4講中的推理,是在相當不充分的設定之下進行的。這是由於,在設定這對夫婦“生女孩的概率”的類別時,隻考慮了0.4、0.5、0.6這3種情況,但並沒有給出為何隻設定這3種情況的相關證據。而實際上,大於0且小於1的所有數值都可以設為“生女孩的概率”。在學習第4講時,我們隻能做到為有限個數的類別設定先驗概率;而現在,我們已經學會了處理連續型的概率分布,那麽,也就可以在自然狀態的設定下,進行貝葉斯推理。本講中將會使用貝塔分布,來完成上述推理過程。
19-2 設定先驗分布為均勻分布,並進行推理
把某對夫婦生女孩的概率設為x。x表示這對夫婦的“類別”。由於類別是未知的,所以將其作為推理的對象。
雖然我們知道,類別x一定是一個大於0且小於1的數值,但並不知道具體的數值。因此,需要設定每一類別分別對應何種程度的先驗概率。當x分為3種情況時,設定各x的數值為事前“概率”是完全沒問題的。但在本次推理中,x可以有連續無限個數值,因此設定的數值為“概率密度”(第16講中對於“概率密度”這一概念已經進行了解說)。把各個類別的可能性的設定為概率密度時,稱為“先驗分布”。
在這裏,暫且把表示x的先驗分布的概率分布,假設為均勻分布。
這意味著,不管該夫婦所屬的類別x為何種可能性,都假定其相等(大致相同)。也許有的讀者會不理解這樣進行假設的原因,認為“x在接近0或接近1的情況下,與接近0.5的情況下,結果是相等的”這樣的設定不合邏輯。這是一個合理的疑問。在下一節中,將會以能夠解答這個疑問的先驗分布為例,來進行解說。而作為學習的出發點,首先我們來一起思考均勻分布的先驗分布。