首頁 統計學關我什麽事:生活中的極簡統計學

第11講 掌握多條信息時的推理② 以垃圾郵件過濾器為例

11-1 垃圾郵件過濾器以貝葉斯推理為基礎

在進行統計推算與貝葉斯推理等概率推算時,通常需要兩條以上的信息。並且,信息數量越多,推算出的結果可信度越高。後麵的三講,會講解如何利用多條信息來進行推算的問題,而其中的要點則是上一講中提到的“概率的乘法公式”。在這一講,會講解如何利用兩條信息來計算出後驗概率。

本講主要探討垃圾郵件過濾器的問題。

所謂的垃圾郵件,指的就是一些不良商家通過網絡隨意發送的廣告郵件。而垃圾郵件過濾器的功能之一就是自動判別垃圾郵件,並把它歸入“垃圾郵件”的分類中。

事實上,貝葉斯推理的實際應用中,最廣為人知的正是這種垃圾郵件過濾器。而目前,垃圾郵件過濾器已經被引進更為廣泛的網絡郵件服務當中。讀者們在使用該服務之後,都會為它在分類判斷方麵的準確性而驚歎不已,而這一切都要歸功於貝葉斯推理。

11-2 在過濾器上設置“先驗概率”

和前麵的操作步驟相同,第一步是設定事前類別,並在獲得一條信息之後,計算出後驗概率。

在這裏我們要做的,並不是“自己去判斷收到的郵件是否為垃圾郵件”,而是為大家講解“電腦會對所收到的郵件做出機械判斷”的原理。

首先,電腦在對收到的郵件進行掃描之前,會為每個類別分配“這封郵件是垃圾郵件還是正常郵件”先驗概率。在這裏,利用“理由不充分原理”(見3-2),使雙方各占0.5的概率。

這就意味著,對於接收到的郵件,過濾器會做出“垃圾郵件的概率是0.5,正常郵件的概率也是0.5”的判斷。而此時如果有可信度更高的概率,也可以將其設定為先驗概率,如圖表11-1所示。

圖表11-1 理由不充分原理的先驗概率