當兩個相互關聯著的變量分布都是真正的二分變量,在兩個分布中間都各有一個真正的缺口時,用phi係數(phi coefficient)解決此類“點分布”問題,因其係數用符號Φ表示,故而得名。它是指兩個分布都隻有兩個點值或隻是表示某些質的屬性,如工作狀態(有工作與無工作)、吸煙狀況(吸煙者與非吸煙者)、婚姻狀態、智能水平等。此時,可以運用列聯表(contingency table)計算,因此它又稱列聯係數(contingency coefficient)。適用資料是除四分相關之外的四格表(計數)資料,是表示兩因素兩項分類資料相關程度最常用的一種相關係數。若直接用四格表內數據計算可用下式。
【例5-14】 下麵是關於吸煙與患癌症之間的一組假設數據。吸煙狀況(X)分為吸煙者與非吸煙者,用0、1表示,死亡原因(Y)分為因吸煙致癌死亡與其他原因死亡兩種,用0、1表示。試求它們之間的相關。
X:0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
Y:0 1 0 0 1 0 0 0 1 1 0 1 1 1 1 0 1 1 1 0
解:將上麵的數據整理成下麵的四格表:癌症(0)其他(1)吸煙者(0)
從表中可知a=6,b=4,c=3,d=7,代入公式5-17得:
答:吸煙與吸煙致癌死亡之間的相關係數為0.302。
Φ相關係數的大小,表示兩因素之間的關聯程度。當Φ值小於0.3時,表示相關較弱;當Φ值大於0.6時,表示相關較強。關於其相關方向,一般由表中的ad、bc的大小來說明。負值表明一次測量中的“是”多於另一次測量中的“非”。完全正相關時,全體個案落於四格表中a、d兩格中;完全負相關時,全體個案會落於四格表中b、c兩格中。零相關時,全體個案勻稱地落於四格中。但在應用Φ相關時,一般不指出相關方向,隻說明相關程度是否顯著。
另外,對於四格表(獨立樣本)相關程度的描述,除常用Φ相關外,有時還用到其他方法。例如尤爾(Yule)的關聯係數Q或歸結係數γ(有時用W表示)