4 定类-定序列联表的检验统计量
检验统计量M2适用于两个变量都是定序变量的情况。如果一个解释变量是定类的且只有两个类别,则仍然可以使用该统计量。如果定类变量的类别超过两个,就要使用另一种统计量。使用这种统计量的步骤是,计算定序应变量在定类解释变量每一行上的均值,然后比较行均值之间的变差。该统计量具有df=I-1的大样本卡方分布。当I=2时,该统计量等同于比较两行均值之差的M2。
4.1 2×2列联表的概率比
概率比用于量度变量之间的相关,以2×2列联表为例:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0025_0001.jpg?sign=1739588749-YqXebCq5A9fi6wGW9uZKyYzux1Dp2ssI-0-623a975901f1de8c8cb6c2f2c19978f0)
Ω是非负数,当分子大于分母时,Ω>1。概率比之比(或简称概率)等于:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0025_0002.jpg?sign=1739588749-Irhs13KAEYf1w77dzAmYDrU7e8fcHhbm-0-42628d741475e3ffbb0f9ab09870ec47)
概率又称交叉乘积比或优比。优比可以用来量度列联表中两行里不同两列的概率。以表1-1为例,因为男性和女性的边缘和不相等,所以各列的单元格频次不能互相比较(即各列的女性和男性的数据不能互相比较),必须用各行单元格频次之比n11/n12和n21/n22或单元格概率比Ω1和Ω2比较。如果θ>1,则女性接受高等教育的概率大于男性;反之(θ<1),女性接受高等教育的概率小于男性。一般而言,列联表的边际数据分布大多数是不同的,因此将同列的单元格数据进行比较没有意义,只有优比才能正确地反映同列数据的大小。
概率比也可以用条件概率表示:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0001.jpg?sign=1739588749-Qv9re24UhIFkgVE3VeoIWpEJB1GKg15g-0-4361afd3c4f4df4b7d2a6b32b480b6d7)
因此
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0002.jpg?sign=1739588749-cSf549E5ufdWJ8T1Qc1zoJ80r8WNKpAJ-0-dfa6f62d7d7ba7126e9a516988eb3abf)
当θ=1时,Ω1=Ω2,两组条件概率分布(π1(1),π2(1))和(π1(2),π2(2))相等,两个变量相互独立。
当1<θ<∞时,必然出现π1(1)>π1(2),π2(2)>π2(1),变量正相关。当0≤θ<1时,必然出现π1(1)<π1(2),π2(2)<π2(1),变量负相关。
在一般情况下,总体的π和θ是未知的,我们要用随机样本的频次求θ的估值:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0003.jpg?sign=1739588749-TTCQSlLXMMmhHKgBcHUcBFcxBhan63zq-0-5a227b48fcced053411148fa9d7c1faf)
的优点在于,任一行或任一列的频次乘以常数,
的值不变。如果行或列的次序颠倒,
的值是原值的倒数,方向相反。因此,两个互为倒数且方向相反的
表示相同变量的相关程度。
根据算式1-6,当任意单元格频次nij=0时,等于0或∞。因为单元格频次在随机抽样中是一变量,每次随机抽样都会有不同的结果,所以为了避免
=0,可用下式替代式1-6:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0010.jpg?sign=1739588749-APVTc0JyJ2lCpRpqKCn14L4jyQzcRqGp-0-d193456cf9247c7d3134da575d961156)
该式的计算结果只有微小的变化,可以反映变量之间的关系。
4.2 用随机样本的log
估计总体的logθ
随机样本的log的标准差为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0001.jpg?sign=1739588749-7s0xXyYVhKuiu30dsiykoYhBLUf4nsb6-0-438598846e448744250e8caa1afab6ce)
总体的logθ的置信区间为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0002.jpg?sign=1739588749-iDYVYckwcxQN2PNtbdUzxZrHBWAadZU4-0-64673009b051f9e7afe54c59724c5b0d)
式中,p是双尾概率。
根据表1-1,样本概率=(471×2078)/(1793×410)=1.33,
=0.285。概率
表明样本中接受高等教育的男性是女性的1.33倍。
=0.285的估计标准误为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0007.jpg?sign=1739588749-1OdZ0fqPl3DGf8EbFHjHR8uDk4cvuZHm-0-b61eacbe3e14b82a9f203ae5f2388299)
95%置信区间的总体logθ:0.285±1.96(0.075)→(0.140,0.430),相应的总体θ的置信区间为(e0.140,e0.430)→(1.150,1.537)。这个区间不包含1,所以性别和是否接受高等教育是相关的。如果区间包含1,则性别和是否接受高等教育就有可能是相互独立的。