5 r×c列联表的概率_定性数据的统计分析-QQ阅读女生青春网

书名：定性数据的统计分析
作者名：赵平
本章字数：1265字
更新时间：2020-08-29 11:54:20

5 r×c列联表的概率

对于r×c列联表，可以有=r（r-1）/2个行对子和=c（c-1）/2个列对子。假设行为a和b，列为c和d，概率，r×c列联表一共有个θ。实际上，我们只需要（r-1）（c-1）个概率

就能够决定变量是否相关。当（r-1）（c-1）个θ等于1时，个θ也必然等于1，两个变量相互独立。

当变量是定序的时，概率有三种类型（参见图1-2）。

1．局域概率

该式由相邻的两行和两列的概率构成，用于检验列联表的“局域”相关。

2．行是局域、列是全域的概率

简单地说，概率由相邻两行的全部概率构成。如果

θ′≥1（或logθ′≥0），j=1，…，c-1

那么

这表明i+1行的概率分布随机高于i行，即i+1行的较大概率处于列定序变量赋值尺度的高端。当应变量是定序的时，{}可用来比较两行的概率分布。

在学习对数线性模型和对数概率比回归模型时，以上两种θ是经常用到的统计量，可以说是贯穿全书的重要工具。

3．全域概率

将r×c列联表的行和列合并为2×2列联表，概率：

图1-2（a）θij，（b），（c）

资料来源：Agresti，1984。

是两个变量整体相关的量度。

显然，由于将相邻类别或层次进行不同合并，局域、局域-全域和全域概率不止一个。三个概率有以下关系：如果所有局域，那么所有局域-全域。如果所有局域-全域，那么所有全域。对每一类型而言，如果所有对数概率等于0，则变量相互独立。我们应用表1-4的数据，说明三种定序变量的概率。表1-5包含三种样本的定序概率，，，，，分别表示局域概率、局域-全域概率和全域概率。统计结果如下。

（1）用接受大学教育和接受中学教育相比，家庭收入“中下”的人接受大学教育的概率是家庭收入“下下”的人的1.42 倍，家庭收入“中上”的人接受大学教育的概率是家庭收入“中下”的人的1.63 倍，家庭收入“上上”的人接受大学教育的概率是家庭收入“中上”的人的1.39倍。

（2）用接受大学教育和接受中、小学教育相比，家庭收入“中下”的人接受大学教育的概率是家庭收入“下下”的人的1.70 倍，家庭收入“中上”的人接受大学教育的概率是家庭收入“中下”的人的1.73倍，家庭收入“上上”的人接受大学教育的概率是家庭收入“中上”的人的1.44倍。

（3）用接受大学教育和接受中、小学教育相比，家庭收入“中下”、“中上”、“上上”的人接受大学教育的概率是家庭收入“下下”的人的2.37倍，家庭收入“中上”、“上上”的人接受大学教育的概率是家庭收入“下下”、“中下”的人的2.21倍，家庭收入“上上”的人接受大学教育的概率是家庭收入“下下”、“中下”、“中上”的人的2.25倍。

以上分析着重于家庭收入和接受高等教育的关系。实际上，表1-5的三组概率表明受教育程度的每一层次都与家庭收入密切相关，收入越高，家庭成员接受较高水平教育的比例越大。

表1-5 受教育程度和家庭收入的定序概率

资料来源：中国社会科学院社会学研究所的社会调查。

是相邻两行的局域-全域概率，可以从另一角度证明以上的推论。公式1-6表明，当θ′≥1时，行（i+1）的概率分布随机高于行i，即行（i+1）在列的层次高端的概率大于行i在列的层次高端的概率。所以，随着家庭收入的增长，家庭成员接受较高水平教育的比例增大，家庭收入和受教育程度之间有线性增长的趋势。

本周热推：

商业周刊/中文版：东西之间：土耳其经济走向数字经济