3.2 独立性检验的基本思想及其初步应用
1.了解分类变量的意义. 2.了解2×2列联表的意义. 3.了解随机变量K2的意义.
4.通过对典型案例分析,了解独立性检验的基本思想和方法.
,
1.分类变量和列联表
(1)分类变量
变量的不同"值"表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d
(1)列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅限于研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2列联表.
(2)列联表有助于直观地观测数据之间的关系.
2.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义
利用随机变量K2来判断"两个分类变量有关系"的方法称为独立性检验.