二、探究新知
教师引导:统计学中一般采取什么方式手段研究分析解决问题? 如何运用统计学的方法进行分析判断?
学生探究:
1.利用频率分布表判断;
不患肺癌 患肺癌 总计 不吸烟 99.46% 0.54% 1 吸烟 97.72% 2.28% 1 由患肺癌在吸烟者与不吸烟者中的频率差异可粗略估计吸烟对患肺癌有影响;
1. 利用统计图直观判断
(1) 通过三维柱形图判断两个分类变量是否有关系:
由图中能清晰看出各个频数的相对大小, 由患肺癌在吸烟者与不吸烟者中的相对频数差异可粗略估计吸烟对患肺癌有影响;
(2) 通过二维条形图判断两个分类变量是否有关系:
作出患肺癌在吸烟者与不吸烟者中的的频率条形图
由图中可看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例, 可估计吸烟对患肺癌有影响.
教师引导:上面通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否如此呢?并且能够以多大的把握认为"吸烟与患肺癌有关"?能否用统计学观点进一步考察这个问题.
师生共同探究:
为研究的一般性,在列联表中用字母代替数字
不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d
师:若假设吸烟与患肺癌两个变量没有关系,则应得到什么结论?
生:在吸烟者中患肺癌的比例约等于不吸烟者中患肺癌的比例,即
a/a+b≈c/c+d a(c+d) ≈ c(a+b) ad -bc ≈ 0
师:若计算ad -bc的结果,由此可以初步得出什么结论?
生:︱ad -bc︱越小,说明吸烟与患肺癌之间关系越弱;
︱ad -bc︱越大,说明吸烟与患肺癌之间关系越强.
师:为使不同的样本容量的数据有统一的评判标准,可构造一个随机变量
其中 为样本容量
若假设成立,应该很小;若很大,说明假设不成立,即两变量有关系. 利用上述公式,可计算出问题中的的观测值为
同学们肯定会提出同一问题:那么这个值是不是很大?怎样才算很大?
在假设成立的情况下,统计学家估算出如下的概率:
现在的观测值56.632远大于6.635,即假设成立的概率为0.01,是小概率事件,也就是假设不合理的程度约为99%,,因此可以下结论:有99%的把握认为"吸烟与患肺癌有关系"。这就是两个分类变量独立性检验的基本思想,可以表述为:当 很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系。
师:类比反证法的原理,你能否总结出独立性检验的基本步骤?
生:(1)假设两个分类变量与无关系;
(2)计算出的观测值;
(3)把k的值与临界值比较确定与有关的程度或无关。