独立性检验的与列表相关联的概念 相关性与独立性

作者&投稿:寸瑾 (若有异议请与网页底部的电邮联系)

独立性检验的学习目标:了解独立性检验的基本思想
独立性检验的学习重点:会对两个分类变量进行独立性检验
即为什么不能只凭列联表中的数据和由其绘出的图形下结论, 由列联表可以粗略地估计出两个变量(两类对象)是否有关(即粗略地进行独立性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用独立性检验的方法确认所得结论在多大程度上适用于总体.关于这一点,在后面的案例中还要进一步说明. 独立性检验是一种假设检验(先假设,再推翻假设),它的原理及步骤与反证法类似.
反证法假设检验
要证明结论A想说明假设H1(两个分类变量,即两类对象有关)成立
在A不成立的前提下进行推理
在H1不成立,即H0(两类对象无关,即相互独立)成立的条件下进行推理,
推出矛盾,意味着结论A成立,
推出小概率事件(概率不超过α,α一般为0.001,0.01,0.05或0.1)发生,意味着H1成立的可能性很大(可能性为1-α),
没有找到矛盾,意味着不能确定A成立,
没有推出小概率事件发生,意味着不能确定H1成立。 案例 某医疗机构为了了解患肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸烟者2148人,不吸烟者7817人,调查结果是:吸烟的2148人中49人患肺癌,2099人不患肺癌;不吸烟的7817人中42人患肺癌,7775人不患肺癌.
根据这些数据能否断定:患肺癌与吸烟有关?
【方法一】由样本数据,可得如下列联表和条形图: 烟 \ 癌症不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965在不吸烟者中,患肺癌的比重是0.54%;在吸烟者中,患肺癌的比重是 2.28% 。
说明吸烟者和不吸烟者患肺癌的可能性存在较大的差异,吸烟者患肺癌的可能性大。可初步判断:患肺癌与吸烟有关.
【方法二】以上通过对数据和图表的分析,得到的结论是:患肺癌与吸烟有关.
但这个结论在多大程度上适用于总体呢?要回答这个问题,就必须借助于独立性检验的方法来分析.
独立性检验是检验两个分类变量是否有关(是否相互独立)的一种统计方法:
用字母表示题设数据(使之更有一般性),可得如下2×2列联表 烟 \ 癌症不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+dn=a+b+c+d想说明假设H1“患肺癌与吸烟有关”成立.
假设H0:H1不成立,即患肺癌与吸烟没有关系.
在H0成立的条件下,吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即aa+b≈c;c+d; a(c+d)≈c(a+b); ad-bc≈0.
因此|ad-bc|越小,则说明患肺癌与吸烟之间的关系越弱.
构造统计量
作为检验在多大程度上可认为“两个分类变量有关系”的标准.
若H0成立,则k2应该很小.实际上,统计学家们已经估算出如下概率: P(K2>K)0.500.40.0250.150.10K0.4550.7081.3232.0722.701P(K2>K)0.050.0250.0100.0050.001K3.8415.0246.6377.87910.828这就是独立性检验的临界值表。
回到本案例,把题设数据代入公式,可得

在H0成立的情况下,P(k2≥10.828)<0.001,
即k2的值大于10.828的概率非常小(只有0.1%).
但这个小概率事件竟然发生了。
因此,我们有99.9%以上的把握认为“患肺癌与吸烟有关”.
【总结】独立性检验的解题步骤如下:
第一步 提出假设H0:患肺癌与吸烟没有关系.(目标结论H1“患肺癌与吸烟有关系”的反面.)
第二步 计算独立性检验的标准,即统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}的值.(它越小,原假设H0成立的可能性越大;它越大,目标结论H1成立的可能性越大.)
第三步 由独立性检验的临界值表得出结论及其可信度(即在多大程度上适用).



独立性检验与相关关系的区别~

1、概念不同
相关关系是客观现象存在的一种非确定的相互依存关系,即自变量的每一个取值,因变量由于受随机因素影响,与其所对应的数值是非确定性的。
独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验,它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。
2、变量的情况不同
相关关系分析中的自变量和因变量没有严格的区别,可以互换。
其不同“值”表示相应对象所属的不同类别的变量,分类变量的取值一定是离散的,而且不同的取值仅表示相应对象所属的类别。

3、变量的要求不同
当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。
在独立性检验中,一般只研究两个分类变量,且每个分类变量只有两个可取的值;这时得到的列联表称为2×2列联表。
参考资料来源:百度百科-相关关系
参考资料来源:百度百科-独立性检验

异:
独立性检验:是为了表明两者是否有关系(即两者是不是毫无关联的事件)
相关关系:是说明两者成什么样的关系,无论是否有关系都可以表示出回归方程,但如果相关系数过小(绝对值小于0.05),就说明两者的关系不大,就是独立了。
同:
都是用来说明事物之间有无关系的。
相关性检验:
是对变量之间是否相关以及相关的程度如何所进行的统计检验。
变量之间的相关的程度用相关系数r表征。当r大于给定显著性水平a和一定自由度f下的相关系数临界值T"a、时,表示变量之间在统计上存在相关关系。否则,则不存在相关关系。
独立性体验:
统计学的一种检验方式。与适合性检验同属于X2检验,它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。
关于以上问题,举一个例子:
有四组数据性别,地区,年龄,血糖。
1、当想要研究性别,地区与年龄关系,由于性别和地区是类别型变量,可以用独立性检验;
2、当想要研究某一地区内男性的年龄和血糖的关系,由于年龄和血糖是定量变量,可以计算相关性然后用相关性检验;
3、当想要研究某一年龄段,不同地区男性之间的血糖是否处于同一水平,可以采用t检验。

高中生物伴性遗传知识点整理
答:伴性遗传分为XY型和ZW型。1、XY型:雄性个体的体细胞中含有两个异型的性染色体(XY),雌性个体含有两个同型的性染色体(XX)的性别决定类型。2、ZW型:与XY型相反,同型性染色体的个体是雄性,而异型性染色体的个体是雌性。蛾类、蝶类、鸟类(鸡、鸭、鹅)的性别决定属于“ZW”型。伴X隐性遗传病的...

如何使用spss进行交叉列联表分析
答:1、首先我们打开之前导入的spps文件。2、然后我们选择变量视图。3、然后我们选择分析,定义多重变量。4、然后我们从分析处,将单选与多选交叉分析。5、然后我们定义交叉分析格式,点击选项。6、然后我们定义范围,点击“确定”,输出结果即可。

Excel如何将下拉列表和行列表的颜色相关联
答:我在下拉列表中设置了A和B,我现在想选择A时让A所在的行全部显示成红色,选B时让B所在的行全部显示成绿色怎么设置?我现在是可以单独设置A和B单元格所在的颜色,但要改变单元格所在行的全部颜色不知道怎么设置,还请哪位大侠指点一二,本人不胜感激~~~ xinxin...

什么叫水文资料的一致性?
答:根据水资源开发利用和长远规划的协调性的原则,本次地下水资源分区综合考虑河流水系的完整性,水文气象特征一致,地形地貌和水文地质条件相似,有利于三水转换的研究和水资源总量汇总计算,区域经济发展相关联的原则,将全市划分为六个水资源区。分别为:鱼梁河区、百花湖区、南明河下游区、南明河上游区、蒙江区[1]。 三...

人与人之间最根本的利益关系是什么?
答:相分离才最稳固。否则,就会滋生许多的矛盾与纠纷,两人之间的关系也会逐渐由夫妻演变为普通朋友、陌路人,甚至仇敌。 在所有与我们有关联的人中,离我们最近的,是那些与我们完全以感情为纽带相联系的人;离我们最远的,是那些与我们完全以利益为纽带相联系的人;离我们不近也不远的,是那些与我们...

相关系数和回归系数的联系和区别
答:一、相关系数和回归系数的区别 1、含义不同 相关系数:是研究变量之间线性相关程度的量。回归系数:在回归方程中表示自变量x 对因变量y 影响大小的参数。2、应用不同 相关系数:说明两变量间的相关关系。回归系数:说明两变量间依存变化的数量关系。3、单位不同 相关系数:一般用字母r表示 ,r没有单位...

科学与技术的关系是什么
答:科学与技术既有密切联系,又有重要区别。科学为技术的发展提供基础和支撑,而技术进步则不断地向科学研究提出新的课题,反过来激励科学发展。科学指的是通过观察、实验、仿真和分析去研究大自然中各种事物和现象并探求其原理的学科总类,目的是认知世界。技术是解决各种问题的手段、形式、方法及过程的集成,...

问卷的效度检验
答:同质效度是指量表测量同一特征的其他测量方法相互关联的程度。异质效度是指量表和测不同特征的测量方法不同但理论上有关特征的测量方法之间相互关联的程度。建构效度指测量工具所能测量到的理论概念的程度,也就是说若将测量工具所得的结果与相同理论下的其他概念相比较,当二者有某种预期的相关性时,就表示这种测量工具...

人教版七年级上册数学所有概念
答:列表画图造方程,解方程时守章法。 检验准且合题意,问求同一才作答。 添加辅助线 学习几何体会深,成败也许一线牵。 分散条件要集中,常要添加辅助线。 畏惧心理不要有,其次要把观念变。 熟能生巧有规律,真知灼见靠实践。 图中已知有中线,倍长中线把线连。 旋转构造全等形,等线段角可代换。 多...

统计学里的P是如何计算出来的
答:这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一...