欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!
对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。
作者:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据。
知乎:
前言
卡方检验是一种确定两个分类变量之间是否存在显着相关性的统计方法。就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
1.适用条件
1)每组的理论次数都要大于5;
2)应用卡方测验的次数资料不应是测量的观察值或以百分数表示的相对数。
2.分类
1)检验样本方差的齐性;
2)适合性检验,比较观测值与理论值是否符合(孟德尔遗传定律);
3)独立性检验,比较两个或两个以上的因子相互之前是独立的还是互相影响的。
3.R实例
代码部分只体现卡方独立性检验
R语言中实现卡方检验的函数是chisq.test(data),data以列联表的形式展现。
1#以MASS包中Cars93数据集为例。检验汽车销售类型(Type)和安全气囊(AirBag)类型之间是否具有显著相关性。
2library(MASS)
3car.data<-table(Cars93$AirBags,Cars93$Type)#构建列联表
4car.data
5 Compact Large Midsize Small Sporty Van
6 Driver & Passenger 2 4 7 0 3 0
7 Driver only 9 7 11 5 8 3
8 None 5 0 4 16 3 6
9chisq.test(car.data)
10
11 Pearson's Chi-squared test
12
13data: car.data
14X-squared = 33.001, df = 10, p-value = 0.0002723
15#结果显示,p<0.01,表明销售汽车类型和安全气囊具有极显著相关性。可以估计哪种类型的汽车可以更好地
16#销售哪种类型的气囊。
备注
1)卡方检验的结果,值是越大越好,还是越小越好?
答:与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端,所对应的概率值越小。如果试验设计合理、数据正确,显著或不显著都是客观反映。没有什么好与不好。
参考
T检验与F检验的区别_f检验和t检验的关系 - Little_Rookie - 博客园
往期精彩:
R语言实现基本统计分析之t检验
R中数据结构与数据的输入
R语言:以多列标准筛选特定行
用R语言实现信息度量
公众号后台回复关键字即可学习
回复 爬虫 爬虫三大案例实战
回复 Python 1小时破冰入门
回复 数据挖掘 R语言入门及数据挖掘
回复 人工智能 三个月入门人工智能
回复 数据分析师 数据分析师成长之路
回复 机器学习 机器学习的商业应用
回复 数据科学 数据科学实战
回复 常用算法 常用数据挖掘算法