卡方检验的理解

今天正好和老同学一起研究了一下统计学,也是研究F检验之后,还有一个比较重要的概念,卡方检验,没有理解。

不同的统计学方法应用的场景是不同的,所以即便是我们清楚各个检测方法的具体计算过程,也务必要清楚在何种情况下应用何种检验方法。

具体例子

那么今天我们一起来研究一下卡方检验吧,首先提出来的就是卡方检验的应用场景,这里还是举例说明,借用网络上的一个视频中的例子,来做个总结。

image-20220518223712947

上面的图片,列分别是不同的搜索机器人,No new search 和New search 分别代表是否有新的搜索,也就是可以理解为二次搜索(如果发生了二次搜索,可以理解为搜索机器人提供的页面不符合用户的搜索内容)。

按照这份数据,我们可以发现通过横和竖的Total看到总数量,那么第一个3511是实际数,而期望的数是多少呢?

具体计算过程

可以根据Total来计算出来

image-20220518224100156

简单理解就是5000,可以按是否发生新搜索的占比情况,分为3539和1461,这个比例是根据列后方的总数7078/10000和2922/10000算出来的,也就是期望的值。

根据这个期望和实际数据的差值,我们可以进行计算,如下:

image-20220518224232178

image-20220518224255281

上图中的卡方分布图,可以看出,和t检验的类似,只不过卡方检验没有双尾,全都是正数,从公式中也不难理解。经过计算,我们得到的卡方值为6.12,可以通过查表获取excel的公式计算出对应的概率p=0.047,小于0.05,所以前面的三个算法一样好的概率是0.047,小于0.05,即三个搜索机器人不是一样好的,他们是有差异的。

通过以上的例子,我们可以进一步的应用于工作中,例如药物疗效判断比较等,还是特别使用的一种比较差异性的方法。

类似的这样的情况你能看懂吗?

img

从卡方分析结果可以看出,p<0.05,不同减肥方式样本对于胆固醇水平共1项呈现出显著性(p<0.05),意味着不同减肥方式样本对于胆固醇水平共1项均呈现出差异性。