卡方检验方法理解

卡方检验的理解

今天正好和老同学一起研究了一下统计学，也是研究F检验之后，还有一个比较重要的概念，卡方检验，没有理解。

不同的统计学方法应用的场景是不同的，所以即便是我们清楚各个检测方法的具体计算过程，也务必要清楚在何种情况下应用何种检验方法。

具体例子

那么今天我们一起来研究一下卡方检验吧，首先提出来的就是卡方检验的应用场景，这里还是举例说明，借用网络上的一个视频中的例子，来做个总结。

上面的图片，列分别是不同的搜索机器人，No new search 和New search 分别代表是否有新的搜索，也就是可以理解为二次搜索（如果发生了二次搜索，可以理解为搜索机器人提供的页面不符合用户的搜索内容）。

按照这份数据，我们可以发现通过横和竖的Total看到总数量，那么第一个3511是实际数，而期望的数是多少呢？

具体计算过程

可以根据Total来计算出来

简单理解就是5000，可以按是否发生新搜索的占比情况，分为3539和1461，这个比例是根据列后方的总数7078/10000和2922/10000算出来的，也就是期望的值。

根据这个期望和实际数据的差值，我们可以进行计算，如下：

上图中的卡方分布图，可以看出，和t检验的类似，只不过卡方检验没有双尾，全都是正数，从公式中也不难理解。经过计算，我们得到的卡方值为6.12，可以通过查表获取excel的公式计算出对应的概率p=0.047，小于0.05，所以前面的三个算法一样好的概率是0.047，小于0.05，即三个搜索机器人不是一样好的，他们是有差异的。

通过以上的例子，我们可以进一步的应用于工作中，例如药物疗效判断比较等，还是特别使用的一种比较差异性的方法。

类似的这样的情况你能看懂吗？

从卡方分析结果可以看出，p<0.05，不同减肥方式样本对于胆固醇水平共1项呈现出显著性(p<0.05)，意味着不同减肥方式样本对于胆固醇水平共1项均呈现出差异性。