张伟豪SPSS培训视频7笔记(T检验和方差检验)

上图所示，显著性和相应的t值。还有一个问题，很多论文在标准系数后面会加***，比如在ATT的标准系数0.225***，这是非常错误的，因为显著性代表的是非标准化系数的显著性，不是标准化系数的。

论文报告中要把非标准化的B值，标准误，t值，和显著性都要报告，因为这样才能判断B/标准误=t，才能判断是否造假。

如果写数学式，比如有的论文当中会写，需要写非标准化系数的值，比如上图中，AI=1.255+0.228ATT+0.087EOU+0.429UF

关于非标准化系数的解释，比如ATT系数0.228，意思是当ATT增加1单位，因变量AI就增加0.228个单位。

关于标准化系数的解释，比如ATT系数0.225，意思是当ATT增加1个标准差，因变量AI就增加0.225个标准差。

在自变量之间不能有共线性，因为会导致有共线性的自变量太过雷同，自变量之间区分不出谁对因变量有影响，出现错误的估计。

在自变量和因变量之间同样不能有共线性，比如上图，态度如果和行为意图之间的相关性如果是0.8，那R方就是0.8的平方，也就是0.64，也就是说态度就可以解释64%的因变量，那剩下的几个自变量对因变量的解释就太少了，会导致剩下的自变量都不显著。

如果出现自变量和因变量有共线性，那么可以通过以下观察发现。1、标准化系

数贝塔会出现负值。因为只要皮尔森相关都是正值，回归就都会是正值，出现负值就意味着有共线性存在。2、贝塔值的平方会高于R方，正常情况下贝塔值的平方是不会高于R方的。

容许（容差）的计算方法，比如ATT的容许，是把ATT作为因变量，其他两个自变量对它进行解释，如果有共线性的话，相关性就会比较高，那么R方也会比较大，1-R方，就是容许量，因此容许量比较小，就说明有共线性，而VIF是容许的导数，容许量比较小，它的导数就会比较大，就是有共线性。

上图中的常量是不用解释的，因为它的大小无所谓，不会有影响，显不显著也没关系。

在回归分析的方法下拉菜单中，有以上几种方法，分别是什么意思呢？

输入法表示，我们几个自变量对因变量是有假设的，假设他们之间有相关关系，然后再做回归。因为输入法不论变量之间显著不显著，都会跑出结果来。这种叫做验证式研究。

逐步法是将后退法和前进法合并起来的方法，什么是前进法什么是后退法呢？后退法指的是将不重要的都扔掉，留下重要的。比如捡漂亮石头，我把所有石头都放到袋子里，然后将不漂亮的扔掉，剩下漂亮的，这叫做后退法。前进法指的是将重要的一个个捡进来，捡到不重要的就停止。比如捡石头的袋子是空的，我把最漂亮的石头捡进来，然后再捡第二漂亮的，一直捡到不漂亮的为止。这叫做前进法。逐步法就是将前进法和后退法合并起来。

逐步法是在有很多自变量，不知道里面哪些自变量对因变量有影响，因此也就没有假设，需要通过逐步法进行筛选，剩下有影响的自变量。这种叫做探索式研究。通常大多数的逻辑思回归都会用逐步法，因为没有假设。

路径分析应该如何做？如上图，里面有三个因变量，分别是有用性、态度、行为意图。这样就需要做三次回归

第一个回归是自变量EOU（易用性），因变量UF（有用性）

第二个回归是自变量是EOU（易用性）和UF（有用性），因变量是ATT（态度）

第三个回归是自变量是UF（有用性）和ATT（态度），因变量是BI（行为意图）

然后把三次回归的分析结果综合为一张表，路径分析就完成了。

最后可以把路径分析结果写入模型中，先写非标准化系数，后面可以加***，然后下面括号写（标准误，标准化系数），因为这样别人才可以通过非标准化系数和标准误相除，算出是否真的显著。

均值检定中，所有因变量dependent，都必须是连续变量，自变量必须是一个

T检验自变量是二分类变量binary，例如是或否，男或女

单变量方差分析one-way ANOVA自变量是三类以上分类变量category，比如学历、年龄等，并且只能有一个自变量。如果放入好几个自变量，SPSS会一个一个跑完。

双变量方差分析two-way ANOVA自变量也是三类以上分类变量，但是有两个自变量，控制变量必须是分类变量

共变量方差分析ANCOVA自变量是二分类变量或者分类变量，控制变量必须是连续的

回归的自变量必须是连续的，如果是分类变量，需要转换为虚拟变量（哑变量）dummy

先来介绍t检验

H0永远放的是没有显著差异的假设，要不要拒绝要看情况而定。

一般我们常用到的是独立样本t检验和成对样本t检验，如何区分呢？

两群样本不重复为独立样本——比如上图，实验组和控制组服药前血压进行鉴定，看看有没有差异，因为是两个不同（不重复）样本，因此属于独立样本t检验。我们希望服药前是没有差异的，因此希望不拒绝H0。服药后两组再进行检验，也是不同的两组样本，因此也是独立样本t检验，这时我们希望服药后两组应该有差异，这样药物才是有效的，因此希望拒绝h0.

两群样本重复为成对样本——比如上图，实验组服药前和服药后进行检验，因为是同一组（重复）样本，因此属于成对样本t检验。我们希望服药前和服药后有差异，这样药物才是有效的。控制组服药前和服药后进行检验，因为也是同一组（重复）样本，因此也属于成对样本t检验。我们希望控制组服药前和服药后没有差异，这样才能证明安慰剂没有起到心里安慰作用。

具体操作如下

表格设定了pre1测试前水平，after测试后水平，control分为实验组1，控制组2。先做实验组和控制组进行测试前后是否有差异，所以采用独立样本t检验。

选择分析——比较均值——独立样本t检验，将pre1和after选入检验变量中，control选入分组变量中，定义组选为1和2，确定

结果显示，第一行显著性是不显著的，说明控制组和实验组在测试前没有明显差

异，样本是没有问题的。第二行显著性，测试前是不显著的，测试后是显著的，说明药物确实起了作用。但是并没有显示出测试后的差异是只有实验组有差异，还是实验组和控制组都出现了差异，如果都出现了差异那就说明安慰剂也起作用了，所以需要再检验控制组有没有出现差异。再做成对样本t检验。

选择数据——拆分文件，

选择比较组选项，将control选进去，意思是进行分组分析。如果不进行拆分文件，那做出来的结果是两个组的人都有，没有分开。

然后选择分析——比较均值——配对样本t检验，将pre1和after选进去，确定

结果显示，实验组1，显著性是显著的，控制组2，显著性是不显著的。符合预期结果，说明控制组没有受到安慰剂影响。

上边这个表，配对样本相关性，指的是实验组1，相关系数0.687，显著性显著，说明实验组在测试前后的相关性比较高。控制组2，相关系数0.410，显著性不显著，说明控制组在测试前后的相关性比较低，虽然0.410比较高了，但是因为样本只有10个，太少，所以还是不显著，如果样本多一些，比如100个，可能就显著了。

现在来做ANOVA检验

如上图，media媒体有1234四种，我们要看看这四种媒体在影响力influence、吸引力attractive、信任trust三个值中的差异。

选择分析——比较均值——单因素ANOVA，把三个变量放入因变量列表，把四种媒体media放入因子（自变量）框，选择事后多重比较选项，勾选其中的scheffe 和tukey选项，然后确定

先看ANOVA表，影响力和信任的显著性是显著的，吸引力不显著，说明四种媒体在影响力和信任方面是有差异的，在吸引力方面是没有差异的。但是这个表不能看出四中媒体谁和谁有差异。需要看时候检验。

先查看turkey HSD，发现上图中红框是有差异的，两个红框指的是相同的两个媒体。说明1平面媒体和3网络媒体的影响力是有差异的，差异多少呢？看第一列平均差I-J为-10.76，也就是说网络媒体比平面媒体高10.76.

再看信任的Turkey HSD，上图中红框都是显著的，解释方法同上。

在回归分析中，如果自变量是分类变量，因为要求回归分析的自变量必须是连续变量，因此就需要转成哑变量才可以计算。

首先来看如何转换

现在要把学历school这个分类变量转换为哑变量，学历从小学到大学一共有12334四类，

现在在白纸上画下来，四个分类要以其中一个为基准，把国中以下作为基准，那它的三个值都是0，其他三个如上图所示，有一个值为1，其他为0.

利用转换为新变量功能，把2转换为1，其他都是0，设置一个新值