JMP Bootstrap重抽样怎么运行 JMP Bootstrap置信区间怎么解读-JMP中文网站

　　在样本量不算大、数据分布有些偏斜，或者常规模型的前提假设不太站得住脚的时候，Bootstrap这种方法可以通过反复抽样的方式来估计统计量的波动情况，所以搞清楚JMP里面怎么运行Bootstrap重抽样，以及得到置信区间以后该怎么解读，就变得很有用处；这里头的关键一步，是先选准你想要观察的那个指标，比如均值、差值、回归系数或者其他类型的统计量，然后再根据重抽样得到的结果，去判断它大概会落在一个什么样的区间范围里。按照JMP官方的说明，Bootstrap会去估计某个统计量的抽样分布，并且可以从多种分析报告当中直接调用。

　　一、JMP Bootstrap重抽样怎么运行

　　在JMP当中，Bootstrap通常并不是从一个固定的功能模块启动的，而是依托于已经跑出来的分析结果表，不同分析场景的入口多少会有一点差别，但基本流程差不了太多。

　　1、先完成基础分析

　　比如说，你如果想查看一组数据的均值，可以先顺着菜单点开【Analyze】→【Distribution】；要是打算分析两个连续变量之间的关系，那就点开【Analyze】→【Fit Y by X】，需要的话再去套用一条拟合直线；先把这些最基础的分析结果跑出来，顺便确认一下各项统计量的显示正不正常，这些前置步骤稳了，后面再去做重抽样才有意义。

　　2、选择需要重抽样的统计量

　　基础报告出来以后，在里面找到你想要看的那个指标，例如均值、标准差，或者是某个回归系数，在对应那一行的数值上或者Estimate这一列上点击鼠标右键，从弹出的菜单里选择【Bootstrap】；做这一步的时候不要只点在报告的标题上，要实实在在地点到那个准备分析的统计量所在的位置才行，JMP官方给出的回归示例，也是到Parameter Estimates报告里头的Estimate列上，用右键去启动Bootstrap的。

　　3、设置重抽样次数

　　接下来软件会弹出一个设置窗口，在【Number of Bootstrap Samples】一栏里填上你准备做的重抽样次数；如果只是日常练习，先填1000次就足够用了，要是到了正式分析的阶段，可以按自己对结果稳定性的要求再适当多加一些；另外，假如后面需要把同一套结果复现出来，还可以在【Random Seed】里填上一个固定种子数，点一下【OK】就算设置完成了。

　　4、打开结果分布

　　完成以后，JMP会给你生成一张全新的Bootstrap Results数据表，里面有一个BootID列，就是用来区分每一次重抽样的；接着，在这张新表左上角点一下那个绿色小三角，去运行它自带的【Distribution】脚本，你就可以看到统计量在重抽样下的分布形状，以及相应的置信区间了，整个过程并不需要再额外去编写额外的脚本代码。

　　二、JMP Bootstrap置信区间怎么解读

　　在Bootstrap的结果表里面，你常常会同时看到区间的下限、上限，还有覆盖水平这一类的信息，解读的时候不能只盯着那个单一的点估计值，还得结合区间的宽度、有没有跨过某个临界值，以及重抽样的分布是不是偏斜，这几个方面放在一起看才比较全面。

　　1、先看点估计值

　　点估计值，说白了就是靠着原始那批样本直接算出来的数字，比方说回归斜率的点估计是0.50，大概的意思就是自变量每多出1个单位，因变量平均会跟着变化0.50个单位；这里不要误会，Bootstrap并不是要来推翻原来的估计，它的作用是帮着说明，这个估计值在实际当中可能上上下下波动到什么程度，算是一种补充说明。

　　2、再看95%置信区间

　　假如经过重抽样以后，给出的95%置信区间是0.40到0.62，那我们大致可以这样理解：按照手头这份样本和这套重抽样的办法，这个斜率的合理范围，落在0.40到0.62之间的可能性比较大；区间如果比较窄，就代表估计得比较稳当，变动的余地不大，反过来，区间如果宽得很，那多半暗示着样本之间差别不小，或者不确定性比较高，JMP官方的示例里也用Bootstrap区间去跟常规回归做对照，看两者之间的差距。

　　3、根据临界值判断结果

　　当你在分析差值、回归系数，或者其他的效应量时，如果发现区间把0给包在里面了，那就说明连方向都还不够稳定，还不能轻易下结论说它是正还是负；只有当整个区间全都大于0，或者全都小于0的时候，解释的空间才比较大，结论也更站得住脚；不过要特别留个心眼，如果你分析的是比值类的东西，那个用来判断的临界值就该换成1了，不能还是死盯着0不放。

　　4、优先留意BC区间

　　在Bootstrap给出的置信限当中，你很可能还会看到标识着BC Lower和BC Upper的数值，它们代表的是偏差校正后的区间，它会把重抽样分布左右不对称的问题也给考虑进去，从而做出一点修正；JMP官方的文档里也专门提过，偏差校正区间能够改善普通百分位区间在处理偏斜分布时的一些不足，所以在分布明显歪向一边的时候，不妨多瞧一眼BC区间，比普通的百分位区间要更可靠一些。

　　三、JMP Bootstrap结果怎么复核

　　等重抽样的步骤全部跑完之后，还不能急着拍板下结论，得先回头看看结果本身稳不稳定；比如说，如果重抽样次数设得太少、样本结构本身就不合理，又或者你关心的那个统计量原本就有点反常，那么算出来的区间很可能就失去了参考价值，这一点要特别小心。

　　1、适当增加重抽样次数

　　作为一种复核手段，你可以先用1000次跑出一个初步结果，然后再把次数提到5000次甚至更高，拿这两次的结果互相对照一下；要是发现区间的上下限在两次之间还有很明显的摆动，那就说明当下还不太稳定，下一个步就应该去重新审视一下样本量够不够、数据质量有没有问题，而不是急着把结果写到报告里去。

　　2、固定随机种子

　　如果同一份分析需要隔段时间再复现一遍，或者要移交给别的同事去核对，那最好是把Random Seed给固定下来，只要种子数一样，每次抽样的路径就是相同的，这样生成的结果也更容易对得上，既方便自己来回检查，也方便团队之间交接和沟通。

　　3、检查异常值和分组结构

　　Bootstrap的原理是从手头已有的样本里，一次又一次地有放回地抓取记录，然后基于这些新抓出来的样本去计算统计量；要是原始数据里面藏着很扎眼的异常值，或者分组的方式本来就有些别扭，那么重抽样的结果也难免会跟着出问题，所以一个比较稳当的习惯是，先回到原始数据那里，把这些情况排查一遍，心里有了底，再去解释区间为什么宽、为什么偏，而不是硬拿出去做结论。

　　总结

　　总的来看，在JMP里运行Bootstrap重抽样，大致可以按照“先把基础分析跑完、在目标统计量上点右键、设好重抽样次数、打开Distribution脚本、最后查看置信区间”这样的顺序来操作；到了解读那一步，既要把点估计值交代清楚，也要看看95%区间是不是太宽、有没有跨过0或1这类关键值，另外还要留意一下BC区间跟普通区间之间是不是差了挺大一截；把这几样东西合在一起看，最后得出来的结论，往往要比光盯住一个孤零零的统计量要扎实得多。