慢慢地,我们从理论、 原理,进入到了又有理论原理,又有操作的部分了。
前两节的内容让我们理解了什么是抽样,以及抽样的基本原理,
抽样面对的难题,那些都是在条件约束下,策略选择问题。
这一节呢,则是原理指导下的操作,
我们将分八段讨论概率抽样,把概率抽样弄明白了,非概率抽样呢,就更容易理解了。
讨论概率抽样,首先要理解概率抽样。
其实前面我们已经提到过了,概率抽样,就是运用等概率原则进行抽样的总称。
等概率原则,就是指总体中每一个研究对象被抽中的概率是相等的,
运用等概率原则进行抽样的方法, 至少有简单随机抽样、系统抽样、
整群抽样、与规模成比例的概率抽样、分层抽样以及隐含的分层抽样、
多阶段混合抽样,这些都运用了等概率原理。
不过需要说明的是,在这些抽样方法中,
实际上有两类,一类呢,是直接抽样,一次抽样,一类呢,则是半截抽样,
没有完成的抽样。到整群为止的前三类,简单随机抽样、系统抽样和整群抽样
都是直接抽样,在某些情况下呢又是末端抽样,可以独立使用。
后三类呢,通常不可以独立地用,要结合前三类来使用。
在详细讨论抽样方法之前,我们先做一个约定, 在前面的讨论中,我们对抽样的对象用研究对象来概括,
其实不一定准确,因为对于抽样的对象不一定就是 研究对象,譬如CGSS的研究对象是
群体,不是个体。为了讨论的方便,我们把用于抽样的对象称之为要素,
对于要素概念,在不同的教材中有不同的用法,有的指抽样过程中每一次抽样面对的对象,
或者抽样中最后一个层级的样本对象, 在我们的课堂中我们要做一个约定,专门指最后一个层级的样本对象。
在一些抽样层级中呢,不一定就是抽样对象,
比如,学校以班级为群的整群抽样,抽样对象是班,样本对象
是样本班的学生,学生就是要素。
我们从简单随机抽样开始, 简单随机抽样是最最基础的抽样方法,也是其它抽样方法的基础。
通常,用在一次性抽样中,有时候呢,也用于多阶段的末端抽样。
如果用在末端抽样中,则意味着总体的要素 与末端抽样单位是一致的,譬如,CFPS的抽样,
末端抽样框为一个村,或者一个居类的所有家庭住址列表,
样本呢,则是家庭住址上的家庭户,如果一个家庭住址有多个家庭户,
就需要进行二次抽样,直到抽到家庭户。
再比如CGSS的抽样,末端抽样框为样本家庭户类
符合要素资格的家庭成员,样本呢,就是个体。
CFPS的总体的要素与抽样单位就不那么一致, 而CGSS的则完全一致,那么在什么条件下可以
使用简单随机抽样呢?通常,如果总体规模不大,
不需要分阶段,总体、研究总体、抽样框三者合一的时候,
还有呢,总体内部的异质性没有大到需要专门处理的程度, 不需要分层,
还有呢,对总体的要素的信息知道不多, 在这样的条件下就可以采用简单随机抽样,
简称sis,在操作之前,我们先了解规范性的操作步骤,第一步,
要制备抽样框,第二步呢,要对要素进行编码,第三步呢,要根据抽样的要求抽取样本。
抽取样本可以使用多种方法,比如,随机数表, 比如,软件。
我们看例子。假设,在一个三十个学生的课堂提问,
我们有两种提问方法,第一种呢,每个人都有被提问到的机会, 只是是否可以有第二次被提问的机会呢?
如果不介意有第二次被提问的机会,那就约定被问过的人 也可以再次被提问,这就是放回抽样。
每个人在每次抽样中被抽中的概率是相等的,不过, 在抽样完成之后,再计算每个人在总体中
被抽到的概率,那却不一定相等。
在小规模总体中这是常发生的现象,在大规模总体的抽样中,
这比较少发生。如果希望没有人被提问两次, 则可以采用另外一种方法,那就是非放回抽样。
由于提问的样本不再被放回总体之中,因此不会有
第二次被提问的概率,问题是,非放回在抽样条件下在每次提问中每个人被问到的概率是相- 等的吗?
我们会发现,越是往后,之前没有被问过的同学 被提问的机会就会越高,似乎违背了等概率原则,
对吗?看来一个三十个人的班级的提问,也是一件很复杂的事情,
做放回抽样吧,抽样结束后每个要素的被选概率 有可能不等,做非放回抽样吧,抽到第二个样本的时候,
每个要素的被选概率就不相等了,怎么办呢,为了保证等概率性, 可以使用工具,比如随机数表进行抽样。
还是三十个人班级提问的例子,先制作抽样框,
第一步,如果在抽选个人之前还有抽样活动,就要确认当前的班级是样本班级,
第二步呢,如果是,就对班级的三十位同学从零到二十九实行顺序编码,
至于按照什么顺序进行编码可以讨论,比如说按学号啊,按座位啊,都行,只要是有规则,
并且保证每一位同学只有一个唯一的编号就行。
第三步呢,选择一个随机数表,大家可以找到很多的随机数表, 我们用教材附录中的随机数表。
在查阅随机数表之前,说出第一个样本的行列位置作为起点。
第四步,在随机数表上找到上面的起点,比如,希望提问十位同学, 那就取一组随机数的固定位置,
十位,也就是零到九,只需要定位 一位数就好,按照事先制定的规则,选中随机数字中的一位,
就是第一个样本,依照事先规定的阅读方向,横向按组阅读,纵向按组阅读
都行,查到下一组数中相同的位置的数,就是第二个样本,依次类推。
我们来看使用随机数表进行抽样的操作吧。这是随机数表的一个截图,
假设,我们事先约定了按纵向阅读,
并在查阅随机数表之前,已经约定了第一个数字的位置,
在第二行,第六个数组的第一个数字, 为第一个样本,也就是六,那么在班级中,编号为六的同学
就是一个样本,编号为一的同学,就是第二个样本, 编号为九的同学呢,就是第三个样本,依次类推。
如果遇到已经抽中的编号,就跳过去,继续阅读抽选,
如果样本量为十二,那么在随机数表中,要选的就不是一位数的编号了,
而是两位数的编号,同样的道理,也可以处理多位数样本的定位。
这样就保证了每一位同学的被选概率是一样的。
在抽样实践中,使用随机数表抽样的例子已经不多了, 因为效率太低,即使用到,也是随机数表的一些变体。
比如说kish表,我们以CGSS的抽样为例,
看看kish表的用法。kish表作为随机抽样方法的一种,通常用在
末端抽样上。末端抽样,就是抽到要素层级的抽样,第一步,制备末端抽样框,
将样本家户所有符合要素资格的成员,按照 规则顺序编号,依据性别也好,年龄也好,逆序也好,顺序也好,
怎么排都行,要求是不重,不漏。
接着就是使用kish表。第二步,拿出事先准备好的kish表,
根据指引,抽取样本,我们来看看具体的操作。按照CGSS对要素的约定,
年满十八岁及以上的人口,都是要素。抽样的约定是不管家里有几个要素, 只抽取其中的一个要素作为样本。
我们把家庭人口数量常见的状态都纳入了考量,
这就是我们在表左列看到的情况,家庭要素从一到五有不同的抽选方案。
比如,家里有四个要素,如果选择a表作为抽选方案,则抽选编号为一的
作为样本,同样,如果选中b1表作为抽样方案,也选择编号为一的
作为样本。如果选择e2表作为抽样方案,则选择编号为四的作为样本。
如果选择f表作为抽样方案,同样,也选择编号为四的作为样本。
有的同学可能会问了,老师,到底选择哪个表作为抽样方案呢? 是怎么确定的?很简单,操作指南中,就已经说明了
使用方法。有的就是随机选择起始表号,
按照规则继续和循环,有的呢,直接指定了从哪个表号开始,
按照什么规则继续。简单随机抽样还有一个办法也是常用的办法,就是用软件。
常用的统计软件,比如SPSS,不少学校都购买了正版,
操作起来也很简单,先加载数据表,在我们的例子里,
就是零到二十九编号的学生名单,然后呢,在菜单中找到数据,
选择个案,随机个案样本,给一个阈值,零零到二九,随机抽选五个,运行,
就能获得n组由五个样本所组成的样本组来了。
除了SPSS,常用的统计软件都可以进行 简单随机抽样,甚至excel表格都可以进行简单随机抽样。
我们再举例子,Stata,也是常用的软件。
曾经主要使用命令行,新的版本呢,也使用菜单工具了。
以命令行为例,sample n 逗号,count, 就是在所有个案中抽取n个作为样本,
sample n if gender 恒等于 1,count, 就是在满足gender为1的个案中,抽取n个作为样本,
sample n by area, 就是按照地区分类,每类抽取百分之n的地区作为样本,
也可以运用gsample命令,例如,gsample n, 就是在既有的数据集中,抽取n个个案作为样本,
软件的详细使用方法 两个软件的帮助文件指导性都很强,大家看软件的帮助,有一点耐心就好。
就简单随机抽样而言我要强调两点,第一,简单随机抽样是不得已的办法,
不是最先选用的办法,什么情况下 才用它呢?只有在总体的信息所知甚少的情况下,
才用它。简单随机抽样就讲到这里,谢谢大家。