同学们,大家好
上一节课呢我们讲到了研究对象的选择,它的基本的原则,在研究对象这些原则来源
都确定好之后呢,还有一个很重要的问题,也就是说我们需要以多少人作为我们的样本来- 开展研究
因此呢,我们这一节课我们重点来讨论,关于样本量的计算问题
通常呢,做研究,病例对照研究,我们决定样本大小,主要有四个条件
一个呢就是我们的一般人群,或者是对照组人群,我们要研究的因素的暴露率,比如说我- 们要研究
吸烟跟肺癌的关系的时候,我们就要知道,在一般人群中,吸烟的这个比例是多少
那我们这个数据就是我们所谓的 P0,一般人群中的暴露率。
第二个呢,这个 相关的因素,就是这个相对危险度,在病例对照研究中它叫比值比
那这个相对危险度呢,通常呢是我们基于文献既往的研究报导的
来估,也可以呢是我们的一些前期的这个 预调查相关的研究工作的这样的一个总结。
根据这个 相对危险度呢,通常都是我们需要估算的,估计的一个这样的一个结果。
还有两 个呢,统计学的也阐述,一个就是 I 类错误,或者叫 I 型错误。
也就是 咱们统计学上,显著性检验设定的这个 5% ,这样的一个 水平。
还有一个呢是 II 型的错误,也就是说把握度。
一般来讲呢 我们把这个 II 型错误呢是用 β 来表示,1-
β 就是把 握度,一般我们可以设定在 80% 或者是
90% 那具体的这个四个因素,四个条件确定下来之后呢,我们可以采用这种
公式方法呀去进行计算,也可以很多教科书后面可以有相应的表格去进行查找
当然现在呢也有很多小的统计软件,可以直接地进行计算 那具体到这四个指标,我们当把这个
参数设定好之后呢,大家可以用一些统计学的小软件 比如说,咱们流行病上经常用的这个
EpiCalc 这个软件 那么它有不同的版本,我们以这个 2000
的这个版本为例 你可以进行病例对照研究样本量的计算。
那么大家呢,也可用呢 这个 PASS
软件,这个软件呢也可以进行相应的样本量的计算 那我们下面就可以看几个例子。
比如说我们假定做的 是一个不匹配的,但是呢我们希望病例和对照的例数相等
做这样的一个设计,那如果我们想做一个不匹配的病例对照 研究,我们想探讨一下,服用某种药物跟
白血病发生之间,到底有关没关?要回答这样的一个问题,我们可以预期,也就是假设
服药的人发生白血病的风险是不服药人的 2 倍,也就是咱们的 OR 值等于 2 这种情况。
而人群中这个药物的暴露率是 20%,那么我么设
I 类错误 α= 0.05, 那么这个 II 类错误等于 0.1,那这
4 个参数设定之后,我们就可以来估算样本量 那我们以这个
EpiCalculator 为例,那在这个样本量计算里面,大家呢
就可以按照它的菜单去找,在菜单里面呢它就有一个 sample
,这个就是样本,样本量 那这个样本底下呢,你再给它点开了,它有几个
有几种呢功能,一个就是算样本量大小, sample size 这个 sample
size 再打开,它这里面呢有不同的计算,我们就可以选最下面的这个
Case-control study ,病例对照研究。
那我们这样依次都选好之后 那么我们就往下进一步地点击,那它就会出现一个界面
这个界面呢,让你往里输入的就是相关的参数 比如说,我们可以把显著性水平,也就是说
I 类错误,我们就选在 0.05 的水平 这个 power
把握度,那么我们刚才说的 β 是 0.1,把握度呢 那就是 1-
β,那就是 0.9 , 90%, 我们可以点在这个 这个地方。
然后我们希望病例是对照数呢是相等的,那我们在这两组的这个相比 的比值是 1。
那我们预计的服药导致白血病的风险是 一个 2 倍的增加,那 OR
值呢就选在 2 还有一点,我么已经预估了,就是通过文献已经知道,人群中药物
的服用率是 20%, 再把 20% 这个指标再给填上
那么这几个参数的具体的数值进去之后,咱们点一下 OK ,这样呢 结果就可以出来了。
那我们大家可以看,在我们设定的这些前提条件下 我们要做这样的一个病例对照研究,我们理论上至少病例组需要
228 个人 对照组跟它一样,也要 228
人,所以总的研究的样本量是 456 人,这个呢就是通过这个设定了参数之后,我们可以通过这个软件进行计算
当然,这个呢只是说我们从理论上估计要 456 人,也可能这个过程中
我们有一些人他不回答,拒绝呀,我们还要适当地呢 再增加一些样本量。
那还有一种情况,我们刚才讲呢是不匹配的。
如果我们 事先设定好条件,要做匹配的研究,以这个例子呢,我们来看一下
要开展一项 1:1 匹配设计的病例对照研究,我们想看一下口服避孕药的使用
跟她们孩子这个是不是会发生先天性心脏病有没有 关系。
那要回答这样的一个因果关系的这样一个病因假设的一个检验 那同样地,我们也是设
I 类错误是 0.05, II 类错误是
0.1 那我们通过既往的这个调查,通过既往的文献的报导知道呢
人群中口服避孕药的使用 大概占到了 30%
,也就是这个育龄妇女里面 30% 的人用口服避孕药,因此呢这个暴露率也有了,就是
0.3 那我们估计的风险度,假定我们设定是一个 2 倍的风险 RR 就等于 2。
那这几个参数有了之后呢,我们同样可以来计算样本量 那这时候呢,我们假定我们用
PASS 软件来计算,大家呢找到,这些软件都是免费的软件,大家网上可以找到
那么这个你可以找到 PASS 里面呢它同样,因为我们这里面是基于 Proportion ,比例来计算的。
在比例里面再往下拉下来,大家可以看到 这里面呢就有一个匹配的
Matched Case/Control 匹配的病例对照研究。
我们对应地点到这里,点到这里选上之后呢
同样它会再出现这样一个这个界面,这个界面就要求你把这个相关的参数给它输进去
那在里面呢,我们的危险度设定为 2 了,那么我们的人群的暴露率也有了
我们这个要干的事情是什么呢?我们要去计算它的这个样本量。
那我们这个匹配 也是定好了,我们是 1:1 的匹配。
把这些参数 α、 β 都设定好之后 同样这些参数录进去之后呢,我们再去进行运算 它自动地呢,它也会给出来。
那在这个案例里面大家可以看 在我们这里面呢,我们的 OR
的比值是 2,然后我们这个人群暴露率 30%。
我们事先假定呢,病例和对照的相关性,这个一般有一个假定啊 通常我们推荐两组的相关系数呢是
0.2 ,这样的一个假定 那 α 0.05 ,β
0.1,这些参数放进去之后 大家可以看,这个运算的结果它自动就给出来了。
给的结果是什么呢? 要回答这个口服避孕药的使用跟先天性心脏病之间
到底有没有关系,要 1:1 匹配的话,我们这个研究,需要病例需要
多少呢?需要 238 个病例,那当然每个病例呢至少还要配 1
个对照 同时呢也就是需要 238 个对照 那总的呢,这个样本量也就可以估出来了。
所以这个 呢就是说,你的病例对照研究样本量计算呢,首先就是要
确定相关的参数,主要就是 4 个参数,人群中一般人群的暴露率。
还有一个呢 就是你预估的危险度是多少。
再就是 α和β, I 型错误和 II 型错误 那这个参数定好了之后,再根据你是匹配不匹配,那选用呢
不同的这个计算的公式,也有不同的软件能够呢帮助我们进行相应的计算
当然在计算的时候呢,还要注意到,我们的这个样本含量的计算呢,并不是说 绝对的,算出来这个数就是这个数,它只是供我们参考。
因为大家知道,在这里面 你的那个 OR 值本身就是个预估的,你 OR
值你可以估计成是 2 倍,你也可以估算成是 3 倍 也可以呢估算是 1.5
倍,当然这个不是盲目的估计,一定呢要有既往的文献的基础 有既往的这个预实验的预调查的这样的一个基础
还有一点呢,也,样本量也不是越大越好,就是合适是最好的。
因为你样本量越大 你的工作的负担也就越大,工作负荷越大,你很有可能它的质量也会带来下降
还有一点呢,就是病例组和对照组通常情况下,两个组例数相等的时候,统计学效率是最高的
当然,有的时候呢因为我们病例太少了,例数很难 获取足够的病例,那这时候我们又要保证有一定的样本量
在这种情况下呢,我们就需要呢增大对照的数量 比如说我们做
1:2 的, 1:4 的这样子的病例对照研究,这个呢就是在样本量计算
的时候呢,我们需要特别考虑的这样的一些问题。
我想呢 关于样本量的计算呢,我们就介绍到这里。
好,谢谢大家