估计样本含量的意义及条件
首先总要考虑样本含量(或叫样本大小)问题。样本太小,使应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据;但样本太大,会增加实际工作中的困难,对实验条件的严格控制也不易做到,并且造成不必要的浪费。所以这里所说的样本含量估计,系指在保证研究结论具有一定可靠性的条件下,确定最少的观察或实验例数。
但是,样本含量又是个比较复杂的问题。要讲清在各种情况下估计样本含量的方法和原理,那是很繁杂的。而且,不同的参考书上介绍的计算公式和工具表往往不一样,以致同一问题所得的结果也可能有出入。所以,不论按哪种公式或工具表求得的结果,也只能是个近似的估计数。
估计样本含量,必须事先明确一些条件与要求:
(一)根据研究目的与资料性质,要先知道一些数据。例如要比较几组计数资料,先要知道百分数或率;要比较几组计量资料,先要知道平均数及标准差。这些数据可从以往的实践,预备试验的结果、兄弟单位的经验或文献资料里得来。
(二)确定容许误差。由于抽样误差的影响,用样本指标估计总体指标常有一定的误差,因而要确定一个样本指标与总体指标相差所容许的限度。此值要求越小,所需例数就越多。
(三)确定把握度(1―β)。β是第二型错误的概率;而1―β的意思是:如果两组确有差别,则在每100次实验中平均能发现出差别来的概率。把握度可用小数(或百分数)表示,一般取0.99、0.95、0.90、0.80、0.50。要求把握度越高,则所需例数直多。
(四)确定显著性水平,即第一型错误的概率(α)。这就是希望在α=0.05的水准上发现差别,还是希望在α=0.01的水准上发现差别。α越少,所需例数越多。
此外,估计样本含量时还应当根据专业知识确定用单侧检验或双侧检验。同一实验,若既可用单侧检验又可用双侧检验,则前者所需例数要少些。
二、用计算法估计样本含量
我们运用前面学过的某些假设检验公式,就可以进行样本含量的计算。下面仅举两例略作介绍。这里的公式仅适用于α=0.05,1―β=0.50。而且都是双侧检验。
(一)两个率比较时样本含量的计算 令n为每组所需例数,P 1 、P 2 为已知的两个率(用小数表示),P为合并的率,当设两组例数相等时,即P=(P 1 +P 2 )/2。q=1=p,则
(11.1)
例11.5 据某院初步观察,用甲、乙两种药物治疗慢性气管炎患者,近控率甲药为45%,乙药为25%。现拟进一步试验,问每组需观察多少例,才可能在α=0.05的水准上发现两种疗法近控率有显著相差?
本例P 1 =0.45,P 2 =0.25,P=(0.45+0.25)÷2=0.25,q=1-0.35=0.65,代入式11.1
每组需观察46人,两组共观察92人,注意:例数问题不同于一般数学计算中的四舍五入,凡是有小数的值,应一律取稍大于它的正整数,如本例45.5取46,若为45.1也应取46。
(二)个别比较t检验样本含量的计算 令n为所需样本数,S为差数的标准差,X为差数的均数,t 0.05O 为t值表上相当于P=0.05的t值,4为n足够大时t 2 0.05 =1.96 2 的数,则
大样本 (11.2)
小样本 (11.3)
例11.6 用某药治疗 胃及十二指肠溃疡 病人,服药四周后胃镜复查时,患者溃疡面平均缩小0.2cm 2 ,标准差为0.4cm 2 ,假定该药确能使溃疡面缩小或愈合,问需多少病人作疗效观察才能在α=0.05的水准上发出用药前后相差显著?
本例X=0.2,S=0.4,先代入式(11.2)
由于n<30,故用式(11.3)重算。当n=16,ν=16-1=15,t 0.05 =2.131,
当n=19(略大于18.16),ν=19-1=18,t 0.05 =2.101
当n=18,ν =18-1=17,t 0.05 =2.110
故至少需用18人作疗效观察。
三、用查表法估计样本含量
当要求平均有80%、90%以上的机会能发出相差显著或非常显著时,计算公式比较复杂,数理统计上已编制成工具表,一查便得,附表19只是其中的一部分。我们仍以前面的例题来介绍这些表的用法。
(一)两个率比较时所需样本含量 对于两个率的比较,单侧检验可查附表19(1),双侧检验查附表19(2)
仍用例11.5来说明。本例P 1 =45%,P 2 =25%,δ=45%-25%=20%,设α=0.05,把握度为0.80。如果已知甲药疗效不可能低于乙药,可用单侧检验,查附表19(1)。我们从“较小率”栏中找到25横行,再从上方找到δ=20直行,基相交处,读上行数字得69,即每组最少需要69例,两组共需138例。
如果两个率(或百分数)都超过50%,怎样使用这个表呢?假定甲组阳性率是80%,乙组阳性率是65%,两组阳性率相差15%。这时先求两组的阴性率,于是甲组阴性率为20%,乙组阴性率为35%,两组阴性率相差仍为15%。若用双侧检验,我们查附表19(2),从“较小率”栏找到20横行,再从上方找到δ=15直行,其相交处上行数字为135,即每组需检查135例(两组共270例)将有80%的机会在α=0.05的水准上发现两组阳性率相差显著。
若表中查不到题中的“较小率”及δ,可用最接近的值或内插法求n,但宁可使n偏大,以免估计的样本含量偏少。
(二)个别比较t检验所需的样本含量 这是配对比较,应查附表20。使用该表时,先要求出差数的总体均数μ与总体标准差σ之比,即δ=μ/σ,当μ与σ未知时,可分别用X与S作为估计值。
仍用例11.6来说明,本例X=0.2,S=0.40,故δ=μ/σ=0.2/0.4=0.5。若设α=0.05,1―β=0.90,用双侧检验,查附表得20,得n=44,即需观察44例病人。若设α=0.05,1―β=0.50,则n=18,同计算法结果一致。
(三)两个均数比较所需样本含量 应查附表21。先要求出两总体均数之差与总体标准差这比,即δ=(μ 1 -μ2 )/σ。若μ 1 及μ 2 未知时,可分别以X 1 及X 2 估计之;σ未知时,可以合并标准差S估计之。
例11.7 某职业病防治所用两种疗法治疗矽肺患者,一个疗程后,患者血清粘蛋白下降值甲疗法平均为2.6(mg%),乙疗法平均为2.0(mg%,)两种疗法下降值之合并标准差为1.3(mg%)。若发现两组疗效相差显著,每组至少应观察多少病人?
本例X 1 =2.6,X 2 =2.0,S=1.3,故δ=(μ 1 -μ 2 )/σ=(2.6-2.0)/1.3=0.46。若设α=0.05,1―β=0.50,用双侧检验,查附表21,δ=0.46查不到。在这种情况下,可用邻近而略小的δ值代替,或用内插法估计。本例若查δ=0.45,得n=39,即每组需要39例,两组共需78例。若用内插法计算,当δ=0.45时所需例数是39,δ=0.50时所需例数是32,所以δ=0.46时所需例数是:
答案是:每组需要至少观察38例,两组共需观察76例。
常用的样本量计算方法有:
A 两独立组比较(率/计数资料)
B 多独立组比较(率/计数资料)
C 两独立组比较(均数/计量资料)
D 多独立组比较(均数/计量资料)
E 两配对组比较(率/计数资料)
F 两配对组比较/单组前后比较(均值/计量资料)
G 等效性/非劣性试验:两组率/计数资料的比较
H 等效性/非劣性试验:两组计量资料的比较
I 诊断试验
J 横断面研究的样本例数(0-1变量总体概率估计)
K 横断面研究的样本例数(均值/计量资料)
好,下面逐一为亲们介绍(仍然是不讲理论和出处,只讲应用啊)。
A 两独立组比较(率/计数资料)
【例】 某课题的研究目的是比较两种药物治疗乙型肝炎后表面抗原HBsAg的改善情况(双侧检验),问两组各需要乙肝患者多少名?拟规定:乙肝患者随机分为2组,两组样本量比:甲药组/乙药组=0.55/0.45;预试验测得甲药的转阴率为60%,乙药的转阴率为75%。
公式:
N={Zα/2[(2P均)(1-P?均)(Q1-1+Q2-1 )]0.5 + Zβ[P1Q1-1(1-P1)+ P2Q2-1(1-P2)]0.5}2/(P1-P2)2
α=0.05时的λ值表
组数K | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
自由度v=K-1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
β=0.2 | 9.63 | 10.90 | 11.94 | 12.83 | 13.62 | 14.35 | 15.02 | 15.65 |
β=0.1 | 12.65 | 14.17 | 15.41 | 16.47 | 17.42 | 18.28 | 19.08 | 19.83 |
⑸ SIN-1:反正弦函数,若用Excel函数计算0.5的反正弦值:=ASIN(0.5)
⑹ Pmax、Pmin:分别为最大率和最小率,根据预试验或查文献来估计。本例Pmax=0.3778,Pmin=0.1875。代入计算得样本例数n≈138。
C 两独立组比较(均数/计量资料)
【例】 某课题的研究目的是欲比较黄芪与生血散对粒细胞减少症的疗效,两组样本比例:Q1/Q2=0.5/0.5。问每组需要观察多少例?预试验如下:一个研究组将随机抽取的粒细胞减少症的病例平均分为两组,分别用黄芪和生血散治疗后测得,黄芪组平均增加粒细胞1×109 个/L,生血散组平均增加粒细胞2×109 个/L,合并标准差为σ=1.8×109 个/L。
公式:两组均数比较样本例数公式
N=[Zα/2 + Zβ] σ/δ]2(Q1-1+ Q2-1)
参数:
⑴ Zα/2:α=0.05,Zα=1.960 [ Excel函数计算:Zα/2=NORMSINV(1-0.05/2) ]
⑵ Zβ:β=0.20,Zβ=0.842 [ Excel函数计算:Zβ=NORMSINV(1-0.20) ]
⑶ σ: σ=1.8×109 注:合并标准差σ= [(S12+S22)/2] 0.5
⑷ δ:两组差值,见前述预试验,δ=(2×109)-(1×109)=1×109
⑸ Q1、Q2:见前述预试验,Q1=0.5、Q2=0.5
代入可得样本例数N≈80。
D 多独立组比较(均数/计量资料)
【例】 某课题的研究目的是比较三种方案治疗血红蛋白不满100g/L的婴幼儿贫血患者后,血红蛋白增的变化有无差异,问三组各需要观察多少例?预试验如下:一个研究组将随机抽取的血红蛋白不满100g/L的婴幼儿贫血患者平均分为三组,经各治疗方案治疗后血红蛋白增加的均数Xi分别为18.5g/L、13.2g/L、10.4g/L,标准差Si为11.8g/L、13.4g/L、9.3g/L。
公式:多个样本均数比较样本例数公式
n = Ψ2(∑(Si2)/K)/[∑(Xi均 - X均)2/(K-1)]
参数:
⑴ α:α=0.05
⑵ β:β=0.10
⑶ K:为组数,本例题K=3。
⑷ Ψ:本例K=3,自由度V1=K-1=2;自由度V2=N-1,N未知,可取最大∞,查下表得:
Ψα,β,K-1,∞=2.52。
⑸ X均i、Si:分别为第i组的均数(X1=18.5、X2=…)和标准差(S1=11.8,S2=…)的估计值,由预试验或文献来估计。
⑹ X均的确定:X均=(X1+X2+X3)/K=(18.5+13.2+10.4)/3=14.0
代入便可计算求出样本例数:n≈51
α=0.05,β=0.10时的Ψ值表
V1=K-1 | ||||||||||
V2=N-1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
2 | 6.80 | 6.71 | 6.68 | 6.67 | 6.66 | 6.65 | 6.65 | 6.65 | 6.64 | 6.64 |
3 | 5.01 | 4.63 | 4.47 | 4.39 | 4.34 | 4.30 | 4.27 | 4.25 | 4.23 | 4.22 |
4 | 4.40 | 3.90 | 3.69 | 3.58 | 3.50 | 3.45 | 3.41 | 3.38 | 3.36 | 3.34 |
5 | 4.09 | 3.54 | 3.30 | 3.17 | 3.08 | 3.02 | 2.97 | 2.94 | 2.91 | 2.89 |
6 | 3.91 | 3.32 | 3.07 | 2.92 | 2.83 | 2.76 | 2.71 | 2.67 | 2.64 | 2.61 |
7 | 3.80 | 3.18 | 2.91 | 2.76 | 2.66 | 2.58 | 2.53 | 2.49 | 2.45 | 2.42 |
8 | 3.71 | 3.08 | 2.81 | 2.64 | 2.54 | 2.46 | 2.40 | 2.35 | 2.32 | 2.29 |
9 | 3.65 | 3.01 | 2.72 | 2.56 | 2.44 | 2.36 | 2.30 | 2.26 | 2.22 | 2.19 |
10 | 3.60 | 2.95 | 2.66 | 2.49 | 2.37 | 2.29 | 2.23 | 2.18 | 2.14 | 2.11 |
11-15 | 3.51 | 2.84 | 2.54 | 2.36 | 2.23 | 2.15 | 2.08 | 2.02 | 1.98 | 1.95 |
16-20 | 3.43 | 2.74 | 2.43 | 2.24 | 2.11 | 2.02 | 1.94 | 1.89 | 1.84 | 1.80 |
21-25 | 3.39 | 2.69 | 2.37 | 2.18 | 2.04 | 1.95 | 1.87 | 1.81 | 1.76 | 1.72 |
26-30 | 3.36 | 2.66 | 2.33 | 2.14 | 2.00 | 1.90 | 1.82 | 1.76 | 1.71 | 1.67 |
31-35 | 3.34 | 2.63 | 2.31 | 2.11 | 1.97 | 1.87 | 1.79 | 1.73 | 1.68 | 1.63 |
36-40 | 3.33 | 2.62 | 2.29 | 2.09 | 1.95 | 1.85 | 1.77 | 1.70 | 1.65 | 1.61 |
41-45 | 3.32 | 2.61 | 2.28 | 2.07 | 1.93 | 1.83 | 1.75 | 1.69 | 1.63 | 1.59 |
46-50 | 3.31 | 2.60 | 2.26 | 2.06 | 1.92 | 1.82 | 1.74 | 1.67 | 1.62 | 1.57 |
50 | 3.31 | 2.59 | 2.26 | 2.06 | 1.92 | 1.81 | 1.73 | 1.67 | 1.61 | 1.56 |
60 | 3.30 | 2.58 | 2.25 | 2.04 | 1.90 | 1.79 | 1.71 | 1.64 | 1.59 | 1.54 |
80 | 3.28 | 2.56 | 2.23 | 2.02 | 1.88 | 1.77 | 1.69 | 1.62 | 1.56 | 1.51 |
120 | 3.27 | 2.55 | 2.21 | 2.00 | 1.86 | 1.75 | 1.66 | 1.59 | 1.54 | 1.49 |
240 | 3.26 | 2.53 | 2.19 | 1.98 | 1.84 | 1.73 | 1.64 | 1.57 | 1.51 | 1.46 |
∞ | 3.24 | 2.52 | 2.17 | 1.96 | 1.81 | 1.70 | 1.62 | 1.54 | 1.48 | 1.43 |
E 两配对组比较(率/计数资料)
【例】 用A、B两种方法检查血样中的HIV,先用A法检验,再用B法检验。比较两法的差异,需要多少样本量?预试验结果如下表:A法B 法均为阳性+为a例,均为阴性-的为d例,分别为阳、阴性的为d或c例。
配对设计 | A法测定 | ||
阳性+ | 阴性- | ||
B法测定 | 阳性+ | a | b |
阴性- | c | d |
公式:两配对组(率/计数资料)比较公式
n=[Zα/2(2πc)0.5+ Zβ(2π+-π-+)0.5]2/(π+- -π-+)2
参数:
⑴ Zα/2:α=0.05,Zα/2=1.960
⑵ Zβ:β=0.10,Zβ=1.282
⑶ π+-:π+-=b/(a+b)
⑷ π-+:π-+=c/(a+c)
⑸ πc: (π+-+π-+)/2
代入可得样本例数。
F 两配对组比较/单组前后比较(均值/计量资料)
【例】 某降压药临床试验,观测病人服药前后的血压值,以判断降压效果。求样本量。预试验知:病人用药前后的血压差值观测的标准差S=8.3mmHg,观测比较的阈值δ为2mmHg。
公式:
n = [(Zα/2+Zβ)S/δ]2
参数:
⑴ Zα/2:α=0.05,Zα/2=1.960
⑵ Zβ:β=0.10,Zβ=1.282
⑶ S:标准差。由文献或预调查的资料来估计。本例为S=8.3。
⑷ δ:判断阈值或比较界值或容许误差,一般可考虑δ=(0.1~0.5)S,本例取2。
代入计算得:n=180。
(注:δ:判断阈值,其含义大致同下面的等效性检验中的定义。亲可这样理解:如果想比较的更精细准确一些,其比较的δ:判断阈值应该小一些,对应的样本量就大一些(δ在计算样本量的分母上)
G 等效性/非劣性试验:两组率/计数资料的比较
【例】 某新药进行Ⅱ期临床试验,考察其治愈率不差于经典对照药,按1/1设试验组和对照组,求样本量。预试验知:两组治愈率均约0.80。
公式:
非劣性试验:n= 2×(Uα+Uβ)2×P(1-P)/δ2
等效性试验:n = 2×(Uα+Uβ/2)2×P(1-P)/δ2
(注:等效性试验包括高低两个方向的单侧检验,但采用Uβ/2而非Uα/2)
特别地,临床常用α=0.05,β=0.20,两组例数比K=Q1/Q2=1时,亲可用下述简化公式:
非劣性试验:n= 12.365×P(1-P)/δ2
等效性试验:n = 17.127×P(1-P)/δ2
参数:
⑴ α=0.05
⑵ β=0.20
⑶ P=0.80(P为两组合并率或两组平均率,约为两组率的均值或合并计算后的均值)
⑷ δ(检验界值)=0.15(一般由临床专业决定,可取两组平均率的1/3~1/10)
⑸ Q1、Q2=0.5(两组例数比0.5/0.5=1)
代入可得每组样本例数:n=12.365×0.8(1-0.8)/0.152 =88
如果:两组例数比K=Q1/Q2≠1时,则n1≈n(1+K)/2;n2≈n(1+K)/2K
H 等效性/非劣性试验:两组计量资料的比较
【例】 【例】 某新药进行Ⅱ期临床试验,考察其生存期不差于经典对照药,按1/1设试验组和对照组,求样本量。预试验知:两组共同标准差s=60d。
公式:
非劣性试验:n= 2×(Uα+Uβ)2×(σ/δ)2
等效性试验:n = 2×(Uα+Uβ/2)2×(σ/δ)2
(注:等效性试验包括高低两个方向的单侧检验,但采用Uβ/2而非Uα/2)
特别地,临床常用α=0.05,β=0.20,两组例数比K=Q1/Q2=1时,亲可用下述简化公式:
非劣性试验:n= 12.365×(s/δ)2
等效性试验:n = 17.127×(s/δ)2
参数:
⑴ α=0.05
⑵ β=0.20
⑶ σ = 60 (合并标准差,σ= [(S12+S22)/2] 0.5。近似估算甚至可取两组标准差的几何均值(S1×S2)0.5。
注:标准差S:通常指样本的标准差,Excel中表述为标准偏差SD,其函数计算:=STDEV(),其计算公式为SD=[∑(Xi-X均)2)/(n-1)]0.5。 亲们不要和总体的标准差弄混啊(总体的标准差公式里将n-1换作n),当然弄混也无大事,反正样本量计算就一参考值,有点误差木什么大不了。
⑷ δ(检验界值)=0.20(一般由临床专业决定,可取共同标准差的1/2~1/5,或取对照/参比组均值的1/5~1/10)
⑸ Q1、Q2 =0.5(两组例数比0.5/0.5=1)
代入可得每组样本例数:n=12.365×(60/20)2 =111
如果:两组例数比K=Q1/Q2≠1时,则n1≈n(1+K)/2;n2≈n(1+K)/2K
I 诊断试验
【例】 某课题的研究目的是为了解B超诊断肝硬化的临床价值,每组各需要多少例患者?预试验中:B超诊断肝硬化约为:P灵敏度=0.75;P特异度=0.55。
公式: 诊断试验的样本例数公式
n=(Uα/δ)2(1-P)P
参数:
⑴ μα:α=0.05,μα=Zα/2=1.960
⑵ μβ:β=0.20,本法计算中可不涉及μβ。
⑶ δ:判断界值。由研究者根据预试验或查文献来估计。可综合取预试验之灵敏度或特异度的1/5~1/10。一般定在0.05~0.10之间。本例取δ=0.08
⑷ P的确定:P灵敏度=0.75;P特异度=0.55
(一般,计算试验组的样本量时用P灵敏度,而计算对照组样本量时用P特异度)
代入计算求出样本例数:
将P灵敏度=0.75代入公式后可计算得n试验≈113。
将P特异度=0.55代入公式后可计算得n对照≈149。
J 横断面研究的样本例数(0-1变量总体概率估计)
【例】 为了在全国作生育率的调查,根据资料已知全国妇女现阶段峰值年龄生育率估计值,按单纯随机抽样,估计峰值年龄妇女需要多少人?预调查如下:为了在全国作生育率的抽样调查,经查阅文献获得,我国妇女现阶段峰值年龄生育率P在0.3上下波动,允许误差δ为0.015,若定检验水准为0.05,试按单纯随机抽样,估计峰值年龄妇女样本例数。
公式:
n= Zα/22×P(1-P)/δ2
参数:
⑴ Zα/2:α=0.05,Z0.05/2=1.96。
⑵ δ:δ=P-π。δ可通过预试验、查阅文献、专家意见来确定。特别地,在很多情况下:可取δ≈0.1P,Zα/2≈2,则公式可简化为n = 400(1-P)/P。
⑶ P:总体概率。通过预试验或查阅文献获得。
本例按公式计算得:样本例数n=1.962×0.3(1-0.3)/0.0152 = 3733
若按简化公式:δ定为0.1P=0.03,则样本例数n=400×(1-0.3)/0.3=933
K 横断面研究的样本例数(均值/计量资料)
【例】 研究某地区平均每月每位社区医生的家访次数,至少需要调查多少名医生? 预调查知:一个研究组从社区医疗机构的名单中随机抽取90名社区医生进行调查,发现他们一个月内家访平均次数为4.89次,标准差为3.48次。
公式:
n= (Zα/2×V/ε)2
参数:
⑴ Zα:α=0.05,Z0.05/2=1.96。
⑵ ε:相对误差。由研究者根据问题的背景自行规定,例如可以取0.1、0.15、0.2等。本例取0.2。
⑶ V:变异系数。V = σ/μ(总体的标准差/总体均值),或用S/X均估计,其中参数由文献或预调查的资料来估计。本例为V=3.48/4.89=0.712。
代入公式后可得n=49。