本帖最后由 diana_zhang 于 2015-8-30 20:49 编辑
从实验员到项目经理:(7)统计那点事(2)
3、定量指标的一致性评价 刚刚我们在前面说过了在日常的产品研发过程中经常需要使用一致性对待评价产品或方法进行评价,也介绍了用于定性指标的一致性评价的方法。那么对于定量产品来说一致性评价也是非常重要的。因为,对于一个拟上市的产品来说,让广大用户理解并接受这个产品最好的办法就是与已经上市的产品或已经被广泛使用的方法进行比较,并得到比较的结果,所以对于定量检测产品的分析结果的一致性评价也是非常重要的。
(1)配对t检验
在试验过程中如果出现了试验样本个体差异较大则试验单位的变异就会较大,这样会影响不同入选组之间的结果的判断,于是为了消除试验单位不一致对试验结果的影响,正确地估计处理效应,减少系统误差,降低试验误差,提高试验的准确性与精确性,则采用局部控制的原则——配对设计:预先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位随机地分配到两个处理组中。配对的要求是,配成对子的两个试验单位的初始条件尽量一致,不同对子间试验单位的初始条件允许有差异,每一个对子就是试验处理的一个重复。
配对方法有: A)自身配对:指同一试验单位在二个不同时间上分别接受前后两次处理,用其前后两次的观测值进行自身对照比较;或同一试验单位的不同部位的观测值或不同方法的观测值进行自身对照比较。例如:观测某种疾病治疗前后临床检测结果的变化;观测用两种不同方法对某个检测指标检测结果的变化等等。 B)同源配对:指将来源相同、性质相同的两个个体配成一对,例如将畜别、品种、窝别、性别、年龄、体重相同的两个试验动物配成一对,然后对配对的两个个体随机地实施不同处理。这种方法在药理研究的动物实验中非常常用。
下面我们通过一个具体的例子来理解配对t检验。 【例1】用家兔10只试验某批注射液对体温的影响,测定每只家兔注射前后的体温,见表1-1。设提问服从正态分布,问注射前后体温有无显著性差异? 表1-1 10只家兔注射前后的体温 1、提出无效假设与备择假设 H0:μd=0,即假定注射前后体温无差异 HA:μd≠0,即假定注射前后体温有差异 2、计算t值 经计算得:
故:
且:df=n-1=10-1=9 3、查临界t值,作出统计推断 由df=9,查t值表得:t0.01(9)=3.250,因为
,P<0.01,否定H0,接受H1,表明家兔注射该批注射液前后体温差异极显著,这里表现为注射该批注射液可使体温极显著升高。
配对t检验的本质是对“差异”的检验,而非对“一致”的检验。因为配对t检验主要是比较均数的差异,当不拒绝无效假设时只能反映总体均数可能相同,却不能反应数据的一致性。随机误差对均数比较的影响较小,t检验对其并不敏感,特别是当两种测量方法或产品的测量均数无差异,而个体测量值间差异较大的情况时,配对t检验对于一致性的评价是不准确的。而当样本量较大时,配对t检验很容易检验出两均数间细小的差异,即使此差异在专业上没有实际意义。可见,配对t检验作为评价一致性的方法存在明显缺陷。
(2)简单相关系数
简单相关系数又称皮尔逊相关系数或“皮尔逊积矩相关系数”,它描述了两个定距变量间联系的紧密程度。样本的简单相关系数一般用r表示,计算公式为: 其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间: A)若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大; B)若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。 C)r的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。 D)若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。 利用样本相关系数推断总体中两个变量是否相关,可以用t统计量对总体相关系数为0的原假设进行检验。若t 检验显著,则拒绝原假设,即两个变量是线性相关的;若t检验不显著,则不能拒绝原假设,即两个变量不是线性相关的。
相关系数是目前广泛用于评价一致性的指标,但它反映的是两变量线性关系的密切程度而非一致性。只要评价双方的线性关系没有变化,相关系数就不发生变化。由于系统误差对于两检测变量的线性关系影响很小甚至没有影响,所以系统误差也对相关系数的分析没有产生影响。而当测量范围很小即被测个体间的变量与测量仪器的变更相当时,很难观察出两测量数据的线性关系,此时即使测量数据一致性较好也不会得到大的相关系数,此外,相关系数的假设检验是与0进行比较而非1,所以假设检验结果对于一致性评价的意义不大。由此可见,相关系数并不能反映一致性的大小。
(3)组内相关系数
组内相关系数(ICC)是衡量和评价观察者间信度(Inter-observer reliability)和复测信度(Test-retest reliability)的信度系数(Reliabilitycoefficient)指标之一。它最先由Bartko于1966年用于测量和评价信度的大小。 ICC等于个体的变异度除以总的变异度,故其值介于0~1之间。0表示不可信,1表示完全可信。一般认为信度系数低于0.4表示信度较差,大于0.75表示信度良好,对于定量资料常常需要更高的ICC值。对ICC的假设检验是与0比较而非与1比较,所以假设检验结果对一致性判断意义不大。但ICC对测量的系统误差和随机误差均敏感,所以较配对t检验和相关系数来说,ICC比这两者评议一致性还是要理想。
(4)Bland-Altman法
Bland-Altman分析最初是由Bland JM和Altman DG于1986年提出的。它的基本思想是计算出两种测量结果的一致性界限(limits of agreement),并用图形的方法直观地反映这个一致性界限。最后结合临床实际,得出两种测量方法是否具有一致性的结论。 Bland-Altman图以图形的方式反应一致性界限,在二维直角坐标中,用横轴x表示两种方法测量每个对象的平均值,纵轴y表示两种方法测量每个对象的差值,即得到Bland-Altman图。根据95%一致性界限外的数据点数和一致性界限内的最大差值,以及临床上的可接受程度,对待评价的两种方法的一致性做出评价。Bland-Altman分析是将定量分析与定性分析相结合,同时控制系统误差和随机误差。
从上面的分析我们可以很清楚的看到,配对t检验、简单相关分析具有明显的片面性;而ICC同时考虑了随机误差与系统误差,但是结果不具有临床意义。Bland-Altman方法作为评价一致性方法可以得到很好的结论,但是必须结合临床实际意义进行判断。所以,无论何种方式单一使用都存在一定的局限,都无法通过单一方法来很好的评价定量指标的一致性。因此,对于定量指标的一致性需同时采取多种方法从不同角度联合评价。
上述所介绍的统计方法目前均有相应的专业软件进行统计分析。只需要原始的测量数据根据软件设计要求录入到相应的数据框中,软件会自动计算相应的结果。所以,对于一致性分析中选择何种方法比该方法要如何进行计算要关键得多。
另外,经过试验样本入组筛选之后所得到的每个分析结果应给与合理性评估,并非每个经过试验考核的分析结果都可以入组进行统计分析。在统计分析之前,应剔除那些明显的与待评估产品和对照产品或方法的说明书规定不一致的样品分析结果,这其中包括了被污染的样品的分析结果、没有经过规定方法处理或提取的样品的分析结果等等多种情况。但对于样本分析结果的剔除应该非常慎重,不得为得到良好的分析结果而进行剔除。如果在一个评估实验中被剔除的样品分析结果的数量过于庞大,则首先应该对试验的过程进行评估,甚至需要对产品的研发过程进行追溯性评估以判断分析结果与预期差异存在的原因。
|