这是刘博谈临床第十七篇,本篇主要对离群值如何统计进行阐述。 离群值是指样本中的观察值,其值与其余值相差甚远,以表明它可能来自不同的总体,或测量误差的结果。 当试验结果数据中出现离群值时,应先对离群值进行复核以确定是否为随机误差。另外,从干扰、人为错误、仪器故障等多方面考虑查因,根据复核结果进行相应的处理。 若原因可以被查明并予以纠正,可以纠正后的数据代替原有离群值;若原因不能被查明,或可以查明但不能被纠正,则该离群值不纳入定量的统计分析,但可以纳入定性的统计分析。 需要注意,对离群值的处理应持慎重态度,不可随意去除离群值进行分析,必要时应进行敏感性分析,以考察离群值对结果的影响。以下分别根据EP9-A2和EP9-A3进行离群值的统计学检验判断。 1、根据EP9-A2建议判断离群值 对考核系统的测定值(y)和参比系统的测定值(x)按以下方法进行方法间离群值检验,见下表。 任何一点(x,y)如未通过上述两种检验方法,则判断为离群点。每组数据中被删除的离群值不能超过2.5%。任何需要删除的数据均应仔细形成文件并保存,记录发现的原因和问题。 需要注意的是,采用EP9-A2进行离群值检验时,对于双侧离群值检验的能力很差,可能考核系统在X轴,参比系统在Y轴,数值不会判为离群值,但两者更换后,就会被判为离群值,所以在可能的情况下,还是不要采用。 2、根据EP9-A3建议判断离群值 可使用广义极端学生化偏差(ESD)方法判断离群值,其检验服从近似正态分布的一个单变量数据集中的1个或多个离群值。令参比系统的检测结果为x,考核系统的检测结果为y,具体步骤如下: 确定第一个最大的ESD后,如果该样本结果对应的数值被识别为离群值,则将其从数据集中剔除,然后重复以上计算直至没有可识别的离群值或者达到最大的可能离群值上限h。 通过检验离群值,定量分析时将离群值剔除,但剔除的例数不应超过数据总数的5% (当然也可严格要求设定为2.5%),若未超限,可补充相应数量的样本,重新检测后替换原有离群值数据,并再次执行离群值判定。 若超限,则应扩大调查范围,查找出现较多离群值的原因。如能找出问题并追踪到相应的样本,仍可补充样本进行替换;如无法找出问题,则重新收集样本进行分析。 多次出现离群值超限的情况,比如样本替换后的再次判定或重新收集样本分析后仍发现离群值超限,则应停止试验并通知申请人,对临床试验设计的合理性进行全方位的审查。 当然,由于上述离群值的判定方法是基于检测结果符合正态分布的条件,如果检测结果本来就不符合正态分布,则需要考虑其他不要求正态分布的统计学分析方法。 |