刘博谈验证 这是刘博谈验证的第二十篇,在本篇中,我们来讨论如何设计测试的性能评估试验。 4、测试的真阳性率和假阳性率是在临床上相关的患者分组中测量的吗? 大多数的研究对象都包含了一系列的患者,他们的疾病状态在临床严重程度上都有所不同。 真阳性率和假阳性率的平均数字可能掩盖了亚组之间的临床重要差异,例如,广泛疾病患者的真阳性率可能高于早期或轻微疾病的患者。 理想的研究应该提供了临床上定义的每一个亚组中的真阳性率和假阳性率。 5、是否测量了观察者之间的分歧? 专家们对图像的解释常常有分歧,两位临床医生可以对同一个问题提供不同的答案。 哪种解释是可信的?研究方案应规定由两名或多名观察者独立解释研究数据,并计算观察者之间的分歧。 6、金标准测试是对患者真实状态的准确测量吗? 灵敏度和假阳性率应该是衡量一项测试预测患者真实状态的能力。 事实上,它们是对诊断测试预测金标准测试结果的能力的衡量,如果金标准不能完美地反映患者的真实状态,人们将无法将测试结果解释为对疾病的测量。 7、研究人群的描述是否足够仔细,以便与临床相关人群进行比较? 研究人群的人口统计学和临床特征必须足够详细,以便确定研究结果是否适用于特定临床环境中的患者。 8、选择阳性结果的定义。 大多数关于测试性能的研究都是根据连续变量的单一临界值来定义灵敏度和特异性,但当检验结果被定义为二分法变量,如“阳性”和“阴性”时,可能会丢失很多信息。 许多测试结果被表述为连续变量,如血清中肌酸磷酸激酶的浓度。血清中肌酸磷酸激酶浓度很高,比血清中仅高于正常上限的浓度更能说明心肌梗死的情况。 当知道连续尺度上每一点的灵敏度和特异性时,可以计算出任何测试结果的测试后概率。 |