刘博谈验证 这是刘博谈验证的第三十八篇,在本篇中,我们来讨论临床验证研究的数据分析和报告。 4.4、数据分析 在设计验证的数据分析阶段时,功效和效果之间的选择很重要。 在疗效研究中,检测解释必须尽可能的准确、一致和客观。 理想的研究将包括对诊断技术检测和金标准的多种解释,以确定观察者之间的差异性。 在有效性研究中,检测的解释将与通常的临床实践一样。解释的程序不一定是标准化的。 4.4.1、准确性 许多因素影响数据解释的准确性。有些因素,如医生的疲劳,很难控制。 一项早期研究的数据表明,在最初的1000次身体扫描后,放射科医生使用CT检测胰腺癌的情况有了很大改善。 医生的技能随着经验的增加而提高,清楚地表明了学习曲线的重要性。当医生的经验有限时,对新检测的早期估计准确度可能比该方法的潜在准确性更能反映他们的解释能力。 4.4.2、一致性和多种检测的解释 保证一致性的最好方法是由同一观察者对某一特定技术的所有检查进行解释,并对异常检查结果进行标准化的定义。 理想情况下,所有使用不同方法的解释者应该具有相似的经验水平,ROC分析适用于验证以连续变量表示结果的检查。 在一项大规模的研究中,数据分析可能需要专家(如放射科医生)的全职投入。 要找到一个愿意为研究投入这么多时间的人可能很困难,同样也很难招募到至少需要重新解释部分检查以确定观察者间差异的专家小组。这些人的参与应该尽早征集,他们的时间应该成为项目的预算开支。 4.4.3、客观性 如何获得解释的客观性? 对同一患者进行不同检查的人之间不能有交集。解释诊断技术检测结果的医生应该对金标准的结果保持设盲,以避免检测审查偏见;同样,解释金标准的医生应该对诊断技术检测的结果保持设盲,以避免诊断审查偏见。 这两种类型的偏见都会导至高估诊断技术检测的真阳性和假阳性率。对诊断技术检测结果和金标准检测结果的设盲是绝对必要的。 然而,大多数关于诊断性检测的研究报告并没有表明采取了这种预防措施。 在疗效研究中,设盲是确定检测准确性的最客观方式。 然而,在没有获得所有相关临床数据的情况下,根据检测结果对患者的护理做出决定,这在道德上可能是不妥当的。 在有效性的研究中,解释将取决于临床信息和特定影像检查所产生的信息的结合。这种方法虽然不太客观,但也是临床实践中使用的方法。 一项研究的设计可以适应“理想”和“通常”条件下的数据分析。应该有两个独立的数据分析:一个(非设盲)解释用于患者护理(从而用于有效性),另一个(设盲)用于疗效研究。 一般来说,如果我们把研究解释和与患者护理有关的解释分开,我们就可以使观察者对所有其他数据的设盲更符合伦理。 4.5、报告 一个执行良好的诊断技术验证的临床效用取决于是否能成功地将结果传达给使用这些检测的医生。 此外,META分析,一种综合了已发表报告中的建议的技术验证形式,取决于对方法和结果的全面报告。 一份好报告有以下16个关键特征:
其中两个项目值得额外关注,因为它们可能是诊断技术研究中隐性偏见的来源。第8项是指“循环验证”的陷阱,在选择参考标准时必须避免这种情况。 当比较研究中的一项诊断技术检测的结果被用来定义患者的真实状态时,就会出现这种情况。为了获得对每项检测性能的有效衡量,必须对它们进行独立验证,使用不同的方法来验证疾病的存在或不存在。 上面列表中的第15项暗示了另一个潜在的偏见来源,诊断技术的研究报告很少包括被认为是无法解释或无法确定的检测结果的数量。 在对十篇关于CT的论文的审查中,只有五篇明确涉及到不满意的检查数量,然而,如果要判断疗效,这种信息是必不可少的。 例如,如果一项检查在100个患者中的70个患者中发现了肾脏病变,10个患者漏检,20个患者的检查结果在技术上不理想,那么总的敏感性是100人中的70人(70%)。 通常情况下,这20个质量差的检查被排除在外,报告的敏感性是70除以80(88%)。 因此,如果研究者没有考虑忽略质量差的检查的影响,真阳性和假阳性率可能会被人为地夸大。 4.6、总结 在本章中,我们研究了诊断技术临床验证的每个阶段所遇到的困难,从规划和设计过程到最终报告的产生。 其中一些问题的解决方案是相对简单的,例如,我们有方法来避免检测审查和诊断审查的偏见。 我们还知道,提高参与的个人和机构之间的合作水平将大大有助于改善研究的结果。 其他问题的解决方案,如何时进行验证或验证哪种应用,则不太明显。 在强调初级数据收集的一些障碍时,我们试图在未来的验证中避免这些困难。在提出一些未解决的问题时,我们希望能鼓励解决这些问题所需的研究,从而提高诊断技术验证的价值。 |