刘博谈验证 这是刘博谈验证的第三十二篇,在本篇中,我们来讨论诊断技术临床验证的研究终点和研究设计。 4.1.3、研究终点和研究设计 诊断性检测验证的终点将决定结果的使用方式,这至关重要的。 诊断检测的验证分为以下层次:技术能力、诊断准确性、治疗影响和对患者结果的影响。 早期关于优秀技术能力的报告往往是后期关于诊断准确性和临床价值(对治疗和患者结果的影响)研究的基础。 在计划和方案制定阶段的关键问题是,研究的目的,是试图测量诊断的准确性(即敏感性和特异性),还是试图研究检测对临床结果的影响,或者两者都进行研究? 请注意,我们将诊断检测的结果定义为检测后过程中的任何变化。它不应该被认为是发病率和死亡率的同义词。 A、准确性 诊断准确性的研究使用一个“金标准”来验证疾病的存在或不存在。 当没有公认的“金标准”时,准确性研究就会出现潜在的困难,可能不清楚应该使用哪一个可用的参考标准,要知道所有的参考标准都是不完美的。 例如,在冠状动脉疾病的诊断检测研究中,冠状动脉造影被试做金标准。 然而,对做过血管造影的患者的组织进行的病理检查表明,放射学程序低估了疾病的严重程度,医生必须在这种情况下解释对准确性的研究结果。 无论是否完美,在实践中,适当的金标准将是医生用来定义特定疾病患者的真实状态的检测或程序。 B、结果 因为诊断技术的目的是提供信息以改善患者的结果,所以患者的结果是技术验证的一个重要终点。 从结果的数据中进行推断可能比解释诊断准确性研究的数据更困难,当使用长期的结果测量时,技术可能在研究完成前就已经过时了。 此外,长期结果可能是一个不现实的标准,因为诊断技术的影响通常要服从于其他因素的影响,如疾病过程本身的性质、患者的依从性、治疗的效果等。 长期结果的改善可能不是一项试验最重要的效果。如果干预变量的作用掩盖了两种技术的长期效果的差异,也许这些差异并不真正重要。 研究人员必须明白,两个具有相同长期结果的患者可能经历了非常不同的检测后过程。 各种中间变量可能是衡量检测效果的重要指标。 此外,这些变量的验证可能比长期效果更实用。 例如,一项研究可以衡量一项诊断技术避免进一步侵入性诊断程序的能力。 在对孕妇进行婴儿二十一三体综合征检测时,NIPT检测未必准确性高于羊水穿刺,但是,NIPT检测能极大程度规避羊水穿刺带来的感染风险,这是一个重大的好处,代表了检测后过程的改进。 因此结果研究必须跟踪中间结果和患者对这些结果的态度。 C、研究终点的选择 表1|试验设计和研究终点组合 表1中描述了研究设计(随机或非随机)和终点(准确性和/或结果)的排列组合。 诊断技术验证的研究设计影响着进行每一种类型研究的可行性。 在随机设计中,每个患者只接受一项研究检测;在非随机设计中,每个患者将接受所有的研究检测,尽管随机化可以用来将患者分配到一个特定的检测序列中。 第三章已经讨论了随机设计的优点和缺点。 下面的例子说明,研究设计可能与选定的验证终点不一致。 在一个理想的研究中,为了比较两种无创检测的准确性,每个患者都要进行两次检查,研究者在一次研究中使用这种方法来验证两种诊断技术的准确性和对结果的影响。 然而,为了比较检测对同一患者结果的影响,在确定准确性时,必须向患者的医生隐瞒两个检测中的一个结果。 这项研究的设计带来了伦理问题,因为患者将接受不能影响其治疗方案的诊断性检查,患者和医生都可能不愿意参与。 在第三章中,我们建议,在验证结果时,随机设计可能比非随机设计更可取,研究者也可以将重点从长期结果转向短期结果。 D、将短期结果作为研究终点 合成方法是一种验证短期结果的方法,如诊断性检测对患者治疗方案选择的影响。 它包括从医生那里获得关于他们检测前治疗策略的详细信息,并将其与检测后对患者的治疗方案选择进行比较。 例如,每个医生在知道两种不同诊断技术的结果之前都会写下患者需采取的措施。 使用一个随机的方案,两个检测中的一个结果将被交给每个医生,然后他们将根据检测结果制定和记录一个治疗方案。 接下来,另一项检查的结果将被披露,而患者的治疗方案最终将基于所有可用的信息,如果医生的计划因为检测结果而改变,那么一项检测就产生了影响。 |