刘博谈验证 这是刘博谈验证的第三十四篇,在本篇中,我们来讨论样本量和技术“版本”,临床验证研究中需要认真考虑的问题。 4.1.7 样本量 作为计划阶段的一部分,研究者必须计算出所需的样本量,以确保研究有足够的力量。对71项“阴性”临床试验的回顾发现,由于样本量太小,其中50项试验有超过10%的机会错过真正的50%的治疗改善。 一项研究应该避免两类错误。 第一类错误(α类错误)发生在我们拒绝无效假设H0时,而该假设为真。例如,我们可能会得出结论,CT和MRI的准确性存在差异,而实际上不存在差异。(无效假设指的是被检测的基本假设,通常是被比较的两个实体之间没有差异。) 第二类错误(β型错误)发生在我们接受无效假设H0时,而该假设是假的。例如,当CT和MRI的准确性存在差异时,我们可能会得出结论说没有差异。 一项研究的力量等于1-β:它是当替代假设(MRI比CT好)为真时,拒绝无效假设(即MRI不比CT好)的概率。 从另一个角度看,当我们增加研究的力量时,我们减少了β,即错过两个检测效果之间的真实差异的概率。 增加样本量是在不增加α的情况下提高研究力量的主要方法,α是指在差异不存在的情况下得出结论的风险。 研究者必须考虑他们需要筛选多大的患者群体以达到适当的样本量。 试验计划阶段的许多决定将影响入组人群的规模。 样本量的计算取决于选择哪些结果变量,以及我们希望检测的准确性或结果差异的大小。 直接影响样本大小的因素包括研究人群的异质性和现有诊断方法的准确程度。 其他影响筛查人群规模的因素有:所研究的疾病的频率、研究重点的广度以及患者退出的可能性。 如果忽略了这些因素,结果可能是严重低估了所需的患者数量,并且很可能出现第二类错误。 大样本量的问题可以通过使用多机构合作设计而不是试图在单一中心进行研究来克服。 4.1.8 合适的技术验证“版本” 选择一个具体的临床问题并确定技术验证的适当比较,是计划过程中重要而具有挑战性的方面。 然而,在试验的这个阶段,最大的挑战也许是确定何时进行研究。 为了使验证对新技术的使用产生影响,有些人认为,在临床医生对技术的价值做出主观判断和广泛传播之前,必须要有验证结果。 研究必须在技术的“生命周期”内尽可能早地开始和完成。然而,由于新技术固有的不稳定性,非常早期的验证可能是困难的,甚至是不可取的。 技术变化的速度很快,对诊断技术的影响与其他类型的技术一样。 例如,一种诊断方法,特别是像MR扫描仪这样复杂的方法,很少以其最有效的形式被引入实践。 相反,该技术继续发展,并根据从其早期实践使用中获得的信息进行改进,变化可能包括硬件的新配置和使用技术的改进。 随着医生对该方法的经验积累,他们的解释能力也在提高。 因此,在一项技术的生命周期中过早地进行研究可能无法反映其真正的潜力。让患者接触一种“未经证实”的技术也可能被认为是不道德的,特别是在没有足够的时间来考虑学习曲线的影响。 决定验证技术的哪个“版本”是很重要的。 例如,MRI不是一个同质的诊断检测,而是提供一系列相关但不同的诊断检测。这种技术上的灵活性给试验计划者带来了一些困难的决定。 一项研究应该“冻结”技术并指定标准硬件和技术,还是应该系统地比较其他硬件配置的功效? 在第一种情况下,所选择的配置有可能在研究仍在进行时就已经过时了。在第二种情况下,当研究完成时,MRI的扩散可能不再是一个问题。 用技术验证作为控制新技术传播的手段可能并不实际。 有些人认为,至少在某些临床条件方面,在技术稳定之前,不应该进行研究。 随机设计并不适合这种类型的研究,稳定化往往发生在医生开始认为从他们认为会受益的患者身上扣留技术是不道德的。 然而,可以使用非随机设计,因为每个患者都会接受新的检测,这样就有可能预测成熟技术对哪些患者有用,而且结果可以用来影响报销的决定。 4.1.9 总结 规划和制定诊断技术验证的方案是一项耗时的活动。 研究者将面临众多的决定,关于研究设计的观点冲突可能需要在更实用的方法(有效性)和理想的方法(疗效)之间做出妥协,同时技术变化将强烈影响研究的时间。 一般来说,在尽可能代表临床相关人群的患者群体中进行重点研究,将获得最有用的结果。 准确性是一个重要的终点,但研究也应验证对患者来说很重要的中间结果。 该研究还应该包括成本效益分析。 被比较的检测的性质会影响到随机和非随机设计之间的决定,以及验证技术作为现有方法的补充还是替代的决定。 随机设计或非随机设计的选择还取决于研究是验证准确性、结果还是两者,以及技术是成熟的还是刚刚出现的。所有这些决定都会影响到样本的大小,因此也会影响到为研究招募患者所需的努力程度。 |