导语里面有个错误,大家发现了吧。不是超高灵敏度卷不起,而是万分之二更有性价比? 关键是如果卷性能,究竟应该怎么比? 
MRD 的性能为何重要
最近推送的不少内容都和 ctDNA MRD 相关,比如 于是有小伙伴在通读之后来询问我的观点是不是:MRD这个东西,性能够用就可以了,关键在于落地的难度和价格。
这话,我以为对了一半。 落地的难度和面向患者的价格确实很关键,但是「性能够用」这事儿远远没那么简单。 对于MRD这种未来必然会影响患者治疗方案的检测,永远是越灵敏越好。 但凡有人说「够用就行」,都应该想想背后是不是有小心思。在确保检测技术特异性的基础上,提高灵敏度,一直是MRD需要努力攻克的难点。MRD 在科学研究的定义里是 minimal residual disease。但,在各家检测公司的认知里,MRD 私下应该翻译为 "Must Regularly Do"。预后价值只是 MRD 临床应用很小的一部分,远不能满足市场期待和对得起各家投入。它更多的想象空间在于能够帮助医生进行辅助决策。癌症患者术后1周采血,随后每3到6个月进行动态监控。MRD只有变成癌症患者的定期体检,才是这类产品未来真正的高频场景。因此,终极目标是指导患者升阶降阶治疗的产品,性能越强悍越好。
MRD 卷性能,要怎么卷最简单的方法,就是在你的规则里,用你的方法,你的数据,打败你。性能重要,但谁想把性能作为产品最大的亮点,很难。一个产品如果选择了性能,大概率就要在这条路上一去不回,最怕扭扭捏捏。关于性能怎么比,前一段时间结束的 ESMO 2023 大会上,Personalis MRD 产品 NeXT Personal 做了一个示范,接下来我们就详细看看。对于一个检测产品,要比的无非是实际检测性能和临床表现性能。2023 ESMO LBA55 的研究内容是 Personalis 家的MRD产品 NeXT Personal 依托 TRACERx 研究的再探索,也可以说算是一次针对 TRACERx 研究先前 MRD 检测产品的「头对头PK」。 在之前的推送中,我们提到过 NeXT Personal 主打的优势之一就是极高的灵敏度和特异性,换句话说就是可以检出那些突变频率极低的位点。为什么需要这样呢?他们一上来先介绍了真实情况下肺癌检出有多难。用肺癌不同结节大小作为估计,可以看到对于一个在T1b期,nodule diameter 为1.2 cm的肺癌患者来说,对应ctDNA MAF 仅为0.008%(0.002-0.03%),嗯,十万分之八,最低十万分之二。这里多说一句,目前国内专家共识中要求肺癌MRD是可以稳定检出万分之二的ctDNA。如此这般,在临床应用过程中,有多少临床表现和MRD本身检测灵敏度的缺失有关?为了回答这个问题,Personalis 直接丢出了 TRACERx 在 2017 年和 2023 年两篇 Nature 中使用的MRD产品性能数据。2017 发表的这项研究,16个突变,用的是 Natera 的 Signatera , 而2023年的50个突变,一看便知是燃石的PROPHET,额,开个玩笑,用的是Inivata RadaR(现在归属NeoGenomics)。在LOD95的情况下,前者可以检测出万分之一的VAF,后者则可检出十万分之八的VAF。Personalis 的性能可以变态到什么程度呢?通过追踪大约 1800 个突变,在LOD95的情况下,可以做到检出VAF为百万分之四。模拟投入 1ng DNA 的情况下,检出下限可以探到十万分之一。通过模拟测试,specificity 直接干到了99.98%……这种数量级差别的性能提升,又会给分析结果带来什么变化?于是,他们挑选了TRACERx IA到IIIA期肺癌患者,分析术前血。可以看出,NeXT Personal 的 ctDNA 检测率明显更高,尤其是在腺癌患者中。之前的两种检测方法对非腺癌中 ctDNA 的检测率相对较高,均为 92%。NeXT Personal ctDNA 检出率为100%。而腺癌中的差异更为显著,Personalis的ctDNA总检出率为81%,Inivata和Natera检测方法的检出率分别为42%和19%。当研究人员将患者按分期划分,NeXT Personal 在 52% 的 I 期、88% 的 II 期和 100% 的 III 期中检测到了癌症信号。有了这样的检测优势,再去根据ctDNA的状态进行分组生存分析,就是要看临床性能。这些手术前ctDNA阴性患者的五年总生存率为100%,无复发生存率为94%。相比之下,手术前ctDNA阳性的患者五年内癌症复发的风险很高。值得注意的是,这些高风险患者使用其他 MRD 检测方法不会被称为 ctDNA 阳性。同样分类标准的生存曲线,在之前的文章数据中是这样子。即便在非腺癌中,根据ctDNA的进行区分,也可以做出接近显著的OS结果。Personalis 决定把2023年 Inivata 检测过的 ctDNA 小于十万分之八的样本重新拿过来,按照自己检测的「真阴性」和「阳性」再进行一次分析。结果如下图,自己的真阴性样本在生存曲线中是天花板直线,而先前实际是MRD阳性的患者,则在5年的RFS和OS中掉得非常明显。如果你无法检测到这些病人的分子残留病灶,如果他们被错误分组和定性,就有极大可能在未来改变医生对他们的看法和可能采取的治疗方式。以上还都是在术前基线分析,如果考虑到后续随访监控又会如何?TRACERx 与 Personalis 正在进行一项合作,研究人员在跟踪大约450名患者中每名患者的350个特异突变,进而评估 NeXT Personal 在手术后和监测过程中是否也会产生类似的临床影响。
用正确的方法证明自己正确
回到开头我们说的,对于终极目标是指导患者升阶降阶治疗的产品,会影响患者治疗方案的检测技术,性能永远越灵敏越好。只不过,如果真想突出性能,就应该像 Personalis 尽可能选一个合适的比较方案和对象。道理不难懂。想证明一个高中生成绩优秀,就不能去和小学/初中时候的自己比。退一步,如果一定要和初中生比,也要想尽办法找到初中学习最好的那个。不然,即便大家做的是同一套高考模拟题,也会有人说这个比较没意义。 放到 MRD 产品策略,基本公认检测性能最好的个性化位点监控,卷性能,还要和固定化 panel 比,就要想尽办法用最拿得出手的 panel 产品。 还想让更多人服气,铁了心也要和市面上其它个性化监控策略产品比。 在同一个标准下,你能测万分之一,我能测十万分之一,这就是性能优势。我测出来的阴性是真阴性,患者五年生存100%,这就是性能优势转化为临床优势。 再进一步,我把你检测限以下的阴性样本拿回来,还能分出真阴性和之前的漏检阳性,同时它们各自的临床表现依旧是天花板和楼梯线的区别,这是真大腿。 写到这里,熟悉MRD研究的小伙伴应该看出来了莫非我在阴阳怪气  。哎?难道你说的是? 
是,也不是。 一方面这确实是为什么我之前一直没有解读这篇文献的原因之一。但说说简单,在国内目前实际的环境下,即便燃石想这么做,也许各种因素混杂在一起也很难执行下去。 这种比法他们不是没做过,也不是没赢过。2022 年 FDA 牵头的检测性能比较就是如此。 只不过今年 Cancer Cell 的 MEDAL 研究出来,即便着实回答了不少MRD现阶段的真实问题,碰到较真的医生还是会少一点底气。 以及,当专家共识的及格线是万分之二,做到十万分之二就够了么? 至少现在看 TRACERx 的数据,还不够,做到百万分之几以及 1ng 投入量情况的十万分之几仍然有意义。 话还得说回来,十万分之二不够,如果还有谁继续宣称检出是稳定在万分之二的,尴尬。 共识是特殊阶段的产物,只要阴性结果在五年生存分析中还不是天花板,性能之争就可以继续。
写在最后 以及,对于癌症患者来说。影像学看不见不代表健康,如今分子残留病灶检不出也不代表绝对的健康。 各家产品吵来吵去的时候,也许癌症患者已经进入了薛定谔的猫的状态。即便做了手术,等待着他们的永远是下一次 MRD 结果,这样真的是最好的么。 最后,希望看重性能的产品请继续坚持下去,不要妥协道:不是超高灵敏度卷不起,而是万分之二更有性价比。
|