上文提到,回顾性临床研究作为临床试验资料将存在诸多难以控制的试验偏倚,因此,AI软件的临床试验应优先考虑前瞻性临床研究,尤其是对于具有病灶定位能力的AI软件产品,这些产品的风险级别往往较高。
根据《深度学习辅助决策医疗器械软件审评要点》的要求,AI软件的临床试验应基于软件的预期用途、使用场景和核心功能进行试验设计。虽然不同的AI软件针对的疾病类型各不相同,但其试验设计和统计方法大多是类似的,因此,这里优先讨论前瞻性临床试验中的病例选择问题。
根据《深度学习辅助决策医疗器械软件审评要点》,入排标准应基于目标疾病的流行病学特征,保证阳性样本和阴性样本选取的合理性和充分性。在实际入选患者的时候,结合产品的特点可选择具有特定特征患者的样本,例如针对肺结节识别的AI软件,可选择需进行肺结节筛查的高危人群(如年龄40岁以上,年吸烟史>20包/年,戒烟<5年等)。
采用该方法进行病例入选具有很好的样本代表性,但该方法的入组时间较长,耗费成本可能较高;另一种比较折中入选病例的方法是有针对性地入选患者,由研究者根据患者的体征、症状等综合判断其是否应该接受影像检查,例如某患者具有发热、咳嗽、咳痰等症状,当研究者怀疑其有肺部疾病时,可对将其纳入到某AI软件的临床试验中。该入选病例的方法较有针对性,也是诊断试验中比较流行的一种做法,但为进一步避免选择偏倚,在实施这种入组方法时应在方案中对每一种疾病类型/严重程度的样本量比例进行规定。
在评价指标方面,根据《深度学习辅助决策医疗器械软件审评要点》的要求,原则上选择灵敏度、特异度、ROC/AUC等作为主要评价指标。对于针对病灶定位的AI软件,其灵敏度应在病灶水平上进行统计。当临床试验选择用户结合软件联合决策与用户单独决策进行优效对照设计时,可选用ROC/AUC作为主要评价指标。此时研究者需要在没有AI软件辅助的时候单独找出影像上的病灶,并对这些病灶进行5级把握度评分(肯定不是病灶、可能不是病灶、无法确定、可能是病灶、肯定是病灶),然后再在有AI软件辅助的情形下,重新按上述方法进行病灶评价。需要注意的是,采用此种方法进行评价时应注意阅片的随机顺序,以避免研究者的记忆偏倚,如有可能,建议可在两次阅片之间设置一定的洗脱期。
诊断正确的定义应为在正确的位置上识别出正确的病灶。以阅片数据中对每个病灶的5级评分作为截断值,即可建立相应的ROC曲线。常见的曲线绘制方法有定位ROC曲线法(LROC)、因变量自由的ROC曲线法(FROC)及感兴趣区域的ROC曲线法(ROI-ROC)等,其中LROC法要求研究者对图像上的某处至少一个病灶进行把握度评级,然后选出最有可能是病灶的区域,对于同一影像中的多个病灶,多出来的病灶不多加分。因此,该法比较适用于病灶数目不超过1个的情况。对于每例患者病灶数目超过1个的情况,可采用FROC进行评价,此时,曲线的纵坐标为灵敏度(正确定位的病灶比例),横坐标为每一个个体的平均假阳性数。AI软件的诊断准确度评价的另一种方法是ROI-ROC法,这种方法将检测区域分为有临床意义的ROI,如肺结节检测时的五段肺叶,乳腺癌检测时的左右乳房等,然后要求研究者识别并定位所有的疑似病灶,并对这些病灶进行把握度评分,然后上述评分进行ROI的映射,若真实的病灶被判定为“疑似”,则该处得分就是该ROI的得分,若真实的病灶检测出错(包括没有病灶的地方被判断为是病灶以及病灶定位出错),则此时的ROI得分为最低的把握度。以上述ROI的不同分级为截断值即可构建ROC曲线,然后采用3级或4级作为截断值即可构建出相应的灵敏度及特异度指标,对AI软件的诊断性能作出综合的评价。
需要注意的是,在上述这些临床试验中,同一个病人的多个病灶检测时存在一定的相关性的,在估计灵敏度、特异度及ROC曲线时,应对这种聚类数据进行统计校正,以正确评价产品的性能。