为何需要把panel的TMB转换成WES水平的TMB,比较实用的一点是目前TMB国家参考品还是NCCL TMB室间质评都要求各厂家先把panel的TMB的转换成WES TMB,因为参考的答案都是WES TMB。因此,在此不再强调其重要性和意义。小编总结了2个可以参考的方法,当然各位可以根据自己的数据情况,制定更好的方案。 Panel和WES的一致性评估采用简单线性回归。 首先,获取WES TMB(y)和panel TMB (x) 之间的线性回归曲线y=a+bx和决定系数,该步由R函数lm(http://www.endmemo.com/program/R/lm.php) 实现: lm(y~x, data=your_data)。 在选定的显著性水平(参考品设定为0.1)下,该线性回归曲线的预测区间计算可由R函数predict实现: predict(your_linear_model,interval=’predict’,level=1-alpha)。 若有另外的 panel TMB 数值需计算预测区间,可同样由R 函数predict实现: predict(your_linear_model,newdata=your_panel_tmb,interval=’predict’, level=1-alpha)。 Friends of Cancer Research(FOCR)的precisionFDA组织的TMB lab的Phase2阶段(https://precision.fda.gov/challenges/18)完成的软件tmbLab,此软件只需要用户提供构建模型用的数据和想预测WES TMB的新的Panel TMB数据就可以计算出对应的WES TMB和指定的预测区间。 2.1下载地址 https://brb.nci.nih.gov/tmbLab/ 图1:红框处为适用于linux系统的软件安装包 2.2安装 以linux系统上安装为例,选择图1中红框里的安装包进行下载后,使用R语言进行源码安装,脚本如下所示: install.packages("tmbLab_1.0.0.tar.gz", repos = NULL, type="source") 2.3 软件使用 2.3.1 输入文件Model.WES.Panel.TMB.txt的准备 按照下表1准备构建gls线性回归模型使用的输入文件,Sample.ID为样本编号,Uniform.WES.TMB为该样本的WES TMB,Panel.1为该样本的Panel TMB。 表1:构建gls线性回归模型使用的输入文件格式要求 2.3.2 输入文件NewSample.Panel.TMB.txt的准备 按照下表2准备新的Panel TMB的输入文件,Sample.ID为样本编号,Panel.TMB为该样本的 Panel TMB。 2.3.3 使用下面函数进行转换 说明:Calib.Interval参数为用户可以指定的预测区间,默认值为95%的预测区间,如果想计算90%,则设置为90即可。 2.4软件算法原理 我们检测到的TMB数值,其数值越大数据就越离散,即变异会越大。为了防止我们的模型过拟合,tmbLab软件采用gls线性回归模型,即线性回归系数的广义最小二乘(gls)估计。各TMB数值对模型的贡献取决于产生该数据的分布的变异,变异越大其权重就越小,因此此模型解决了过拟合的问题,从而增强其预测的准确性。 在使用上述2种方法时,小编在此特别强调我们计算的是预测区间,不是置信区间。置信区间(confidence interval estimate)是利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。预测区间(prediction interval estimate)是利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间。预测区间的范围总是要比置信区间的范围要大的。 |